本帖最后由 苦战 于 2014-6-13 16:02 编辑
SEO优化技术讲到头无非是内容与链接,而链接又建立于内容之上,所以内容就是SEO优化的基石。但是优质与独特的内容不是随手可得,为了追求独特的内容,伪原创技术就开始发展起来。SEO伪原创技术顾名思义就是伪造一些看似原创的内容来蒙蔽搜索引擎,从而获得更多的内链或外链,站群也是非常依赖伪原创技术的。素老胡写本文的用意在于用程序化的具体实现来告诫一些SEO新手或一直利用软件伪原创的朋友,这些方法只是掩耳盗铃,一叶障目。若真想做好的SEO需要务实的去思考与实践,只有走正道才能做好SEO,才能做的长久。 今天我们详细深入的说下SEO伪原创的段落混淆技术,并且利用程序来实现相似度检测(反作弊检测),从而说明这类伪原创技术是非常容易背识破,让大家放弃这些作弊的想法。 文本一:A,B,C,D,E,F,G
文本二:G,F,E,D,C,B,A 我们用不同的英文字母来代替一些文本内容,这样更便于我们理解和观察。从视觉上来说,两短文本文序不同,但所传达的信息是相同的,所以最开始很多SEO人员利用这种混淆段落顺序的方法来创造伪原创文章。下面我们看看这些伪原创是如何被轻松的识破的。下面简单的讲一下识别的原理(验证方法有很多种,我只取了其中一个作说明)。 清洗文本内容(标准化)的目的是将一些中英文符号,英文大小写等一样含义不同写法的内容统一,避免因为大小写不同而错误的判断为两个完全不同的内容,这里清洗是为了将内容MD5编码化打基础。 拆分文本为段落数组后MD5编号,这里是为了更高效的判断任意两段文本是否一致,这里是为了内容交集计算打下基础。 内容交集计算就是获得两段文本中到底有多少个独立的段落内容是一样的,这里不考虑出现的位置,只判断内容是否存在重复。 下面的图片更加详细的展示了大致过程
来自素老胡博客
|