发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
12下一页
发新帖
admin,SEO前线管理员    

【分享征集第一期】搜索引擎原理中的SEO知识

为了更好的引导论坛的内容,使论坛对更多处于各个阶段的SEO从业者有所帮助,将不定期展开围绕一个话题的心得分享征集。

第一期的主题是,搜索引擎原理中的SEO知识。

许多SEO新手入门的时候绕了很大的弯,或因为过于看重实践、或许只是懒惰,导致疏忽了理论上的学习。SEO是面向于搜索引擎的,所以SEO的理论学习一般也是以搜索引擎的知识为主。

但搜索引擎原理总体而言枯燥乏味、难以理解。大多SEO刚接触搜索引擎原理的时候,可能感觉到和自己日常所做的SEO稍有关系,但却无法总结出到底哪些对自己有帮助,也不知哪部分应该深入理解、哪部分可以粗略带过。

因此希望过来人重点分享下学习搜索引擎原理的方向,新入门的重点分享下学习搜索引擎原理上某一点的感悟,也可随着分享提出一些自己的问题。

请单独开贴分享,不要回复在这个贴,这样帖子看到的人会比较少。

这个话题的帖子,若内容质量比较靠谱,将至少得到来自管理员的两个赞同数。
发表于 2014-6-29 20:26:37 |只看大图
回复 收藏
born,个人微信公众账号:jinan_seo请马上关注    

大力支持!能力不行写不出来,坐等更新。
发表于 2014-6-29 20:43:47
回复 收藏
ZERO,SEO执着爱好者    

born 发表于 2014-6-29 12:43
大力支持!能力不行写不出来,坐等更新。

建议一起看看搜索引擎原理,一起分享些内容。
发表于 2014-6-29 21:48:51
回复 收藏
小小,优雅的拍砖    

本帖最后由 小小 于 2014-6-30 10:26 编辑

深度优先策略:深度优先策略的遍历策略类似家族继承的策略,典型的如封建帝位的继承。

宽度优先策略:称为“广度优先”,或“层次优先”,它是一种层次型距离不断增大的遍历方式,类似长幼有序的规则。

在抓取的顺序策略上选择宽度优先出于:1,重要的网页往往离种子站的距离近(反推:布置好网页前面的链接) 2,万维网的深度没有我们想象那么深,到达某一个网页的路径通常很多,总会存在一条很短的路径到达。3,宽度优先规则有利于多爬合作抓取。这是因为规则开始抓取的网页通常都是站内网页,逐渐遇到站外链接,因此抓取的封闭性较强。

不重复抓取策略:爬虫记录历史的方式是哈希表,每一条记录是否被抓取的信息存放在哈希表的某一个槽位上(反推:url设计要合理,避免url的重复

为了防止爬虫无限制的宽度优先抓取,必须在某个深度上进行限制。到达这个深度后就应该停止抓取,这个深度的取值就是万维网直径长度。因此网站尽量使用扁平化结构。

抓取提速策略:
1)提高抓取单个网页的速度(可以进行前端代码优化,使用HTTP头的Expires
2)尽可能减少不必要的抓取任务(对一些无意义的内容,用户不会检索的内容进行nf,例如联系我们
3)增加同时工作的爬虫数量

抓取这章的理解

评分

参与人数 5赞同 +24 收起 理由
panda + 4 很给力!
老狼 + 4
思明 + 4
涂丹 + 4
ZERO + 8

查看全部评分

发表于 2014-6-30 10:24:49
回复 收藏
ZERO,SEO执着爱好者    

小小 发表于 2014-6-30 02:24
深度优先策略:深度优先策略的遍历策略类似家族继承的策略,典型的如封建帝位的继承。

宽度优先策略:称为 ...

几点要补充纠正的:

1. 爬虫记录URL采用哈希表,这个纯粹是技术问题,和SEO没有关系;

2. 对于“联系我们”这类页面不加nofollow通常也不会有显著问题,如今的搜索引擎一般自己会发现这些是不重要的页面而减少抓取。但总体来说用户不会检索的内容nofollow掉的思路还是适用。
发表于 2014-6-30 10:44:37
回复 收藏
思明,技术宅男SEO之路    QQ:176089710    

需要特别注意:
这里的深广度指的是链接在页面上被发现的深度、层级。而非链接的文件目录层级。
发表于 2014-6-30 14:38:03
回复 收藏
老狼,老狼博客 www.lanzhihui.com    [ 版主 ]

1、网页下载速度
2、链接曝光度
发表于 2014-6-30 15:01:49
回复 收藏
vic,请到个人资料页面设置个人签名    [ 版主 ]

网页消噪
网页消噪是在搜索引擎预处理中很重要的一个部分,通常网页中的广告、导航、版权信息等会被判定为噪音内容;
噪音内容对搜索引擎判断当前页面的主题没有太大的帮助,如果网页中大量的广告、导航条等噪声内容会导致网页主题漂移;
假设不去除原始网页中的噪声内容,检索系统就对噪声内容建

立索引;
从而导致只是因为查询词(关键词)在网页中的某个噪音内容中出现 而把网页做为搜索结果返回给用户;但网页的主题内容和用户的查询词完全不相关;
ps:各人经验,如果某一块内容在网站中所有的或大部分页都出现即为噪音内容;

评分

参与人数 2赞同 +12 收起 理由
ZERO + 8
行书 + 4 给赞理由下面讲

查看全部评分

发表于 2014-6-30 21:04:50
回复 收藏
行书,请到个人资料页面设置个人签名    

以前和群友聊的时候,也有人说到这个,最后一个解释一下,可以理解成这样:
企业站往往左边或者右边,是一整条的产品导航,且每页都是相同位置相同内容,这就是一噪音。
每个页面的友情链接、公司新闻、技术文章都一样,那么也是一个噪音。
发表于 2014-6-30 21:16:58
回复 收藏
晴天,请到个人资料页面设置个人签名    

本帖最后由 晴天 于 2014-7-1 03:17 编辑

网页查重 page56
重复的网页对于搜索引擎来说意味着要多被处理一次,所以无论从系统效率或者检索质量来说,重复网页都是有害的。

网页的4种相似类型:
(1) 两个网页的内容和格式上完全相同。(类似镜像页面)
(2)两个网页的内容完全相同,但格式不同。(类似抄袭页面)
(3)两个网页有部分重要的内容相同并且格式相同。(类似伪原创)
(4)两个网页有部分重要的内容相同,但格式不同。(类似伪原创)

采用网页签名的方法很容易检测网页完全一致。

网页查重实现方法 page58
网页查重首先需要提取结构化网页的正文和标题,将复杂的网页转化为具有标题和正文的文档,因此下面称网页查重为“文档查重”。
文档查重的第1步就是特征抽取,特征 抽取的方法有两种:
第一种是特征抽取方法着眼于尽可能抽取一个特征,这样比较两个文档是否相似只要比较一次即可。
第二种特征抽取方法是抽取多个特征词汇,通过比较两个特征集合的相似度实现文档查重,

网页查重的第2步是相似度计算和评价。
I-match算法抽取的特征只有一个,因此只需要为文档计算一个签名值,如果两个文档的签名值相同,则文档相似。大规模文档做查重只需要维护一个哈希表即可,每来一个文档查找一次哈希表。如果哈希表的槽位被置位,说明已经存在相似文档。(什么是哈希表)

shingle算法:特征抽取方法是抽取多个特征词汇,通过比较两个特征集合的相似度实现文档查重。抽取多个特征,shingle在英文中相互覆盖的瓦片。

从这两个算法中我们知道现在的伪原创什么根本就是在自欺欺人,基本不会骗过搜索引擎,我们应该从用户角度出发,采集过来文章,适当加个小标题,添加图片,补充下知识百科。。。。添加点利于用户的东西。

网页查重的第3步就是网页消重。
消重就不可避免遇到这样一个问题,即在相同或者相似的网页集合中保留哪一个,而消除那些呢?从版权的角度考虑,应该尊重原创,过滤转载或者复制的网页,从网页寿命的角度考虑,过滤掉那些网站质量不高的网页,保留大型网站的网页,从容易实现的角度考虑,首先保留被爬虫抓取的网页,然后丢弃被抓取的相同或者相似网页。最后一种方法最为简单实用,由于保留被爬虫抓取的网页同事很大成都上也保证了优先保留原创网页的原则,因此被广泛采用。
从这里我们也可以知道新出来的文章,第一时间ping给百度,添加网站地图。对于一些重复性很高又没多大用处的可以js屏蔽,避免噪音


内容专转载自:
http://www.zhengmaotang.com/?p=67

评分

参与人数 1赞同 +8 收起 理由
ZERO + 8

查看全部评分

发表于 2014-7-1 10:58:25
回复 收藏
行书,请到个人资料页面设置个人签名    

晴天 发表于 2014-7-1 02:58
网页查重 page56
重复的网页对于搜索引擎来说意味着要多被处理一次,所以无论从系统效率或者检索质量来说, ...

你忘记说一句话:
转载自:
http://www.zhengmaotang.com/?p=67
发表于 2014-7-1 11:15:21
回复 收藏
行书,请到个人资料页面设置个人签名    

走进搜索引擎整理(第三章下)


3.3 网页查重 page56
重复的网页对于搜索引擎来说意味着要多被处理一次,所以无论从系统效率或者检索质量来说,重复网页都是有害的。

网页的4种相似类型:
(1) 两个网页的内容和格式上完全相同。
(2)两个网页的内容完全相同,但格式不同。
(3)两个网页有部分重要的内容相同并且格式相同。
(4)两个网页有部分重要的内容相同,但格式不同。

采用网页签名的方法很容易检测网页完全一致。

3.3.2 网页查重实现方法 page58
网页查重首先需要提取结构化网页的正文和标题,将复杂的网页转化为具有标题和正文的文档,因此下面称网页查重为“文档查重”。
文档查重的第1步就是特征抽取,特征 抽取的方法有两种:
第一种是特征抽取方法着眼于尽可能抽取一个特征,这样比较两个文档是否相似只要比较一次即可。
第二种特征抽取方法是抽取多个特征词汇,通过比较两个特征集合的相似度实现文档查重,

网页查重的第2步是相似度计算和评价。
I-match算法抽取的特征只有一个,因此只需要为文档计算一个签名值,如果两个文档的签名值相同,则文档相似。大规模文档做查重只需要维护一个哈希表即可,每来一个文档查找一次哈希表。如果哈希表的槽位被置位,说明已经存在相似文档。(什么是哈希表)

网页查重的第3步就是网页消重。
消重就不可避免遇到这样一个问题,即在相同或者相似的网页集合中保留哪一个,而消除那些呢?从版权的角度考虑,应该尊重原创,过滤转载或者复制的网页,从网页寿命的角度考虑,过滤掉那些网站质量不高的网页,保留大型网站的网页,从容易实现的角度考虑,首先保留被爬虫抓取的网页,然后丢弃被抓取的相同或者相似网页。最后一种方法最为简单实用,由于保留被爬虫抓取的网页同事很大成都上也保证了优先保留原创网页的原则,因此被广泛采用。

3.4 中文分词(important) page62
网页查重的工作完成后,分析系统在将分析的节诶过发往索引系统前还需要对正文进行分词,也成为“切词”。

中文分词主要体现了3种难分类型。
(1)交集型歧义
在阿拉伯数字字串AJB中,若AJ∈D、JB∈D、A∈D且B∈D,则AJB为交集型歧义字段。此时,AJB有AJ/B和A/JB两种切分方式,其中J为交集字段。例如,“从小学”,这个词可能有多种切分方法。

对于“从小学电脑”,正确的切分为“从小/学/电脑”。
对于“从小学毕业”,正确的切分为“从/小学/毕业”。

(2)组合型歧义
在字串AB中,若AB∈D、A∈D且B∈D,则AB为组合型歧义字段。此时,AB有AB和A/B两种切分方式。

“中将” 这个词可能有多种切分方法。
对于“美军中将竟公然说”,正确的切分为“美军/中将/竟公然说”。
对于“新建地铁中将禁止商业摊点”,正确的切分为“新建地铁/中/将/禁止商业摊点”。

(3)混合型歧义
同时包含交集型歧义和组合型歧义,则为混合型歧义。

目前还没有一种分词方法能够解决全部的问题。

3.5. PageRank page 67

PageRank在百度百科有更详细更好的解答。
网页重要性的评价有3点:
(1)认可度越高的网页越重要,即反向链接越多的网页越重要。
(2)反向链接的源网页质量越高,被这些高质量网页的链接指向的网页越重要。
(3)链接数越少的网页越重要(导出的链接数量)

3.6分析系统结构图 page76
分析系统在搜索引擎的构架中承担了网页结构化、网页消重、文本分词及PageRank计算等4项基本任务。

分析系统分析网页的步骤:
(1)经过一个网页结构化的过程,包括建立标签数并从网页中抽取有价值的属性,完成从原始网页打包成一个网页对象的过程。
(2)网页消重模块丢弃冗杂的页面,相似或相同的网页仅保留一个传给分词模块。
(3)文本分词将正文切分成以词汇为单位的集合。
(4)将分析的结果发往索引模块,进行索引入库。

以上4个步骤中网页结构化、消重、分词这三项工作同步计算,因此速度非常快。仅PageRank的计算非常耗时,而且必须积累一定数据后才能生成一次数据。由于执行一次PageRank的计算代价极大,因此采用离线计算方法。离线计算的结果是一个PageRank列表,其中包含每个网页的一个PageRank值。该值越高,网页的重要性越高,在检索时就越容易被检索到。在索引系统中会利用该PageRank值对文档列表索引项的先后顺序产生影响,也就是越是重要的网页在索引中越能够占有利的位置。

转载自:http://www.zhengmaotang.com/?p=67
其他详情:http://www.zhengmaotang.com/?tag=seyl
发表于 2014-7-1 11:17:01
回复 收藏
晴天,请到个人资料页面设置个人签名    

行书 发表于 2014-7-1 03:15
你忘记说一句话:
转载自:
http://www.zhengmaotang.com/?p=67

补上    主要去看了理解下  。。。。
发表于 2014-7-1 11:18:14
回复 收藏
52gcs,一条路走到黑    [ 版主 ]

都是干货啊,好几天没来了,看来这里牛人不少,admin是谁呢
发表于 2014-7-1 16:54:14
回复 收藏
why,请到个人资料页面设置个人签名    

vic 发表于 2014-6-30 21:04
网页消噪
网页消噪是在搜索引擎预处理中很重要的一个部分,通常网页中的广告、导航、版权信息等会被判定为 ...

网页噪音是不被键入索引的,搜索引擎是怎么把哪些区域看做是噪音的?
发表于 2014-7-4 16:21:49
回复 收藏
12下一页
快速回复 返回顶部 返回列表