发现更大的SEO世界
 找回密码
 注册

扫一扫,访问微社区

搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
AIR_seoqx,希望在SEO前线的乐土中,真正享受SEO的滋润。    

浅谈搜索引擎的网页文档结构化

        对于搜索引擎的学习,是SEO人员必须要突破的知识点之一。对于这些知识的学习,就类似于我们学习物理基础知识一样。通过牛顿的力学定律理论,我们可以发导弹和火箭发射升空,甚至到达太空,当然通过这个举列来说明原理性的知识是最重要的。只有掌握了根本的技术理论,从常识出发再结合实践操作,统计常规数据。从而进一步总结出自己的SEO体系化知识!在SEO前线论坛创始人zero的倡导下:结合自己理解的搜索原理,总结出自己认为比较重要的知识点,所以构思了这一篇帖子。

        为了不断章取义,首先要对几个常见的术语加以或者重写认识和理解。
        1、半结构化数据
        互联网上的数据,一般都是以网页为载体表现,那万维网的网页是具有一定的结构性,这种结构性的表现是基于html标记语言。这种网页原始数据被称为“半结构化数据”。

        2、网页数据的信息抽取
        对于半结构化的数据,是不能满足网页结构化的需要。那首要的工作是分门别类的从半结构化网页中抽取出有价值的能够代表网页的属性。锚文本,标题,正文标题,正文,正向链接。这样技术实现被称为“网页数据的信息抽取”。

        3、锚文本
        或许看到这里的时候,会有人抱怨,这个你也需要解释。这都是一下最基础的知识!我会选择沉默,但请你看完之后在下定论。网页中关于链接的一段描述,通常以文本图片的方式出现。以链接的方式可以指向文中的某个位置,也可以指向其他网页。或许这样的认识,对于你在其他地方看到的理解有些不同吧。细心的人,总是能超越别人很多的。
      
       通过以上几个术语的学习,我们要开始进入搜索引擎结构化数据的大门,从而通过这些基础理论知识指导我们如何做好网页文档。网页抽取信息中,提到了几个重要的因素,下面先从这里开始谈起:
        1.标题:title包含了网页的基本含义,和锚文本相同的是,都是用来描述网页的内容的属性。
        2.正文标题:在html网页中,<title>标签中的文字没有任何描述能力,因而并不是合格的标题,为此需要抽取正文中的适当文字作为正文标题。
        3.锚文本:除了网页标题可以描述网页以外,还会有一些锚文本来描述它,特别是对于某些没有标题的网页,锚文本是最有益的补充。
        4.正文:锚文本、标题和正文标题都是网页的简短描述,而正文是一个网页的主题内容,它完整的表述了网页的主题内容,一般出现在<DIV>、<table>、<p>等。
          5.正向链接:正向链接是引导用户继续在网上冲浪的链接,这些链接的文字也是其他网页的锚文本。一个网页至少包含这5个属性。
        我相信,通过这里的学习,大家已经对网页文档的构建和理解,都会有所新的认识。之前的那种为什么标题是重要权重标签,为什么锚文本重要呢,为什么锚文本不只是文字形式展现,为什么链接对SEO比较重要等等一些为什么,大家都会有些认识和理解。这就是你掌握了原理性的知识,才会知道这些作用后会有什么样的SEO效果。接下来我们就谈谈搜索引擎做好信息抽取这一步之后,所要面临的结构化过程和如何实现!

      搜索引擎的网页文档结构化
        搜索引擎的网页结构化的过程一般可以理解为两步走:第一建立HTML标签树,第二通过投票方法识别正文的文本块,并按照深度优先遍历的规则组织为正文。

        首先我们来看一下建立HTML标签树是怎么实现
              由于HTML标签有一定的嵌套关系,因此通过一定的技术手段整理一个网页的所有html标签,就会得到的是树状结构。这就是建立HTML标签树。
        
        再看第二通过投票方法识别正文的文本
        通过建立标签书的实现,正文就具有了分块保存的特性,因此引入文本块的概念。一般来说网页会出现3种类型的文本块。
       (1)主题型文本块
        是指大段文字的文本块,例如<p></p>,<td><td/>等
       (2)目录型文本块
        是指描述链接的文本块,例如<a href=""> <a/>
       (3)图片型文本块
        是描述图片的文本块,例如<img src=""/> 目录型文本块和图片型文本块容易识别。
        如何判读那个文本块是正文,常规的采用手法是"投票算法"计算,这种方法在搜索引擎中特别重要。在这个投票算法中,(重点:除掉一个最高分和最低分)别人为是相对客观和可信的。通过一些规则为每一个文本块打分,得分最高的别人为是正文的可能性足够大,并且可以接受。投票实际规则比较复杂!搜索引擎一般定义为【文本的长度】和【文本的位置】右侧为0分,顶部为3分,左侧为5分,中间为10分。
       剩下的工作就是采用深度优先遍历标签树依次记录主题类型的文本块,即可得到该网页的正文。
      恭喜你,能看完这篇帖子,我相信认真阅读的人,都会有所收获,或许是好的,也有可能是“坏的”?对于认真的学习的人,一定会在今后的网页构建中有新的认识。也至于不被有些“网上的大神所忽悠”,基于这样的常识,你一定会有不同的SEO思维。如果各位还想继续学习这方面的知识, 鄙人觉得可以看看“链接分析”和“中文分词”的一些相关知识。
         

评分

参与人数 3赞同 +16 收起 理由
ZERO + 8
c0901yuan + 4
panda + 4 这篇文章连续看了三遍,略有所得啊.

查看全部评分

发表于 2014-6-29 23:58:55
回复 收藏
panda,只能给赞不能获得赞的进步者    

建议楼主可以在文中添加点seo的操作点。这样更有利于像我这样的新手来理解。
发表于 2014-6-30 08:44:12
回复 收藏
fengchao,专业泡妞,兼职码农    

这个好像是《走进搜索引擎》里面的文章吧?
发表于 2014-6-30 09:14:03
回复 收藏
AIR_seoqx,希望在SEO前线的乐土中,真正享受SEO的滋润。    

fengchao 发表于 2014-6-30 09:14
这个好像是《走进搜索引擎》里面的文章吧?

我觉得完全没有必要纠结内容的出处,一本书或许大家都看过,但有些人也未必没有看过。这就是需求覆盖的问题。有些人去看这样的书籍,未必能够完全看懂。把自己看过的内容,深刻的理解之后和加上自己的思想成分加以总结,并分享出来,就是一种论坛分享的精神。
 楼主| 发表于 2014-6-30 10:16:12
回复 收藏
ZERO,SEO执着爱好者    

感谢第一个分享,但希望更多的将内容结合到SEO上。

我补充一个我想到的点:

搜索引擎的正文识别方法,主要通过周围及内部html标签判断等方式,抽取大段的文字作为正文,但相对而言并不很依赖于文字主题,可能是因为计算起来比较耗时。

这样带来的一个问题是,诸如电商网站不少有大段的文字为物流相关说明,这些内容和商品无关,但搜索引擎有时也会当它是正文。一个页面上,内容越多,核心内容的权重也自是趋向于和其它内容均分权重的(不然内容多权重高,只要给网页上塞内容就能无限提升排名了),这时物流说明之类的不相关内容就影响有人会搜索的商品信息的权重。

一个解决方法是,将物流说明等不相关内容图片化,因为搜索引擎不识别图片上的文字。

评分

参与人数 1赞同 +4 收起 理由
思明 + 4 图片化处理有启发

查看全部评分

发表于 2014-6-30 10:33:59
回复 收藏
笑大虫威武,努力前行的屌丝男。。    

在百度文库里面有一篇文章知识图谱的技术原理,其中提到语义化标签的使用,这是否也属于结构化数据所必须的标签呢?
发表于 2014-6-30 20:21:37
回复 收藏
快速回复 返回顶部 返回列表