怎样识别一个网页的重要区块？

*发表于 2015-5-3 23:16:27* · 发表于 2015-5-3 23:16:27

本帖最后由明天会更好么于 2015-5-4 18:47 编辑

怎样识别一个网页的重要区块？
以及怎么样利用重要区块？

补充：

内容页面当然很明显是内容区块最重要
栏目页面列表区块很重要

问题是：
首页呢？首页怎么识别？

*发表于 2015-5-4 11:29:23* · 发表于 2015-5-4 11:29:23

搜索：基于行块分布函数的通用网页正文抽取算法

*发表于 2015-5-4 14:25:52* · 发表于 2015-5-4 14:25:52

鱼鱼鱼发表于 2015-5-4 11:29
搜索：基于行块分布函数的通用网页正文抽取算法

不明觉厉，能会说具体点吗？

*发表于 2015-5-4 17:17:05* · 发表于 2015-5-4 17:17:05

胖子发表于 2015-5-4 14:25
不明觉厉，能会说具体点吗？

首先百度肯定是能识别一般网站常有的页面内容，比如导航，面包屑等、估计会对整站其他页面有个对比，然后去除掉这些通用区域，剩余的就是重要区块了吧

*发表于 2015-5-4 17:37:17* · 发表于 2015-5-4 17:37:17

胖子发表于 2015-5-4 14:25
不明觉厉，能会说具体点吗？

首先将网页 HTML 去净标签，只留所有正文，同时留下标签去除后的所有空白位置信息，留下的正文称为 Ctext.

定义 1. 行块：
以 Ctext 中的行号为轴，取其周围 K 行（上下文均可,K<5,这里取 K=3,方向向下, K称为行块厚度），合起来称为一个行块 Cblock，行块 i 是以 Ctext 中行号 i 为轴的行块；

定义 2. 行块长度：
一个 Cblock，去掉其中的所有空白符（\n,\r,\t 等）后的字符总数称为该行块的长度；

定义 3. 行块分布函数：
以 Ctext 每行为轴，共有 LinesNum(Ctext)‐K 个 Cblock，做出以[1, LinesNum(Ctext)‐K]为横轴，以其各自的行块长度为纵轴的分布函数；
行块分布函数可以在 O(N)时间求得，在行块分布函数图上可以直观的看出正文所在区域。以新浪新闻选择一篇网页，求出行块分布函数如下图所示：

由上述行块分布函数图可明显看出，正确的文本区域全都是分布函数图上含有最值且连续的一个区域，这个区域往往含有一个骤升点和一个骤降点。
于是，网页正文抽取问题转化为了求行块分布函数上的骤升骤降两个边界点，这两个边界点所含的区域包含了当前网页的行块长度最大值并且是连续的。

楼主| *发表于 2015-5-4 18:47:44* · 发表于 2015-5-4 18:47:44

鱼鱼鱼发表于 2015-5-4 11:29
搜索：基于行块分布函数的通用网页正文抽取算法

首页呢？首页怎么识别？

楼主| *发表于 2015-5-4 18:48:21* · 发表于 2015-5-4 18:48:21

大雄发表于 2015-5-4 17:17
首先百度肯定是能识别一般网站常有的页面内容，比如导航，面包屑等、估计会对整站其他页面有个对比，然后 ...

首页呢？首页怎么识别？

*发表于 2015-5-4 21:16:29* · 发表于 2015-5-4 21:16:29

明天会更好么发表于 2015-5-4 18:48
首页呢？首页怎么识别？

基于class id 名称，整个网站页面的对比

楼主| *发表于 2015-5-4 22:58:14* · 发表于 2015-5-4 22:58:14

xcl1086 发表于 2015-5-4 21:16
基于class id 名称，整个网站页面的对比

大哥能不能帮忙举个实例分析下呢？

*发表于 2015-5-6 11:02:22* · 发表于 2015-5-6 11:02:22

明天会更好么发表于 2015-5-4 22:58
大哥能不能帮忙举个实例分析下呢？

兄台应该去复习一下html、css 代码知识了

楼主| *发表于 2015-5-6 11:46:21* · 发表于 2015-5-6 11:46:21

浪人浪发表于 2015-5-6 11:02
兄台应该去复习一下html、css 代码知识了

说过点什么好呢呵呵网页的内容页可能会根据 class id 来判断问题是首页呢。。。都是一些特征不明显的 css 名称定义。。。。

*发表于 2015-5-6 15:42:04* · 发表于 2015-5-6 15:42:04

明天会更好么发表于 2015-5-4 18:47
首页呢？首页怎么识别？

首页亦然，无论是聚合页还是内容页的正文(重要区块)提取，“基于行块分布函数的通用网页正文抽取算法”是通用的，原理是根据网页里行块密度来确定哪个区块最重要。

*发表于 2015-5-6 16:07:58* · 发表于 2015-5-6 16:07:58

不明觉厉，虽然不懂算法，但我要说的是，你为啥要让它自己去识别呢。而不是直接告诉它，哪块是重要区块，哪块是核心内容呢。

楼主| *发表于 2015-5-7 17:27:40* · 发表于 2015-5-7 17:27:40

鱼鱼鱼发表于 2015-5-6 15:42
首页亦然，无论是聚合页还是内容页的正文(重要区块)提取，“基于行块分布函数的通用网页正文抽取算法”是 ...

“行块密度” 求解释行块密度是什么

帐号		自动登录	找回密码
密码			注册

怎样识别一个网页的重要区块？

评分