发现更大的SEO世界
 找回密码
 注册

扫一扫,访问微社区

搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
明天会更好么,SEO培训体验师:文辰 [超级版主]    超级的!你信了吗?    

怎样识别一个网页的重要区块?

本帖最后由 明天会更好么 于 2015-5-4 18:47 编辑


怎样识别一个网页的重要区块?
以及怎么样利用重要区块?



补充:

内容页面 当然很明显是 内容区块最重要
栏目页面 列表区块很重要

问题是:
首页呢? 首页怎么识别?
发表于 2015-5-3 23:16:27
回复 收藏
鱼鱼鱼,请到个人资料页面设置个人签名    

搜索:基于行块分布函数的通用网页正文抽取算法
发表于 2015-5-4 11:29:23
回复 收藏
胖子,请到个人资料页面设置个人签名    

鱼鱼鱼 发表于 2015-5-4 11:29
搜索:基于行块分布函数的通用网页正文抽取算法

不明觉厉,能会说具体点吗?
发表于 2015-5-4 14:25:52
回复 收藏
大雄,在研究、测试中成长。    

胖子 发表于 2015-5-4 14:25
不明觉厉,能会说具体点吗?

首先百度肯定是能识别一般网站常有的页面内容,比如导航,面包屑等、估计会对整站其他页面有个对比,然后去除掉这些通用区域,剩余的就是重要区块了吧
发表于 2015-5-4 17:17:05
回复 收藏
鱼鱼鱼,请到个人资料页面设置个人签名    

胖子 发表于 2015-5-4 14:25
不明觉厉,能会说具体点吗?

首先将网页 HTML 去净标签,只留所有正文,同时留下标签去除后的所有空白位置信息,留下的正文称为 Ctext.

定义 1. 行块:
   以 Ctext 中的行号为轴,取其周围 K 行(上下文均可,K<5,这里取 K=3,方向向下, K称为行块厚度),合起来称为一个行块 Cblock,行块 i 是以 Ctext 中行号 i 为轴的行块;

定义 2. 行块长度:
    一个 Cblock,去掉其中的所有空白符(\n,\r,\t 等)后的字符总数称为该行块的长度;

定义 3. 行块分布函数:
    以 Ctext 每行为轴,共有 LinesNum(Ctext)‐K 个 Cblock,做出以[1, LinesNum(Ctext)‐K]为横轴,以其各自的行块长度为纵轴的分布函数;
行块分布函数可以在 O(N)时间求得,在行块分布函数图上可以直观的看出正文所在区域。以新浪新闻选择一篇网页,求出行块分布函数如下图所示:



由上述行块分布函数图可明显看出,正确的文本区域全都是分布函数图上含有最值且连续的一个区域,这个区域往往含有一个骤升点和一个骤降点。
于是,网页正文抽取问题转化为了求行块分布函数上的骤升骤降两个边界点,这两个边界点所含的区域包含了当前网页的行块长度最大值并且是连续的。

评分

参与人数 3赞同 +3 收起 理由
思明 + 1 实现过这种方式的正文提取
胖子 + 1 很给力!
大雄 + 1 受教了!谢谢!

查看全部评分

发表于 2015-5-4 17:37:17
回复 收藏
明天会更好么,SEO培训体验师:文辰 [超级版主]    超级的!你信了吗?    

鱼鱼鱼 发表于 2015-5-4 11:29
搜索:基于行块分布函数的通用网页正文抽取算法

首页呢? 首页怎么识别?
 楼主| 发表于 2015-5-4 18:47:44
回复 收藏
明天会更好么,SEO培训体验师:文辰 [超级版主]    超级的!你信了吗?    

大雄 发表于 2015-5-4 17:17
首先百度肯定是能识别一般网站常有的页面内容,比如导航,面包屑等、估计会对整站其他页面有个对比,然后 ...

首页呢? 首页怎么识别?
 楼主| 发表于 2015-5-4 18:48:21
回复 收藏
xcl1086,《走进搜索引擎》也没看完,python也放弃了~~~    

明天会更好么 发表于 2015-5-4 18:48
首页呢? 首页怎么识别?

基于class id 名称,整个网站页面的对比
发表于 2015-5-4 21:16:29
回复 收藏
明天会更好么,SEO培训体验师:文辰 [超级版主]    超级的!你信了吗?    

xcl1086 发表于 2015-5-4 21:16
基于class id 名称,整个网站页面的对比

大哥 能不能帮忙举个实例分析下呢?
 楼主| 发表于 2015-5-4 22:58:14
回复 收藏
浪人浪,发现SEO的乐趣    

明天会更好么 发表于 2015-5-4 22:58
大哥 能不能帮忙举个实例分析下呢?

兄台应该去复习一下html、css 代码知识了
发表于 2015-5-6 11:02:22
回复 收藏
明天会更好么,SEO培训体验师:文辰 [超级版主]    超级的!你信了吗?    

浪人浪 发表于 2015-5-6 11:02
兄台应该去复习一下html、css 代码知识了

说过点什么好呢 呵呵 网页的内容页 可能会根据 class id 来判断 问题是首页呢。。。都是一些特征不明显的 css 名称 定义。。。。
 楼主| 发表于 2015-5-6 11:46:21
回复 收藏
鱼鱼鱼,请到个人资料页面设置个人签名    

明天会更好么 发表于 2015-5-4 18:47
首页呢? 首页怎么识别?


首页亦然,无论是聚合页还是内容页的正文(重要区块)提取,“基于行块分布函数的通用网页正文抽取算法”是通用的,原理是根据网页里行块密度来确定哪个区块最重要。
发表于 2015-5-6 15:42:04
回复 收藏
落叶,一个行走在seo之路的屌丝,执着且无畏    

不明觉厉,虽然不懂算法,但我要说的是,你为啥要让它自己去识别呢。而不是直接告诉它,哪块是重要区块,哪块是核心内容呢。
发表于 2015-5-6 16:07:58
回复 收藏
明天会更好么,SEO培训体验师:文辰 [超级版主]    超级的!你信了吗?    

鱼鱼鱼 发表于 2015-5-6 15:42
首页亦然,无论是聚合页还是内容页的正文(重要区块)提取,“基于行块分布函数的通用网页正文抽取算法”是 ...

“行块密度” 求解释 行块密度 是什么
 楼主| 发表于 2015-5-7 17:27:40
回复 收藏
快速回复 返回顶部 返回列表