发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
mage,请到个人资料页面设置个人签名    

搜索引擎使用的网页分析抽取方式

请问,现在的搜索引擎,百度,搜狗,360等,针对抓取网页进行网页主题信息提取分析的时候,是使用具体什么方式进行网页html分析的?
使用dom,还是使用针对div或者table网页的时候,建立标签树抽取分析?
请了解的朋友帮忙解答,也请zero帮忙解答。
发表于 2014-12-3 20:16:28 |只看大图
回复 收藏
浩辰SEO博客,爱好seo/sem以及网络营销    

本帖最后由 浩辰SEO博客 于 2014-12-4 09:59 编辑

抓取网页数据通过指定的URL,获得页面信息,进而对页面用DOM进行 NODE分析。

评分

参与人数 1赞同 +4 收起 理由
utterly + 4 很给力!

查看全部评分

发表于 2014-12-3 21:18:32
回复 收藏
mage,请到个人资料页面设置个人签名    

浩辰SEO博客 发表于 2014-12-3 21:18
抓取网页数据通过指定的URL,获得页面信息,进而对页面用DOM进行 NODE分析,处理得到原始HTML数据,这样做 ...

这个seo论坛里面,没有必要百度一段吧,真的,这也是浪费你我的时间。
 楼主| 发表于 2014-12-4 09:32:14
回复 收藏
浩辰SEO博客,爱好seo/sem以及网络营销    

本帖最后由 浩辰SEO博客 于 2014-12-4 10:00 编辑
mage 发表于 2014-12-4 09:32
这个seo论坛里面,没有必要百度一段吧,真的,这也是浪费你我的时间。


只能说你逗了。孩子。
发表于 2014-12-4 09:58:59
回复 收藏
mage,请到个人资料页面设置个人签名    

浩辰SEO博客 发表于 2014-12-4 09:58
只能说你逗了。孩子。


说实话,真没有必要你再帮忙再百度搜一下。能提这个问题,是真的需要真正了解抽取方式的朋友帮忙解答。
而在seo前线提问,是因为现在zero的论坛真的和其他所谓seo平台不同。
我们是希望真正有懂的朋友帮忙解答,或者你应该学习zero 和其他朋友,如果我们不是真正的了解,就没有必要再搜一堆东西,发上来。
 楼主| 发表于 2014-12-4 10:13:13
回复 收藏
浩辰SEO博客,爱好seo/sem以及网络营销    

mage 发表于 2014-12-4 10:13
说实话,真没有必要你再帮忙再百度搜一下。能提这个问题,是真的需要真正了解抽取方式的朋友帮忙解答。
...

你是不是脑残啊,傻逼!   这句话你去百度下,看下百度有没有! 那是不是也复制的?老子帮你,也帮狗了!搓
发表于 2014-12-4 21:02:30
回复 收藏
浩辰SEO博客,爱好seo/sem以及网络营销    

本帖最后由 浩辰SEO博客 于 2014-12-4 21:08 编辑

我做SEO快一年,帮人解答问题,像你这样的狗我还是第一次遇到了! 我也不认识这论坛的什么人,只是这个论坛跟我换了友链,我才常点进来看看。不过也没事,在SEO这行 网上像你这种狗我遇见多了,也就麻木了。
发表于 2014-12-4 21:05:02
回复 收藏
菲比,请到个人资料页面设置个人签名    

何必计较这些小事,咱们论坛一直很和谐,大家也要自觉维护!!
发表于 2014-12-4 22:08:26
回复 收藏
ZERO,SEO执着爱好者    

搜索引擎可能使用的是视觉分块,可参见相关文献专利,我没深入研究。

除了极端情况下比如作弊利用漏洞,觉得了解解析方式没太大的意义。当网页本身质量很好,html代码也比较遵守规范的情况下差不多就够了。
发表于 2014-12-5 13:54:41
回复 收藏
我是帅哥周,请到个人资料页面设置个人签名    

虽然我不知道,但我觉得想实现这个真是方法很多,比如多页面对比就可以,所以搜索引擎对这方面处理应该很成熟。
发表于 2014-12-5 17:01:15
回复 收藏
xcl1086,《走进搜索引擎》也没看完,python也放弃了~~~    

ZERO 发表于 2014-12-5 13:54
搜索引擎可能使用的是视觉分块,可参见相关文献专利,我没深入研究。

除了极端情况下比如作弊利用漏洞,觉 ...

百度官方说能识别绝大部分网站的主题内容、导航等各个模块,我想知道什么情况下他不能识别
发表于 2014-12-24 16:26:18
回复 收藏
快速回复 返回顶部 返回列表