发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
icanfeelyouyc5,正在青岛找seo工作,有靠谱的麻烦推荐一下    

关于百度蜘蛛的怪异抓取行为

前些日子在做页面质量中文本质量的测试,发布了新页面,样本数为20(数量有点少(/TДT)/),分了组。

记录如下


然后大家就会发现只在7.12的时候主动抓取了7.11发布的两条

不管我使用实时推送和发外链都不抓取 (/TДT)/

其中我就在考虑,难道栏目首页也没被抓取吗?新页面全部在栏目首页上,然后我就查了


妈蛋!!(ノ`Д´)ノ  摔!!!!

等等让我冷静一下,按照常识来分析(谨遵国大教导),蜘蛛在抓取一个页面之后页面存入网页库,分析系统再对网页库里的数据进行连接抽取等数据分析。这里有一个重点是:蜘蛛会抽取网页上所有的链接进行分析。

然后我就在想,我现在正处于链接分析这一步上,我的URL或许出了问题,然后我就查有没有抓取相同类型的URL  


有啊!!!(ノ`Д´)ノ  摔!!!!

冷静冷静,然后我接着想,URL难道全在待抓取列队里?
想了一下觉得不是,因为7.12的时候主动抓取了7.11发布的两条,而7.12发布的URL经过4天都没有抓取,列队的等待时间没有辣么长。

感谢你耐心看完,最终问题是,百度蜘蛛在抓取完某个页面后,是什么原因导致不抓取页面上的新URL?
发表于 2015-7-17 17:48:48 |只看大图
回复 收藏
思明,技术宅男SEO之路    QQ:176089710    

思考方向:

百度在提取完URL,会给不同的URL不同的抓取调度,时效性强或者说重要的优先抓取,差的甚至不抓取。并不是按入库的先后顺序做队列。
你后面的推送和提交都是无意义的,这个URL已经存在库里面了。

话说外链应该会有点作用,跟锚文本,URL出处应该有关。(这个我没有测试过,个人想法)
发表于 2015-7-18 09:38:07
回复 收藏
icanfeelyouyc5,正在青岛找seo工作,有靠谱的麻烦推荐一下    

思明 发表于 2015-7-18 09:38
思考方向:

百度在提取完URL,会给不同的URL不同的抓取调度,时效性强或者说重要的优先抓取,差的甚至不抓 ...

你说的对,SE确实有调度系统在运作,我在文中说的有些不严谨。
另外你说“后面的推送和提交没意义”,想了一下确实也是这么回事,已经在库里了。
今天会继续分析抓取配额的相关问题,帖子会更新,希望到时再来指导
 楼主| 发表于 2015-7-18 10:14:47
回复 收藏
快速回复 返回顶部 返回列表