发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
幽谷客,在SEO道路上行走着……    

一些目录用了robots.txt封禁,为什么百度还抓取?

为说明问题直接上图吧

其中/js,/css是禁止百度抓取的。但是在分析日志的时候发现,百度还是抓取了其中一些文件:

这是怎么回事?
发表于 2014-11-10 13:16:30 |只看大图
回复 收藏
ZERO,SEO执着爱好者    

robots.txt对百度爬虫有强制性,可能是非网页抓取存在特殊情况(我没尝试过屏蔽JS之类也觉得不应当屏蔽),也可能是伪装的爬虫,可以通过IP来判断。
发表于 2014-11-10 13:56:26
回复 收藏
老王python,提供简单实用python+seo教程    

比如js,css等,有些网站会通过js,css来作弊,比如隐藏文本等,百度会进行检查的。
发表于 2014-11-10 14:04:50
回复 收藏
幽谷客,在SEO道路上行走着……    

ZERO 发表于 2014-11-10 13:56
robots.txt对百度爬虫有强制性,可能是非网页抓取存在特殊情况(我没尝试过屏蔽JS之类也觉得不应当屏蔽), ...

感谢Z大  我直接把那些文件写进robots.txt测试下看看情况
 楼主| 发表于 2014-11-10 14:26:35
回复 收藏
幽谷客,在SEO道路上行走着……    

老王python 发表于 2014-11-10 14:04
比如js,css等,有些网站会通过js,css来作弊,比如隐藏文本等,百度会进行检查的。 ...

有可能……
 楼主| 发表于 2014-11-10 14:27:23
回复 收藏
chulai1,请到个人资料页面设置个人签名    

我也是一直都有这个问题,别人都说百度蜘蛛严格遵守robots协议,但是本人测试了几个月,发现百度蜘蛛一直不遵守robots协议,谷歌蜘蛛倒是严格遵守,用百度站长工具也看过自己写的robots文件,没有写法问题。
举一个例子:协议里有这样的代码:
User-Agent: *
Disallow: /go/
Disallow: /wp-includes/
Disallow: /*?*

最后这一行,本来是不允许蜘蛛访问带问号的网址,但是实际情况是能访问 /?p=5314这样的网址!

测试的网站是wordpress。做了伪静态!
发表于 2014-11-10 18:38:10
回复 收藏
chulai1,请到个人资料页面设置个人签名    

ZERO 发表于 2014-11-10 13:56
robots.txt对百度爬虫有强制性,可能是非网页抓取存在特殊情况(我没尝试过屏蔽JS之类也觉得不应当屏蔽), ...

不是特殊页面,除了抓JS,CSS以外,还抓图片,抓动态网页!
发表于 2014-11-10 19:03:50
回复 收藏
张伟,请到个人资料页面设置个人签名    

我这边的情况也是屏蔽css和js目录无效。观察了好几个月。
发表于 2014-11-11 11:44:13
回复 收藏
陈玉龙,普普通通,实实在在,懂点SEO基础知识,创业中    

robots.txt没法阻止JS和CSS文件被抓取
发表于 2014-11-11 12:19:58
回复 收藏
bingyan,攻城师    

百度也是个坑,经常不守规矩。
发表于 2014-11-12 09:59:42
回复 收藏
御坂美琴,动漫宅 御坂美琴脑残粉    

我网站也是一样,我已经屏蔽了蜘蛛抓取js,css等文件,看日志百度谷歌依然在抓取我的css跟js而且还有收录...
发表于 2014-11-13 17:35:54
回复 收藏
浪子清风,在SEO小白到大神的路上!    

我们公司最近也出现了这情况,之前没有过,可能是百度发疯吧。
发表于 2014-11-14 16:58:02
回复 收藏
rong360seo,请到个人资料页面设置个人签名    

抓不抓不是绝对的,百度还有可能会抓,但是整个目录的收录和流量会慢慢消失。不过即便是404,长久看中间还会有收录和流量的起伏。
发表于 2014-11-20 18:29:22
回复 收藏
kaiyanyixiao,请到个人资料页面设置个人签名    

本帖最后由 kaiyanyixiao 于 2014-12-5 20:55 编辑

建议你看一下百度spider原理,百度站长社区里面有介绍,如果能看明白的话,估计就会明白为什么了。
你robots.txt做了禁止抓取的页面后不要指望着第二天就不抓取了,你多等一段时间在看看,不同的网站,生效的反应时间不一样。根据个人观察,百度spider抓取量越大的网站,robots.txt生效效果时间越长。
发表于 2014-12-5 17:26:47
回复 收藏
chulai1,请到个人资料页面设置个人签名    

kaiyanyixiao 发表于 2014-12-5 17:26
建议你看一下百度spider原理,百度站长社区里面有介绍,如果能看明白的话,估计就会明白为什么了。
你robot ...

也希望你认真看了帖子再回复,我们都说了,观察了几个月。

不过你说对了,确实是robots协议没有生效,但这应该是百度的问题,近段时间才生效,一个小网站,百度一天的抓取量才几百个,几个月才生效,不能不说是百度的问题。其他如搜狗,360,谷歌蜘蛛几个月前就生效了。并且查看了下,同IP下的所有网站的robots协议都没有生效,是用的百度站长后台最新的robots工具查看的。这些网站是别人的,也都没有生效,现在貌似都生效了。怀疑是空间的问题,或者是百度蜘蛛本身出了问题。
发表于 2014-12-8 09:41:57
回复 收藏
快速回复 返回顶部 返回列表