一些目录用了robots.txt封禁，为什么百度还抓取？

只看大图 · 发表于 2014-11-10 13:16:30

为说明问题直接上图吧

其中/js，/css是禁止百度抓取的。但是在分析日志的时候发现，百度还是抓取了其中一些文件：

这是怎么回事？

*发表于 2014-11-10 13:56:26* · 发表于 2014-11-10 13:56:26

robots.txt对百度爬虫有强制性，可能是非网页抓取存在特殊情况（我没尝试过屏蔽JS之类也觉得不应当屏蔽），也可能是伪装的爬虫，可以通过IP来判断。

*发表于 2014-11-10 14:04:50* · 发表于 2014-11-10 14:04:50

比如js,css等，有些网站会通过js，css来作弊，比如隐藏文本等，百度会进行检查的。

楼主| *发表于 2014-11-10 14:26:35* · 发表于 2014-11-10 14:26:35

ZERO 发表于 2014-11-10 13:56
robots.txt对百度爬虫有强制性，可能是非网页抓取存在特殊情况（我没尝试过屏蔽JS之类也觉得不应当屏蔽）， ...

感谢Z大我直接把那些文件写进robots.txt测试下看看情况

楼主| *发表于 2014-11-10 14:27:23* · 发表于 2014-11-10 14:27:23

老王python 发表于 2014-11-10 14:04
比如js,css等，有些网站会通过js，css来作弊，比如隐藏文本等，百度会进行检查的。 ...

有可能……

*发表于 2014-11-10 18:38:10* · 发表于 2014-11-10 18:38:10

我也是一直都有这个问题，别人都说百度蜘蛛严格遵守robots协议，但是本人测试了几个月，发现百度蜘蛛一直不遵守robots协议，谷歌蜘蛛倒是严格遵守，用百度站长工具也看过自己写的robots文件，没有写法问题。
举一个例子：协议里有这样的代码：
User-Agent: *
Disallow: /go/
Disallow: /wp-includes/
Disallow: /*?*

最后这一行，本来是不允许蜘蛛访问带问号的网址，但是实际情况是能访问 /?p=5314这样的网址！

测试的网站是wordpress。做了伪静态！

*发表于 2014-11-10 19:03:50* · 发表于 2014-11-10 19:03:50

ZERO 发表于 2014-11-10 13:56
robots.txt对百度爬虫有强制性，可能是非网页抓取存在特殊情况（我没尝试过屏蔽JS之类也觉得不应当屏蔽）， ...

不是特殊页面，除了抓JS，CSS以外，还抓图片，抓动态网页！

*发表于 2014-11-11 11:44:13* · 发表于 2014-11-11 11:44:13

我这边的情况也是屏蔽css和js目录无效。观察了好几个月。

*发表于 2014-11-11 12:19:58* · 发表于 2014-11-11 12:19:58

robots.txt没法阻止JS和CSS文件被抓取

*发表于 2014-11-12 09:59:42* · 发表于 2014-11-12 09:59:42

百度也是个坑，经常不守规矩。

*发表于 2014-11-13 17:35:54* · 发表于 2014-11-13 17:35:54

我网站也是一样，我已经屏蔽了蜘蛛抓取js,css等文件,看日志百度谷歌依然在抓取我的css跟js而且还有收录...

*发表于 2014-11-14 16:58:02* · 发表于 2014-11-14 16:58:02

我们公司最近也出现了这情况，之前没有过，可能是百度发疯吧。

*发表于 2014-11-20 18:29:22* · 发表于 2014-11-20 18:29:22

抓不抓不是绝对的，百度还有可能会抓，但是整个目录的收录和流量会慢慢消失。不过即便是404，长久看中间还会有收录和流量的起伏。

*发表于 2014-12-5 17:26:47* · 发表于 2014-12-5 17:26:47

本帖最后由 kaiyanyixiao 于 2014-12-5 20:55 编辑

建议你看一下百度spider原理，百度站长社区里面有介绍，如果能看明白的话，估计就会明白为什么了。
你robots.txt做了禁止抓取的页面后不要指望着第二天就不抓取了，你多等一段时间在看看，不同的网站，生效的反应时间不一样。根据个人观察，百度spider抓取量越大的网站，robots.txt生效效果时间越长。

*发表于 2014-12-8 09:41:57* · 发表于 2014-12-8 09:41:57

kaiyanyixiao 发表于 2014-12-5 17:26
建议你看一下百度spider原理，百度站长社区里面有介绍，如果能看明白的话，估计就会明白为什么了。
你robot ...

也希望你认真看了帖子再回复，我们都说了，观察了几个月。

不过你说对了，确实是robots协议没有生效，但这应该是百度的问题，近段时间才生效，一个小网站，百度一天的抓取量才几百个，几个月才生效，不能不说是百度的问题。其他如搜狗，360，谷歌蜘蛛几个月前就生效了。并且查看了下，同IP下的所有网站的robots协议都没有生效，是用的百度站长后台最新的robots工具查看的。这些网站是别人的，也都没有生效，现在貌似都生效了。怀疑是空间的问题，或者是百度蜘蛛本身出了问题。

帐号		自动登录	找回密码
密码			注册

一些目录用了robots.txt封禁，为什么百度还抓取？

相关帖子