发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
Axnic.tian,看我三步之内娶你小妹    

网站已做伪静态,但是蜘蛛仍大量抓取动态文件

我们的网站已做伪静态,但是通过拆分日志,发现蜘蛛仍有大量抓取动态文件的行为。也百度了许多,但是大部分的答案都比较水,什么正常啊,Robots封禁啊。我现在是想知道,第一,这个情况是什么原因引起的,通过想蜘蛛怎么样的爬行规律,为什么会把动态地址爬出来?我问过程序那边,确定了没入口的,想了一下关于伪静态的原理,也不明白怎么会爬到动态URL,而且是比较大的量。第二个就是,这种情况的处理方法,Robots禁止抓取,另外还有的就是用canonical标签(这个网站还没有设置),求教各位大哥了,在此谢过。
发表于 2014-10-31 19:58:00
回复 收藏
xiaoc,请到个人资料页面设置个人签名    

本帖最后由 xiaoc 于 2014-11-1 00:16 编辑

  伪静态不是真的静态,伪静态之后的页面,动态和伪静态的URL都可以正常打开网页。蜘蛛爬行过程中要抓取伪静态的页面,有两个方法:1是爬行到了动态链接,然后网站做了跳转,跳转到伪静态链接,2是直接爬行到了伪静态链接。也就是说,要看网页的入口是什么样的。

  回答你的两个问题:

  A1:蜘蛛爬行在前,伪静态在后。

  伪静态之前,蜘蛛已经爬行了大量动态页面,对比下伪静态前后的日志,如果动态链接是重复的,那应该是蜘蛛在看已抓取页面有无更新,不用在意,做好301跳转蜘蛛自己会去抓伪静态的链接。如果链接不是重复的,而且有很多新的动态页面,肯定有页面提供了动态链接给蜘蛛。要么是程序处理的问题,虽然做了伪静态,但是网页上的链接还是动态的;要么内链(页面、sitemap)、外链等等是留的动态链接。

  蜘蛛不会凭空生造个链接出来去抓,既然抓了,就有入口让蜘蛛爬行到。技术的话要听,要信,但自己也要验证,毕竟是份内的事。

  A2:我认为先不要robots禁止,看网站情况。

  如果蜘蛛在爬行伪静态后的链接,而且数量逐日增加,同时以前抓过的动态页面,伪静态后蜘蛛也进行了抓取,可以考虑robots禁止动态链接的抓取。

  如果蜘蛛没有重新抓取以前的页面,robots禁止掉之后,意味者这些页面的收录很可能被清掉。这样的事情打死我也不会做的。我会全部做301跳转,canonical标签也会加,站长工具里面的网站改版也会用,总之尽一切可能让蜘蛛把伪静态后的旧页面重新抓一遍,然后再考虑robots禁止动态抓取的事情。

  以上,希望对你有帮助。

评分

参与人数 1赞同 +4 收起 理由
tycrabc + 4 很给力!

查看全部评分

发表于 2014-11-1 00:14:33
回复 收藏
思明,技术宅男SEO之路    QQ:176089710    

本帖最后由 思明 于 2014-11-1 09:11 编辑

请先确认是否是日志记录的问题:

如果我记得没有错的话,使用ISAPI_Rewrite3组件重写URL后,IIS服务器Log里记录的是重写前的URL即动态地址,但是在客户端,搜索引擎或用户访问的URL确实是重写后的静态地址!

据说IIS6是这样子的,IIS7没有这个问题.由于手头现在都是Linux,无法验证.

如果确认是我说的问题,让技术做后面的事情吧.

评分

参与人数 1赞同 +4 收起 理由
Joker + 4 学习了

查看全部评分

发表于 2014-11-1 09:10:21
回复 收藏
Joker,一世无双.    

技术说没有,不代表滴水不漏,肯定有入口泄露.
解决方案就是百度站长平台最新的那篇文章,改下robots就行了.
User-Agent: *
Disallow: /*?*
发表于 2014-11-1 09:15:24
回复 收藏
huseo,【上海seo频道】关注,讨论,交流,学习seo技术    

Joker 发表于 2014-11-1 09:15
技术说没有,不代表滴水不漏,肯定有入口泄露.
解决方案就是百度站长平台最新的那篇文章,改下robots就行了.
U ...

Joker说得不错,修改robots屏蔽,刚刚开始的时候一样会有一些动态页面抓取的,我与楼主有一样的感觉,修改robots以后,随着时间的推移,逐渐动态网站的信息就没有抓取了,蜘蛛抓取没有这么绝对的,也不是立即就生效,需要一个时间周期
发表于 2014-11-1 09:53:52
回复 收藏
Axnic.tian,看我三步之内娶你小妹    

xiaoc 发表于 2014-11-1 00:14
  伪静态不是真的静态,伪静态之后的页面,动态和伪静态的URL都可以正常打开网页。蜘蛛爬行过程中要抓取 ...

先感谢大哥这么长的回答!
关于A1,您说的“对比下伪静态前后的日志”,具体是指程序执行伪静态处理前后,还是说网站做过伪静态前后(就是说之前没做过伪静态,现在做伪静态了)?关于链接是否重复的问题,我这两天重点看下日志。另外再重点全站细查一次。
关于A2,这个问题我也统计一下数据做观察。

再次感谢!
 楼主| 发表于 2014-11-3 21:00:00
回复 收藏
Axnic.tian,看我三步之内娶你小妹    

思明 发表于 2014-11-1 09:10
请先确认是否是日志记录的问题:

如果我记得没有错的话,使用ISAPI_Rewrite3组件重写URL后,IIS服务器Log ...

谢谢大哥指导,这个问题我问下程序那边情况~
 楼主| 发表于 2014-11-3 21:00:57
回复 收藏
Axnic.tian,看我三步之内娶你小妹    

Joker 发表于 2014-11-1 09:15
技术说没有,不代表滴水不漏,肯定有入口泄露.
解决方案就是百度站长平台最新的那篇文章,改下robots就行了.
U ...

好的,我再仔细检查下网站的动态入口问题,表示感谢~
 楼主| 发表于 2014-11-3 21:01:37
回复 收藏
Axnic.tian,看我三步之内娶你小妹    

huseo 发表于 2014-11-1 09:53
Joker说得不错,修改robots屏蔽,刚刚开始的时候一样会有一些动态页面抓取的,我与楼主有一样的感觉,修 ...

好的,我再观察一下动态链接问题,看是否是反应时间问题,谢谢指导~
 楼主| 发表于 2014-11-3 21:02:42
回复 收藏
Joker,一世无双.    

Axnic.tian 发表于 2014-11-3 21:02
好的,我再观察一下动态链接问题,看是否是反应时间问题,谢谢指导~

卧槽,我也碰到你这情况了,B是A站的镜像,我在A站上加了个测试页面,网络上只有A站页面的入口.
但是我B站上的页面也被蜘蛛访问了.
发表于 2014-11-3 21:56:10
回复 收藏
52gcs,一条路走到黑    [ 版主 ]

本帖最后由 52gcs 于 2014-11-5 14:45 编辑

2楼说的有些道理。上线前全站伪静态,有动态的网址参数一律robots禁止掉,因为动态参数有规律 无限制抓取
发表于 2014-11-5 14:14:19
回复 收藏
香蕉哥哥,请到个人资料页面设置个人签名    

思明大神的回答完美的解决了我的问题.........
发表于 2015-11-19 11:04:57
回复 收藏
小菜,无个性不签名    

不建议直接在robots,txt里面屏蔽,因为伪静态是调用的动态的数据的,这个会有影响的
发表于 2015-11-23 18:55:48
回复 收藏
快速回复 返回顶部 返回列表