发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
seosxy,非专业潜水员    

对于伪装成蜘蛛的ip如何处理

今天把6月份的日志处理了一下,仅仅百度蜘蛛的造假率就高达62%。给服务器造成了一定的困扰,对于伪装成蜘蛛的ip你们是如何处理的

  1. 58.83.213.95        unknown host        北京市 世纪互联        非爬虫
  2. 58.83.213.123        unknown host        北京市 世纪互联        非爬虫
  3. 59.173.133.102        102.133.173.59.broad.wh.hb.dynamic.163data.com.cn        湖北省武汉市 电信        非爬虫
  4. 58.83.213.98        unknown host        北京市 世纪互联        非爬虫
  5. 58.83.213.96        unknown host        北京市 世纪互联        非爬虫
  6. 59.37.131.72        unknown host        广东省广州市 电信        非爬虫
  7. 58.83.213.97        unknown host        北京市 世纪互联        非爬虫
  8. 59.46.215.26        unknown host        辽宁省大连市 电信        非爬虫
  9. 61.130.146.103        103.146.130.61.dial.wz.zj.dynamic.163data.com.cn        浙江省金华市 电信        非爬虫
  10. 60.169.73.65        unknown host        安徽省芜湖市 电信        非爬虫
  11. 60.172.229.61        unknown host        安徽省淮北市 电信        非爬虫
  12. 61.135.190.197        unknown host        北京市 联通        非爬虫
复制代码


有两个疑惑:
1.蜘蛛会派出不标识自己蜘蛛身份的ip对网站进行访问,假如屏蔽掉了蜘蛛的部分岂不是杯具
2.判断真假蜘蛛ip用的是 nslookup ,不敢保证有些对nslookup的支持情况

大家伙儿是如何处理造假ip的?

另外站内数据量级是亿,但是月度站内抓取量级是千万,这比例是30%左右,是不是太低了
发表于 2014-7-1 16:45:57
回复 收藏
ZERO,SEO执着爱好者    

大公司一般都由技术组来做防恶意爬虫的事情,容易误杀爬虫,导致流量下降。

如果恶意爬虫抓取量不至于高到显著影响服务器速度,建议SEO角度可以考虑不用管,不然总会存在误杀。nslookup等不总是好用,尤其在搜索引擎新上线一批爬虫服务器的时候可能无法反解。
发表于 2014-7-1 17:24:33
回复 收藏
铁涛,再苦,再累,也要记得微笑!    

ZERO 发表于 2014-7-1 09:24
大公司一般都由技术组来做防恶意爬虫的事情,容易误杀爬虫,导致流量下降。

如果恶意爬虫抓取量不至于高到 ...

这里有个疑问,针对一般的企业网站或者个人站点,根本也不能说像大公司一样有专门的技术人员来处理了。但是往往现在给出的日志分析工具也并不是能完全的去识别蜘蛛,大家都说遇到问题分析网站日志,但是遇到假蜘蛛该怎么办呢,第一个IP根本没有区分,该怎么办呢!
发表于 2014-7-2 23:59:00
回复 收藏
ZERO,SEO执着爱好者    

铁涛 发表于 2014-7-2 15:59
这里有个疑问,针对一般的企业网站或者个人站点,根本也不能说像大公司一样有专门的技术人员来处理了。但 ...

这个问题我认为比较简单,首先小网站一般没人乐意用假爬虫特意去抓它,所以一般没这问题。。。另外可以考虑只看百度最大的几个IP段的抓取情况,如只看220.181的,也差不多能衡量总体抓取情况。
发表于 2014-7-3 09:42:16
回复 收藏
快速回复 返回顶部 返回列表