对于伪装成蜘蛛的ip如何处理

*发表于 2014-7-1 16:45:57* · 发表于 2014-7-1 16:45:57

今天把6月份的日志处理了一下，仅仅百度蜘蛛的造假率就高达62%。给服务器造成了一定的困扰，对于伪装成蜘蛛的ip你们是如何处理的

58.83.213.95 unknown host 北京市世纪互联非爬虫
58.83.213.123 unknown host 北京市世纪互联非爬虫
59.173.133.102 102.133.173.59.broad.wh.hb.dynamic.163data.com.cn 湖北省武汉市电信非爬虫
58.83.213.98 unknown host 北京市世纪互联非爬虫
58.83.213.96 unknown host 北京市世纪互联非爬虫
59.37.131.72 unknown host 广东省广州市电信非爬虫
58.83.213.97 unknown host 北京市世纪互联非爬虫
59.46.215.26 unknown host 辽宁省大连市电信非爬虫
61.130.146.103 103.146.130.61.dial.wz.zj.dynamic.163data.com.cn 浙江省金华市电信非爬虫
60.169.73.65 unknown host 安徽省芜湖市电信非爬虫
60.172.229.61 unknown host 安徽省淮北市电信非爬虫
61.135.190.197 unknown host 北京市联通非爬虫

复制代码

有两个疑惑：
1.蜘蛛会派出不标识自己蜘蛛身份的ip对网站进行访问，假如屏蔽掉了蜘蛛的部分岂不是杯具
2.判断真假蜘蛛ip用的是 nslookup ，不敢保证有些对nslookup的支持情况

大家伙儿是如何处理造假ip的？

另外站内数据量级是亿，但是月度站内抓取量级是千万，这比例是30%左右，是不是太低了

*发表于 2014-7-1 17:24:33* · 发表于 2014-7-1 17:24:33

大公司一般都由技术组来做防恶意爬虫的事情，容易误杀爬虫，导致流量下降。

如果恶意爬虫抓取量不至于高到显著影响服务器速度，建议SEO角度可以考虑不用管，不然总会存在误杀。nslookup等不总是好用，尤其在搜索引擎新上线一批爬虫服务器的时候可能无法反解。

*发表于 2014-7-2 23:59:00* · 发表于 2014-7-2 23:59:00

ZERO 发表于 2014-7-1 09:24
大公司一般都由技术组来做防恶意爬虫的事情，容易误杀爬虫，导致流量下降。

如果恶意爬虫抓取量不至于高到 ...

这里有个疑问，针对一般的企业网站或者个人站点，根本也不能说像大公司一样有专门的技术人员来处理了。但是往往现在给出的日志分析工具也并不是能完全的去识别蜘蛛，大家都说遇到问题分析网站日志，但是遇到假蜘蛛该怎么办呢，第一个IP根本没有区分，该怎么办呢！

*发表于 2014-7-3 09:42:16* · 发表于 2014-7-3 09:42:16

铁涛发表于 2014-7-2 15:59
这里有个疑问，针对一般的企业网站或者个人站点，根本也不能说像大公司一样有专门的技术人员来处理了。但 ...

这个问题我认为比较简单，首先小网站一般没人乐意用假爬虫特意去抓它，所以一般没这问题。。。另外可以考虑只看百度最大的几个IP段的抓取情况，如只看220.181的，也差不多能衡量总体抓取情况。

帐号		自动登录	找回密码
密码			注册