今天把6月份的日志处理了一下,仅仅百度蜘蛛的造假率就高达62%。给服务器造成了一定的困扰,对于伪装成蜘蛛的ip你们是如何处理的
- 58.83.213.95 unknown host 北京市 世纪互联 非爬虫
- 58.83.213.123 unknown host 北京市 世纪互联 非爬虫
- 59.173.133.102 102.133.173.59.broad.wh.hb.dynamic.163data.com.cn 湖北省武汉市 电信 非爬虫
- 58.83.213.98 unknown host 北京市 世纪互联 非爬虫
- 58.83.213.96 unknown host 北京市 世纪互联 非爬虫
- 59.37.131.72 unknown host 广东省广州市 电信 非爬虫
- 58.83.213.97 unknown host 北京市 世纪互联 非爬虫
- 59.46.215.26 unknown host 辽宁省大连市 电信 非爬虫
- 61.130.146.103 103.146.130.61.dial.wz.zj.dynamic.163data.com.cn 浙江省金华市 电信 非爬虫
- 60.169.73.65 unknown host 安徽省芜湖市 电信 非爬虫
- 60.172.229.61 unknown host 安徽省淮北市 电信 非爬虫
- 61.135.190.197 unknown host 北京市 联通 非爬虫
复制代码
有两个疑惑:
1.蜘蛛会派出不标识自己蜘蛛身份的ip对网站进行访问,假如屏蔽掉了蜘蛛的部分岂不是杯具
2.判断真假蜘蛛ip用的是 nslookup ,不敢保证有些对nslookup的支持情况
大家伙儿是如何处理造假ip的?
另外站内数据量级是亿,但是月度站内抓取量级是千万,这比例是30%左右,是不是太低了 |