发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
52gcs,一条路走到黑    [ 版主 ]

求大牛分享谷歌爬虫

本帖最后由 52gcs 于 2014-6-7 20:50 编辑

谷歌对采集太敏感,分分钟封ip。。。想过用分布式和代理,但是成本过高。 数据量级不高。目前只是针对关键词来抓取百度网盘资源的链接。后期项目估计达百万级数据。

目前试过的采集

工具类:
cms采集、火车头、私人定制版采集工具

框架类:
python爬虫、js爬虫、php爬虫

上面都用过,不能很好解决采集封ip问题。之前放弃爬虫也是因为这个原因,后来就用简单的采集工具,但是效率太低,不够灵活。

大家交流下你们的爬虫经验。求大牛分享谷歌爬虫  
发表于 2014-6-7 20:47:10
回复 收藏
ZERO,SEO执着爱好者    

几年前国平小范围分享过一个方法,当时管用,现在不清楚是否还能用。没记错的话是这样:

首先获取到Google的IP,有些命令可以帮助找到多个IP。然后以其中非默认的IP设置hosts,之后再去采集,这时候防采集机制很松。
发表于 2014-6-8 03:20:10
回复 收藏
52gcs,一条路走到黑    [ 版主 ]

ZERO 发表于 2014-6-8 03:20
几年前国平小范围分享过一个方法,当时管用,现在不清楚是否还能用。没记错的话是这样:

首先获取到Google ...

感谢Z大
 楼主| 发表于 2014-6-8 10:14:11
回复 收藏
快速回复 返回顶部 返回列表