发现更大的SEO世界
登录
帐号
自动登录
找回密码
密码
登录
注册
查看收藏
设置
退出
搜索
搜索
本版
文章
帖子
用户
首页
SEO视频教程
SEO培训
SEO顾问
加入我们
Lynx在线版
»
首页
»
SEO培训
›
SEO论坛
›
SEO交流
›
帖子
52gcs
,一条路走到黑
[ 版主 ]
求大牛分享谷歌爬虫
本帖最后由 52gcs 于 2014-6-7 20:50 编辑
谷歌对采集太敏感,分分钟封ip。。。想过用分布式和代理,但是成本过高。 数据量级不高。目前只是针对关键词来抓取百度网盘资源的链接。后期项目估计达百万级数据。
目前试过的采集
工具类:
cms采集、火车头、私人定制版采集工具
框架类:
python爬虫、js爬虫、php爬虫
上面都用过,不能很好解决采集封ip问题。之前放弃爬虫也是因为这个原因,后来就用简单的采集工具,但是效率太低,不够灵活。
大家交流下你们的爬虫经验。求大牛分享谷歌爬虫
发表于 2014-6-7 20:47:10
回复
收藏
ZERO
,SEO执着爱好者
几年前国平小范围分享过一个方法,当时管用,现在不清楚是否还能用。没记错的话是这样:
首先获取到Google的IP,有些命令可以帮助找到多个IP。然后以其中非默认的IP设置hosts,之后再去采集,这时候防采集机制很松。
发表于 2014-6-8 03:20:10
回复
收藏
52gcs
,一条路走到黑
[ 版主 ]
ZERO 发表于 2014-6-8 03:20
几年前国平小范围分享过一个方法,当时管用,现在不清楚是否还能用。没记错的话是这样:
首先获取到Google ...
感谢Z大
楼主
|
发表于 2014-6-8 10:14:11
回复
收藏
快速回复
返回顶部
返回列表