发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
丶小苞,小孩子还在玩泥沙    

火车头利用site语句采集百度搜索结果的文章内容

火车头能力确实很强,但是有些人,不知道该如何利用这个神奇!今天在某网站看到一个人分享了火车头利用site语句采集百度搜索结果的文章内容,觉得很有用,所以分享给seo前线的童鞋们。

原帖地址:http://bbs.wxker.com/thread-317-1-1.html

第一步:确定需要采集的平台以及关键词



第二步:分析百度url规则





上面这个图是告诉你,确定采集区域的前后唯一代码





第三步:文章内容采集规则,(可能有些栏目文章页的模板不相同,导致采集不到内容,放心,不会很多的!什么?你把少的那部分规则写进去了?怎么办呢??????)



第四步:得出采集结果



评分

参与人数 2赞同 +8 收起 理由
铁涛 + 4 最近在采集,数据库部分加上就好了.
行书 + 4 给赞理由在下面

查看全部评分

发表于 2014-6-24 15:40:04 |只看大图
回复 收藏
行书,请到个人资料页面设置个人签名    

强势提醒:要注意用360给火车头限速,不然在公司里全速下载,这货能把公司网速给拖死,亲测。
火车头的基础三课其实蛮不错的。
上次想采集百度前100页的标题和链接,不过那时候一直找不到每个页面的唯一代码。

不懂python  shell的 可以参考
发表于 2014-6-24 16:08:57
回复 收藏
姜姜,个人比较闲,学习python中    

采集这些已被收录的内容后续要做什么处理呢
发表于 2014-6-24 16:50:55
回复 收藏
52gcs,一条路走到黑    [ 版主 ]

不行的吧。百度搜索的每个网站的识别字符串都不相同。而且采集不够精准
发表于 2014-6-26 11:24:31
回复 收藏
c0901yuan,一直喜欢 用c0901yuan  做网名。    

应该用来采360的亲 或者   SOSO之类的。   用在百度上面  
发表于 2014-6-27 09:53:58
回复 收藏
丶小苞,小孩子还在玩泥沙    

52gcs 发表于 2014-6-26 03:24
不行的吧。百度搜索的每个网站的识别字符串都不相同。而且采集不够精准

是采集百度知道,关键词的字符不一样而已,其他的都相同。
 楼主| 发表于 2014-7-2 09:28:54
回复 收藏
丶小苞,小孩子还在玩泥沙    

c0901yuan 发表于 2014-6-27 01:53
应该用来采360的亲 或者   SOSO之类的。   用在百度上面

哦?为什么?
 楼主| 发表于 2014-7-2 09:29:19
回复 收藏
快速回复 返回顶部 返回列表