发现更大的SEO世界
 找回密码
 注册

扫一扫,访问微社区

搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
小乐,请到个人资料页面设置个人签名    

[已通过]词库采集思路及步骤

大数据淘客一直非常火, 其中典型的几个:美丽说,人人逛街,乐活,华声在线等。后期出来的也多于春笋了,但都没活多久,就挂掉了。今天主要给大家提供的是词库采集思路。
词库来源:etao.com

采集思路及步骤:
1. 获取入口页面 HTML 代码 (http://s.etao.com/charlist.html)
2. 广度优先:从入口HTML代码中分析出  A-Z 的分类链接和底部的分页链接(支持去重)
3. 从HTMl页面中获取所有tag(使用xpath)
4. 存储:
MySQL数据结构
建一个 tags 表,因为我只存储了标签名,所以只需要一个name字段就可以
使用到的python包 (依赖包,需要自己安装) 必须:
1. python scrapy 爬虫框架,懂点python很容易上手 [scrapy.org]使用方式:
1.下载提供的代码
2.安装需要的python依赖包
3.cd 到解压目录,启用爬虫, scrapy crawl etao

一淘爬虫:etaoSpider
总结:亲测一个小时的样子可以抓取1500万的TAG,这些TAG 是淘宝根据用户搜索热度提取的。
以上供有需求的同学研究使用,本文针对有python基础的,(这边使用的是linux开发,windows没有测试,时间太紧,不是很详细,有错误多多反馈。如有不好 大家勿喷。

词库采集

词库采集

etaoSpider.rar

5.26 KB, 下载次数: 394

etao爬虫

评分

参与人数 5赞同 +20 收起 理由
方法 + 4 又来一个技术大神!
yxlwfds + 4 很给力!
蝈蝈 + 4 神马都是浮云
老狼 + 4
莫山 + 4 很给力!

查看全部评分

发表于 2014-5-29 22:06:15
回复 收藏
yxlwfds,请到个人资料页面设置个人签名    

这个可以有,楼主给牛x
发表于 2014-5-30 08:24:04
回复 收藏
xfxdtt,不变初心。。    

蛮好的,可以用这些TAG去扩词
发表于 2014-5-30 09:05:08
回复 收藏
ZERO,SEO执着爱好者    

抱歉,当是其它板块的发帖了,刚刚发现是投稿,所以通过晚了些。
发表于 2014-5-30 16:31:43
回复 收藏
小乐,请到个人资料页面设置个人签名    

ZERO 发表于 2014-5-30 16:31
抱歉,当是其它板块的发帖了,刚刚发现是投稿,所以通过晚了些。

没事 要和zero多学习
 楼主| 发表于 2014-5-30 17:35:00
回复 收藏
52gcs,一条路走到黑    [ 版主 ]

我目前用php的curl和正则。python很强大,学习了
发表于 2014-6-1 23:27:39
回复 收藏
快速回复 返回顶部 返回列表