百度商情关键词采集

只看大图 · 发表于 2014-6-20 13:56:31

前些时间论坛里一位朋友分享了关键词采集源里，觉得这个百度商情还是不错；在这里要特别感谢一下那位朋友、感谢三博

#coding=utf-8
import urllib2,sys,MySQLdb,time
import json

reload(sys)
sys.setdefaultencoding('utf-8')

conn=MySQLdb.connect(host="localhost",user="root",passwd="",db="jianshen_keyword",charset="utf8") #连接数据库
cursor=conn.cursor()
cursor.execute("SET NAMES utf8") #防止乱码

html = urllib2.urlopen('http://shangqing.baidu.com/recomword/recomWordCache_findRecomWord.htm?area_id=&word=肱三头肌').read()
d = json.loads(html)

for item in d["data"]["list"]:
dates = item["word"]
#print dates
url = 'http://shangqing.baidu.com/recomword/recomWordCache_findRecomWord.htm?area_id=&word=%s'%dates
print url
try:
      html2 = urllib2.urlopen(url).read()
      s = json.loads(html2)
      for item1 in s["data"]["list"]:
         print item1["word"]
         print item1["total"]
         cursor.execute("insert into gongsantouji(keyword,total) values('%s','%s')" %(item1["word"],item1["total"]))
         time.sleep(0.3)
except :
      continue
      time.sleep(5)

有什么问题及时留言；

*发表于 2014-6-20 17:13:22* · 发表于 2014-6-20 17:13:22

不错，可惜不会数据库

我都是csv存贮的

*发表于 2014-6-20 18:15:22* · 发表于 2014-6-20 18:15:22

#!/bin/bash百度商情指数版/key.txt置于根目录下。key.txt及要拓展的词，一行一个
for key in `cat key.txt`
do
echo $key
curl "http://honeyimg.bdimg.com/recomword/recomWordCache_findRecomWord.htm?area_id=&word="$key"" |awk 'BEGIN{RS="{";ORS="\n"}{print $0}'|awk -F "\"|:|}" '{print $5,$9}' >>keyword.txt
done;

复制代码

shangqing.zip (390 Bytes, 下载次数: 1394)

*发表于 2014-6-20 18:50:27* · 发表于 2014-6-20 18:50:27

看着都好用

*发表于 2014-6-20 23:06:16* · 发表于 2014-6-20 23:06:16

看着都好厉害，不知道会不会用！

楼主| *发表于 2014-6-21 09:50:24* · 发表于 2014-6-21 09:50:24

浅唱孤寂发表于 2014-6-20 23:06
看着都好厉害，不知道会不会用！

使用还是很简单的

*发表于 2014-6-21 21:13:41* · 发表于 2014-6-21 21:13:41

得抓紧学些了，为了做一个公司的词库前后忙了几天，懂技术，会用工具就是好啊，看着真眼馋。。

*发表于 2014-7-31 00:54:10* · 发表于 2014-7-31 00:54:10

本帖最后由 rockie 于 2014-7-31 00:56 编辑

狼总，我在采集的时候，关键词是中文时不能采集

在有英文和中文混合的时候，部有一个不能满足，用UTF-8时中文出现乱码，用GBK时英文采集有中文时就是乱码

*发表于 2014-7-31 09:20:34* · 发表于 2014-7-31 09:20:34

姜姜发表于 2014-6-20 17:13
不错，可惜不会数据库我都是csv存贮的

怎么用csv格式储存呢？

*发表于 2014-7-31 09:20:52* · 发表于 2014-7-31 09:20:52

姜姜发表于 2014-6-20 17:13
不错，可惜不会数据库我都是csv存贮的

怎么用csv格式储存呢？

*发表于 2014-8-3 10:44:29* · 发表于 2014-8-3 10:44:29

张小凡发表于 2014-7-31 09:20
怎么用csv格式储存呢？

我的脚本不是他这样的

帐号		自动登录	找回密码
密码			注册

百度商情关键词采集

评分

评分