python爱占百度排名关键词提取

只看大图 · 发表于 2014-6-18 13:58:10

本帖最后由 badbird 于 2014-6-18 18:21 编辑

# -*- coding: cp936 -*-
import urllib,urllib2,re,sys,requests #引用模块
from bs4 import BeautifulSoup
findid=re.compile('>.+<')
def get_url(url):
num = 1
while 'blue t_l word' in urllib2.urlopen('http://baidurank.aizhan.com/baidu/%s/%s/position/'%(url,num)).read():
   num+=1
for x in range(1,num):
      html=urllib2.urlopen('http://baidurank.aizhan.com/baidu/%s/%s/position/'%(url,x)).read()#下载页面
      soup = BeautifulSoup(html)
      keywords=soup.find_all('td',class_='blue t_l word')
      keyword_rank=soup.find_all('span',class_='pos')
      filename=open("aizhan100.csv","a")
      k_list=[]
      for k in keywords:
         k_string=str(list(k)[1])
         #print findid.findall(k_string)[0]
         k_list.append(findid.findall(k_string)[0].rstrip('<').lstrip('>').decode('utf-8').encode('gb2312'))
      r_list=[]
      for r in keyword_rank:
         r_list.append(findid.findall(str(r))[0].rstrip('<').lstrip('>'))
         k_rank=dict(zip(k_list,r_list))
      for k in k_rank:
         filename.write(k + ',' + k_rank[k]+"\n")
get_url('www.xxxxxx.com')

用了2小时写了一段可以直接提取到在爱占百度排名下的所有网站关键词功能,希望对大家有所帮助。(已本地测试可成功提取,有问题可以直接论坛下探讨) 谢谢

*发表于 2014-6-18 15:16:12* · 发表于 2014-6-18 15:16:12

我是新手，暂时记下来，再好好看

*发表于 2014-6-18 15:19:41* · 发表于 2014-6-18 15:19:41

可以把登陆功能加上

楼主| *发表于 2014-6-18 15:40:02* · 发表于 2014-6-18 15:40:02

xfxdtt 发表于 2014-6-18 15:19
可以把登陆功能加上

可以有时间升级一下

*发表于 2014-6-18 18:12:54* · 发表于 2014-6-18 18:12:54

建议把代码上传一下

楼主| *发表于 2014-6-18 18:21:51* · 发表于 2014-6-18 18:21:51

vic 发表于 2014-6-18 18:12
建议把代码上传一下

已经上传。

*发表于 2014-6-19 11:08:19* · 发表于 2014-6-19 11:08:19

小白，请教一下如何下载下来后怎么使用——

原谅我的无知吧。

楼主| *发表于 2014-6-19 11:59:05* · 发表于 2014-6-19 11:59:05

SEO小橙发表于 2014-6-19 11:08
小白，请教一下如何下载下来后怎么使用—— 原谅我的无知吧。

我的是2.7版本的python 你去官网下载一个就好了记得要下载 bs4 requests 库放在C:\Python27\Lib\site-packages 目录下之后执行这段代码就行了 . 如果满意的话给个赞吧 ~！~

*发表于 2014-6-19 12:04:25* · 发表于 2014-6-19 12:04:25

抛个 Shell版
执行： sh aizhan.sh 完成生成keyword.txt 即采集的词

aizhan.zip (448 Bytes, 下载次数: 12381)

---------修改URL,请右击编辑aizhan.sh,把URL换成你的采集对象即可。

*发表于 2014-6-20 08:46:48* · 发表于 2014-6-20 08:46:48

badbird 发表于 2014-6-19 11:59
我的是2.7版本的python 你去官网下载一个就好了记得要下载 bs4 requests 库放在C:\Python27\Lib\si ...

bs4 requests 库——请问这个到哪里去下载啦？

楼主| *发表于 2014-6-20 11:32:52* · 发表于 2014-6-20 11:32:52

SEO小橙发表于 2014-6-20 08:46
bs4 requests 库——请问这个到哪里去下载啦？

641198985 加我QQ吧我传给你

帐号		自动登录	找回密码
密码			注册

python爱占百度排名关键词提取

评分