发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
badbird,一万年太久    

python爱占百度排名关键词提取

本帖最后由 badbird 于 2014-6-18 18:21 编辑

# -*- coding: cp936 -*-
import urllib,urllib2,re,sys,requests #引用模块
from bs4 import BeautifulSoup
findid=re.compile('>.+<')
def get_url(url):
   num = 1
   while 'blue t_l word' in urllib2.urlopen('http://baidurank.aizhan.com/baidu/%s/%s/position/'%(url,num)).read():
      num+=1
   for x in range(1,num):
         html=urllib2.urlopen('http://baidurank.aizhan.com/baidu/%s/%s/position/'%(url,x)).read()#下载页面
         soup = BeautifulSoup(html)
         keywords=soup.find_all('td',class_='blue t_l word')
         keyword_rank=soup.find_all('span',class_='pos')
         filename=open("aizhan100.csv","a")
         k_list=[]
         for k in keywords:
             k_string=str(list(k)[1])
             #print findid.findall(k_string)[0]
             k_list.append(findid.findall(k_string)[0].rstrip('<').lstrip('>').decode('utf-8').encode('gb2312'))
         r_list=[]
         for r in keyword_rank:
             r_list.append(findid.findall(str(r))[0].rstrip('<').lstrip('>'))
             k_rank=dict(zip(k_list,r_list))
         for k in k_rank:
             filename.write(k + ',' + k_rank[k]+"\n")     
get_url('www.xxxxxx.com')

用了2小时写了一段可以直接提取到在爱占百度排名下的所有网站关键词功能,希望对大家有所帮助。(已本地测试可成功提取,有问题可以直接论坛下探讨) 谢谢

aizhan.py

1.17 KB, 下载次数: 1796

评分

参与人数 3赞同 +12 收起 理由
SEO小橙 + 4 很给力! 感谢耐心讲解!
姜姜 + 4 没用到requests,sys,urllib库,可完善登.
renmai + 4 以后多多分享

查看全部评分

发表于 2014-6-18 13:58:10 |只看大图
回复 收藏
圆念,请到个人资料页面设置个人签名    

我是新手,暂时记下来,再好好看
发表于 2014-6-18 15:16:12
回复 收藏
xfxdtt,不变初心。。    

可以把登陆功能加上
发表于 2014-6-18 15:19:41
回复 收藏
badbird,一万年太久    

xfxdtt 发表于 2014-6-18 15:19
可以把登陆功能加上

可以 有时间 升级一下
 楼主| 发表于 2014-6-18 15:40:02
回复 收藏
vic,请到个人资料页面设置个人签名    [ 版主 ]

建议把代码上传一下
发表于 2014-6-18 18:12:54
回复 收藏
badbird,一万年太久    

vic 发表于 2014-6-18 18:12
建议把代码上传一下

已经上传。
 楼主| 发表于 2014-6-18 18:21:51
回复 收藏
SEO小橙,请到个人资料页面设置个人签名    

小白,请教一下如何下载下来后怎么使用—— 原谅我的无知吧。
发表于 2014-6-19 11:08:19
回复 收藏
badbird,一万年太久    

SEO小橙 发表于 2014-6-19 11:08
小白,请教一下如何下载下来后怎么使用—— 原谅我的无知吧。

我的是2.7版本的python 你去官网下载一个就好了 记得 要下载  bs4   requests 库 放在C:\Python27\Lib\site-packages 目录下 之后执行这段代码就行了   .   如果满意的话给个赞吧 ~!~
 楼主| 发表于 2014-6-19 11:59:05
回复 收藏
老狼,老狼博客 www.lanzhihui.com    [ 版主 ]

抛个 Shell版
执行:  sh aizhan.sh   完成 生成keyword.txt 即采集的词




aizhan.zip (448 Bytes, 下载次数: 1782)


---------修改URL,请右击编辑aizhan.sh,把URL换成你的采集对象即可。
发表于 2014-6-19 12:04:25
回复 收藏
SEO小橙,请到个人资料页面设置个人签名    

badbird 发表于 2014-6-19 11:59
我的是2.7版本的python 你去官网下载一个就好了 记得 要下载  bs4   requests 库 放在C:\Python27\Lib\si ...

bs4   requests 库——请问这个到哪里去下载啦?
发表于 2014-6-20 08:46:48
回复 收藏
badbird,一万年太久    

SEO小橙 发表于 2014-6-20 08:46
bs4   requests 库——请问这个到哪里去下载啦?

641198985 加我QQ吧 我传给你
 楼主| 发表于 2014-6-20 11:32:52
回复 收藏
快速回复 返回顶部 返回列表