简易查百度前十，用于发现竞争对手

只看大图 · 发表于 2014-6-10 13:14:18

本帖最后由小小于 2014-6-10 13:15 编辑

这是一个简易查询百度前十的源码，可以批量查询，汇总出各个网址总数，用于发现潜在的竞争对手。
使用方法，自备自己的词库。
缺点：汇总出来的数据未有排序（能力不足），未去保存在文件中（可以自我完成。），只能统计前十，代码可能臃肿

自备词库
#encoding:utf-8
import urllib2
import re
import time
import random

def getInfo(content): #提取初步信息
urls_pat=re.compile(r'(.*?)|(.*?)|(.*?) - <a style=".*?</a>')
siteUrls=re.findall(urls_pat,content)
info=''
for i in siteUrls:
 for j in i:
 info=info+j
 getUrls(info)
 info=''#每次结束情况info信息

def getUrls(info):#提取Urls
strip_tag_pat=re.compile(r'<.*?>')
strip_tag_pat1=re.compile(r' ')
i0=re.sub(strip_tag_pat,'',info)
i0=re.sub(strip_tag_pat1,'',i0)
i0=i0.strip()
i1=i0.split('/')
siteUrl=''.join(i1[0])
print siteUrl
huiZong(siteUrl)

def huiZong(siteUrl):#统计每个网址出现的次数
if(arrUrl.has_key(siteUrl)):
 arrUrl[siteUrl]+=1
else:
 arrUrl.setdefault(siteUrl,1)



def readUrl(gjc):#读取网页
url = 'http://www.baidu.com/s?wd=' + gjc
content = urllib2.urlopen(url).read()
getInfo(content)

f=open("gjc.txt","r")#词库，一行一个
lines = f.readlines()
arrUrl ={}
for gjc in lines:
readUrl(gjc)
print "---------------------"
time.sleep(random.randint(1,3))#暂停1-3s 防止出现验证码
f.close()
for key in arrUrl:
print key+"-->"+str(arrUrl[key])

结果为

简易排名.rar (974 Bytes, 下载次数: 1608)

*发表于 2014-6-10 13:26:58* · 发表于 2014-6-10 13:26:58

url = 'http://www.baidu.com/s?wd=' + gjc
改成这个
url = 'http://www.baidu.com/s?rn=20&wd=' + gjc

rn=20是前20个结果
可以写成前一百，排序这些可以拿到后在表格里做的

*发表于 2014-6-10 13:36:32* · 发表于 2014-6-10 13:36:32

确实有点臃肿，可以用bs4解析和提取自然排名内容，写入迭代器之后可取其中排名，快照，标题描述数据统计并直接写入csv文件。另外每个函数没有return呢

楼主| *发表于 2014-6-10 14:05:54* · 发表于 2014-6-10 14:05:54

xfxdtt 发表于 2014-6-10 13:26
url = 'http://www.baidu.com/s?wd=' + gjc
改成这个
url = 'http://www.baidu.com/s?rn=20&wd=' + gjc

学到一招

楼主| *发表于 2014-6-10 14:06:22* · 发表于 2014-6-10 14:06:22

姜姜发表于 2014-6-10 13:36
确实有点臃肿，可以用bs4解析和提取自然排名内容，写入迭代器之后可取其中排名，快照，标题描述数据统计并 ...

额还没学到继续深入学习

*发表于 2014-6-10 14:15:25* · 发表于 2014-6-10 14:15:25

小小发表于 2014-6-10 14:05
学到一招

哈哈。。互相学习咯

*发表于 2014-6-10 14:30:11* · 发表于 2014-6-10 14:30:11

rn=20
这个如果在浏览器中的话应该是&rn=* (前*的网址在同一个页面显示)

楼主| *发表于 2014-6-10 16:53:02* · 发表于 2014-6-10 16:53:02

行书发表于 2014-6-10 14:30
rn=20
这个如果在浏览器中的话应该是&rn=* (前*的网址在同一个页面显示)

已经学到了感谢分享

*发表于 2014-6-10 16:54:40* · 发表于 2014-6-10 16:54:40

小小发表于 2014-6-10 16:53
已经学到了感谢分享

不用我也是其他地方看到的

帐号		自动登录	找回密码
密码			注册