python查询百度收录（多线程版）

*发表于 2014-8-20 11:33:54* · 发表于 2014-8-20 11:33:54

查询收录数，收录率，未收录链接，收录的链接
需要安装pycurl模块
需要查询的URL放在url.csv里面文件必须是utf-8格式
运行BDshoulu.py文件
在Windows下面的命令提示符下运行会乱码，print的内容会乱码，请自行转码，不影响结果。
遇到验证码的时候会停止5分钟重新查
线程建议不要开太多，否则会导致封IP

#coding:utf-8
import pycurl,re,StringIO
import threading,Queue,time
class caiji:
#打开网页 url：网页URL
def html(self,url):
while 1:
try:
b=StringIO.StringIO()
c=pycurl.Curl()
c.setopt(pycurl.URL,url) #打开URL
c.setopt(pycurl.FOLLOWLOCATION,2) #允许跟踪来源，有参数：1和2
c.setopt(pycurl.ENCODING, 'gzip') #开启gzip压缩提高下载速度
c.setopt(pycurl.NOSIGNAL, True) #开启后多线程不会报错
c.setopt(pycurl.MAXREDIRS,1) #最大重定向次数，0表示不重定向
c.setopt(pycurl.CONNECTTIMEOUT,60) #链接超时
c.setopt(pycurl.TIMEOUT,30) #下载超时
c.setopt(pycurl.USERAGENT,'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)')
#pycurl.USERAGENT 模拟浏览器
c.setopt(pycurl.WRITEFUNCTION, b.write) #回调写入字符串缓存
c.perform() #执行上述访问网址的操作
# print c.getinfo(pycurl.HTTP_CODE)
c.close()
html=b.getvalue() #读取b中的数据
return html #跳出并返回html
except:
continue
wurl=open(r"url1.csv",'a')
caiji=caiji()
class count:
def __init__(self):
self.shoulu=0
self.wshoulu=0
self.i=0
self.lock=threading.Lock()
def c_wshoulu(self):
self.lock.acquire()
self.wshoulu+=1
wshoulu=self.wshoulu
self.lock.release()
return wshoulu
def c_sl(self):
self.lock.acquire()
self.shoulu+=1
shoulu=self.shoulu
self.lock.release()
return shoulu
def c_i(self):
self.lock.acquire()
self.i+=1
i=self.i
self.lock.release()
return i
count=count()
class th(threading.Thread):
def __init__(self,qurl):
threading.Thread.__init__(self)
self.qurl=qurl
self.lock=threading.Lock()
self.cond=threading.Condition()
def run(self):
while 1:
ddc=self.qurl.get()
if ddc is None:
break
while 1:
bdhtm=caiji.html('http://www.baidu.com/s?wd='+ddc)
self.lock.acquire()
if '百度为您找到相关结果约' in bdhtm:
i=count.c_i()
print '第%s条, %s ,收录'% (i,ddc)
wurl.writelines('第%s条, %s ,收录\n'% (i,ddc))
count.c_sl()
break
elif '抱歉，没有找到与' in bdhtm:
i=count.c_i()
print '第%s条, %s ,未收录'% (i,ddc)
wurl.writelines('第%s条, %s ,未收录\n'% (i,ddc))
count.c_wshoulu()
break
elif 'http://verify.baidu.com/' in bdhtm:
print ddc,'出现验证码，等待5分钟后自动开始'
self.lock.release()
time.sleep(500)
continue
else:
print 'Error'
break
self.lock.release()
qurl=Queue.Queue(0)
threadCount=6 #开启线程数，默认6个线程
ths=[]
for t in range(threadCount):
thread=th(qurl)
thread.start()
ths.append(thread)
for ddc in open(r'url.csv'): #导入需要查询的URL文件，格式必须是utf-8
ddc=ddc[0:-1]
qurl.put(ddc)
for tt in range(threadCount):
qurl.put(None)
for t in ths:
t.join()
sl=count.c_sl()-1
print '\n收录率：'+str(round(float(sl)/float(count.c_i()-1)*100,2)),"%"
print '收录：%s 条'%str(sl)
print '未收录：%s 条'%str(count.c_wshoulu()-1)

复制代码

*发表于 2014-8-20 12:42:47* · 发表于 2014-8-20 12:42:47

不知道快不快，之前那个不是很快。。等测试完在加分吧。。。。

*发表于 2014-8-20 13:28:25* · 发表于 2014-8-20 13:28:25

不错的代码感谢

*发表于 2014-8-20 13:54:41* · 发表于 2014-8-20 13:54:41

代码过多了些，粗看貌似是没把Queue用好。

如收录的URL计数，每次发现收录的，Queue put一条进去就行，最后计数。

楼主| *发表于 2014-8-20 13:55:22* · 发表于 2014-8-20 13:55:22

hwj888 发表于 2014-8-20 12:42
不知道快不快，之前那个不是很快。。等测试完在加分吧。。。。

多线程的，怎么会慢，如果慢就是你网速问题，别太快，会封ip的。

楼主| *发表于 2014-8-20 14:36:06* · 发表于 2014-8-20 14:36:06

ZERO 发表于 2014-8-20 13:54
代码过多了些，粗看貌似是没把Queue用好。

如收录的URL计数，每次发现收录的，Queue put一条进去就行，最 ...

我只用Queue导入URL数据了，没做其他的。

*发表于 2014-8-20 15:37:41* · 发表于 2014-8-20 15:37:41

Queue 用于多线程的队列,还是挺好用的, 用来计数我也没用 Queue
这类工具我习惯配合 Mongodb 存储进度和中间结果 ,好处就是意外终止,可以接着运行下去,不用从头开始 ,浪费时间

*发表于 2015-8-20 14:28:08* · 发表于 2015-8-20 14:28:08

支持，谢谢莫山分享

*发表于 2015-8-24 10:37:07* · 发表于 2015-8-24 10:37:07

好像，查的时候，未收录也被查成是收录的，不知道是不是我自身的原因

*发表于 2015-8-24 10:44:16* · 发表于 2015-8-24 10:44:16

未收录的，页面也包含 “百度为您找到相关结果约” ，这样也判断成收录的了

*发表于 2015-9-25 16:29:51* · 发表于 2015-9-25 16:29:51

如果能增加收录的保存到yishoulu.txt，未收录的保存到weishoulu.txt这样分开保存下，就好了。

帐号		自动登录	找回密码
密码			注册