本帖最后由 老狼 于 2014-6-10 15:28 编辑
比较简单但实用性还是比较高,301、404等都可以查询,代码如下:
import re #主要是用于匹配http://,其实www是二级域名或者叫主机名,非协议。
import requests #用于web页面抓取,很简单,需要单独安装,安装很简单。
url_text=open(r'D:\url.txt','r') #盘符可以任意修改,注意不能有空行,初始url文本
url_status=open(r'D:\status.txt','w+') #输出状态码
por=re.compile('http://') #简单的正则匹配
headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate',
'User-Agent':'Mozilla/5.0 (Windows NT 5.1; rv:27.0) Gecko/20100101 Firefox/27.0',
'Refer':'http://www.hao123.com/',
'Cache-Control':'max-age=0'} #可随意改写,防止被网站防采集、安全策略屏蔽
for line in url_text.readlines():
if por.search(line):
code1=requests.get(newurl.strip(),headers=headers,allow_redirects = False).status_code
url_status.write(str(code1))
url_status.write('\n')
else:
newurl='http://'+line
code2=requests.get(newurl.strip(),headers=headers,allow_redirects = False).status_code
url_status.write(str(code2))
url_status.write('\n')
url_text.close()
url_status.close() |