[已通过]【python.小工具】页面http状态码批量查询

*发表于 2014-6-10 15:13:31* · 发表于 2014-6-10 15:13:31

本帖最后由老狼于 2014-6-10 15:28 编辑

比较简单但实用性还是比较高，301、404等都可以查询，代码如下：
import re #主要是用于匹配http：//，其实www是二级域名或者叫主机名，非协议。
import requests #用于web页面抓取，很简单，需要单独安装，安装很简单。
url_text=open(r'D:\url.txt','r') #盘符可以任意修改，注意不能有空行，初始url文本
url_status=open(r'D:\status.txt','w+') #输出状态码
por=re.compile('http://') #简单的正则匹配
headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Encoding':'gzip, deflate',
      'User-Agent':'Mozilla/5.0 (Windows NT 5.1; rv:27.0) Gecko/20100101 Firefox/27.0',
      'Refer':'http://www.hao123.com/',
      'Cache-Control':'max-age=0'} #可随意改写，防止被网站防采集、安全策略屏蔽
for line in url_text.readlines():
if por.search(line):
      code1=requests.get(newurl.strip(),headers=headers,allow_redirects = False).status_code
      url_status.write(str(code1))
      url_status.write('\n')
else:
      newurl='http://'+line
      code2=requests.get(newurl.strip(),headers=headers,allow_redirects = False).status_code
      url_status.write(str(code2))
      url_status.write('\n')
url_text.close()
url_status.close()

*发表于 2014-6-10 15:30:56* · 发表于 2014-6-10 15:30:56

已通过，欢迎分享更多 SE0 思维方法

楼主| *发表于 2014-6-10 15:47:04* · 发表于 2014-6-10 15:47:04

老狼发表于 2014-6-10 15:30
已通过，欢迎分享更多 SE0 思维方法

多谢！

帐号		自动登录	找回密码
密码			注册