发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
老飘,请到个人资料页面设置个人签名    

[已通过]【python.小工具】页面http状态码批量查询

本帖最后由 老狼 于 2014-6-10 15:28 编辑

比较简单但实用性还是比较高,301、404等都可以查询,代码如下:
import re #主要是用于匹配http://,其实www是二级域名或者叫主机名,非协议。
import requests #用于web页面抓取,很简单,需要单独安装,安装很简单。
url_text=open(r'D:\url.txt','r') #盘符可以任意修改,注意不能有空行,初始url文本
url_status=open(r'D:\status.txt','w+') #输出状态码
por=re.compile('http://') #简单的正则匹配
headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
         'Accept-Encoding':'gzip, deflate',
         'User-Agent':'Mozilla/5.0 (Windows NT 5.1; rv:27.0) Gecko/20100101 Firefox/27.0',
         'Refer':'http://www.hao123.com/',
         'Cache-Control':'max-age=0'} #可随意改写,防止被网站防采集、安全策略屏蔽
for line in url_text.readlines():
    if por.search(line):
        code1=requests.get(newurl.strip(),headers=headers,allow_redirects = False).status_code
        url_status.write(str(code1))
        url_status.write('\n')
    else:
        newurl='http://'+line
        code2=requests.get(newurl.strip(),headers=headers,allow_redirects = False).status_code
        url_status.write(str(code2))
        url_status.write('\n')
url_text.close()
url_status.close()
发表于 2014-6-10 15:13:31
回复 收藏
老狼,老狼博客 www.lanzhihui.com    [ 版主 ]

已通过,欢迎分享更多 SE0 思维 方法
发表于 2014-6-10 15:30:56
回复 收藏
老飘,请到个人资料页面设置个人签名    

老狼 发表于 2014-6-10 15:30
已通过,欢迎分享更多 SE0 思维 方法

多谢!
 楼主| 发表于 2014-6-10 15:47:04
回复 收藏
快速回复 返回顶部 返回列表