发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
johnnyzong,请到个人资料页面设置个人签名    

使用LogParser提取日志数据

本帖最后由 johnnyzong 于 2014-11-3 10:23 编辑

在技术人员的推荐下,使用了一种以前没用过的windows下日志分析工具提取所需数据——LogParser。
日志格式为: ,接下来开始对10月20日的日志进行分析(20141020.log):

完整代码(被降级了,好像不能直接发布代码):


这里偷懒没有直接拆分出百度爬虫的日志,直接对原始日志进行的操作,不过运行速度方面感觉不慢,平均每条命令都不超过1分钟就执行完毕了,相比cygwin下的shell命令拆分日志的结果,logparser对目录(多层目录)的分析比较方便,之前zero教的提取栏目抓取次数的方法(无论多少层目录 grep -cP 'Get //*?/'试过了好像还是得不到想要的结果啊,大神能不能再耐心仔细教导一下呢)这几条命令,把所需的基础日志抓取信息基本上都获得了并导出为csv。包含了总抓取量、唯一抓取量、每小时抓取量、各个ip抓取的内容、目录抓取、状态码抓取量等。

在技术的推荐和帮助下,用了一个星期才勉强把cygwin下能实现的数据提取用logparser实现,收获嘛,只能说又简单熟悉了一种微软出品的专业日志分析工具,我shell命令和正则不是很熟,至少在cygwin下提取目录抓取次数在自己的能力下还实现不了,用logparser,好歹用简单的命令和参数组合实现了。

评分

参与人数 1赞同 +4 收起 理由
ZERO + 4

查看全部评分

发表于 2014-11-3 10:11:46 |只看大图
回复 收藏
混混,潜水员    

日志数据是多大的呢
发表于 2014-11-3 10:49:02
回复 收藏
ZERO,SEO执着爱好者    

论坛设置已调整,应该可以发代码了。

命令是:grep -cP 'GET /.*?/ '

'GET '限定位置,确定匹配到的是URL
最后的'/ '确定确实以/结尾
.*?代表当中随便出现什么
发表于 2014-11-3 10:51:35
回复 收藏
johnnyzong,请到个人资料页面设置个人签名    

混混 发表于 2014-11-3 10:49
日志数据是多大的呢

原始日志大概1.38G
 楼主| 发表于 2014-11-3 10:52:18
回复 收藏
快速回复 返回顶部 返回列表