发现更大的SEO世界
登录
帐号
自动登录
找回密码
密码
登录
注册
查看收藏
设置
退出
搜索
搜索
本版
文章
帖子
用户
首页
SEO视频教程
SEO培训
SEO顾问
加入我们
Lynx在线版
»
首页
»
SEO培训
›
SEO论坛
›
SEO交流
›
帖子
johnnyzong
,请到
个人资料页面
设置个人签名
使用LogParser提取日志数据
本帖最后由 johnnyzong 于 2014-11-3 10:23 编辑
在技术人员的推荐下,使用了一种以前没用过的windows下日志分析工具提取所需数据——LogParser。
日志格式为:
日志格式
,接下来开始对10月20日的日志进行分析(20141020.log):
完整代码(被降级了,好像不能直接发布代码):
logparser下提取各数据
这里偷懒没有直接拆分出百度爬虫的日志,直接对原始日志进行的操作,不过运行速度方面感觉不慢,平均每条命令都不超过1分钟就执行完毕了,相比cygwin下的shell命令拆分日志的结果,logparser对目录(多层目录)的分析比较方便,之前zero教的提取栏目抓取次数的方法(无论多少层目录 grep -cP 'Get //*?/'试过了好像还是得不到想要的结果啊,大神能不能再耐心仔细教导一下呢)这几条命令,把所需的基础日志抓取信息基本上都获得了并导出为csv。包含了总抓取量、唯一抓取量、每小时抓取量、各个ip抓取的内容、目录抓取、状态码抓取量等。
在技术的推荐和帮助下,用了一个星期才勉强把cygwin下能实现的数据提取用logparser实现,收获嘛,只能说又简单熟悉了一种微软出品的专业日志分析工具,我shell命令和正则不是很熟,至少在cygwin下提取目录抓取次数在自己的能力下还实现不了,用logparser,好歹用简单的命令和参数组合实现了。
评分
参与人数
1
赞同
+4
收起
理由
ZERO
+ 4
查看全部评分
发表于 2014-11-3 10:11:46
回复
收藏
混混
,潜水员
日志数据是多大的呢
发表于 2014-11-3 10:49:02
回复
收藏
ZERO
,SEO执着爱好者
论坛设置已调整,应该可以发代码了。
命令是:grep -cP 'GET /.*?/ '
'GET '限定位置,确定匹配到的是URL
最后的'/ '确定确实以/结尾
.*?代表当中随便出现什么
发表于 2014-11-3 10:51:35
回复
收藏
johnnyzong
,请到
个人资料页面
设置个人签名
混混 发表于 2014-11-3 10:49
日志数据是多大的呢
原始日志大概1.38G
原始日志大小
楼主
|
发表于 2014-11-3 10:52:18
回复
收藏
快速回复
返回顶部
返回列表