本帖最后由 johnnyzong 于 2014-11-3 11:25 编辑
[ 本帖最后由 johnnyzong 于 2014-11-3 11:23 编辑 ]\n\n在往技术型SEO靠拢的过程中,很多人不可避免地还是要借助其他一些非技术的方法和工具去实现数据的抓取(就好像我们这些做产品运营市场的)。看过以前一些大拿的帖子,shell命令用的滚瓜烂熟的,所需数据手到擒来,羡慕嫉妒恨之余,还是要找一些适合自己且偷懒的方法。
这里以统计百度爬虫在不同时段的抓取量作为一个小例子。
1、已经拆分出来的百度爬虫日志为baidu.log;
2、新建一个excel(我用的是2010),sheet1中导入baidu.log中的数据,只保留抓取时间字段即可,sheet2中,建立辅助的t1,t2,时间段三列(只是为了好看,最终形成的报表和这个类似吧),后面的1-31天的数据中,e3中填写公式=COUNTIF(sheet1!$A:$A,">="&B3)-COUNTIF(sheet1!$A:$A,">="&C3) ,回车后得到数据,下拉,即得到各时间段内的百度爬虫抓取次数。
做sheet2的辅助列,大概用了2-3分钟,公式2-3分钟,这个模板大概6分钟左右。不过模板做好后以后直接使用的话,30秒内(导入日志数据和删除不需要字段数据的时间)应该能得到所需的时段抓取数据。对于非技术型的SEO,估计还是有些帮助的。
被从正式会员降为限制级会员了,只能发出点不值钱的小东东,希望能入得了zero的法眼。技术大拿就略过本文吧。回头再发一个统计日常ip段抓取的模板(考虑过每天ip增减量的),骗点积分~
附上excel。
4.时间段抓取情况.rar
(88.77 KB, 下载次数: 766)
|