本帖最后由 hwj888 于 2014-7-11 04:12 编辑
基本数据:
有收录的网址:
因为收录的量太少了,没办法更深入的分析比如各小目录情况,越详细越好。 但是明显可以看出www主站下内容收录是比其他分站要好的。
未收录的网址:
从有收录网址来看,其它分站的zixun频道几乎不收录,是不是可以考虑关掉,主做www就行了,公司之前有讨论过。 其实这两个页面是完全一样的)。这边这个情况也照成数据分析的不确定性,日志数据里面url路径是/zixun/123.html,没变法拿到更多数据证明抓的是www还是子站的,还是重复,后面也统计了重复抓取问题。
居然有99%没有收录,是什么原因导致? 原来是想通过网站日志确定爬虫是否全部抓取。因为这边只拿到一天的数据,所以没办法精确确定爬虫抓取问题。 从网站日志分析中,可以发现不少问题
Zixun频道抓取量为4878,爬虫实际抓取到的内容页是3032(扣除小目录和重复抓去),这里重复抓取是1199,也达到了28.33%。 (是否正常,数据是一天内咨询内容页重复抓取占比),抽取蜘蛛抓取的1000个页面,收录了12个,可以确定的是网页质量存在问题 (前期部分采集数据,这边多考虑页面的额外价值吧)。
产品筛选抓取居然高达85%,这个数据实在太恐怖了,筛选页面质量不是很高,出现大量重复页面(如s1-1x2x3-14x1x2和s1-14x1x2-1x2x3,这个只是url位置变化而已,内容完全一样,浪费抓取),这个我自己的看法是直接用robots屏蔽掉(更好的是可以结合着陆页进行分析), 劫富济贫,让蜘蛛更多的抓取资讯,问答和专题。
还有就是渠道合作的,形如www.abc.com/?hef=xxx,蜘蛛也抓取此页面并收录了,抓取量不少,用robots屏蔽。以及301状态页面也有1000+左右, 明明页面已经301了,但是在网页上的旧链接却没有修正过来。
表后面还统计了蜘蛛段ip,据说123段是降权蜘蛛?本来想对比下蜘蛛段ip抓取的区别,但是没发现有什么不同之处?
(ps:估计要被公司开除了,求介绍工作啊。。。)
传送门: 日志分析shell命令符快速入门
python 批量查询百度收录脚本
|