发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
hwj888,友链。    

通过数据分析小议收录和抓取问题

本帖最后由 hwj888 于 2014-7-11 04:12 编辑

基本数据:

有收录的网址:


因为收录的量太少了,没办法更深入的分析比如各小目录情况,越详细越好。
但是明显可以看出www主站下内容收录是比其他分站要好的。

未收录的网址:


从有收录网址来看,其它分站的zixun频道几乎不收录,是不是可以考虑关掉,主做www就行了,公司之前有讨论过。
ps:公司用主站www资讯首页,展示分站的资讯内容,把子域换成www了,如 www.abc.com/zixun/123.htmlxxx.abc.com/zixun/123.html
其实这两个页面是完全一样的)。这边这个情况也照成数据分析的不确定性,日志数据里面url路径是/zixun/123.html,没变法拿到更多数据证明抓的是www还是子站的,还是重复,后面也统计了重复抓取问题。


居然有99%没有收录,是什么原因导致?
原来是想通过网站日志确定爬虫是否全部抓取。因为这边只拿到一天的数据,所以没办法精确确定爬虫抓取问题。
从网站日志分析中,可以发现不少问题


Zixun频道抓取量为4878,爬虫实际抓取到的内容页是3032(扣除小目录和重复抓去),这里重复抓取是1199,也达到了28.33%
(是否正常,数据是一天内咨询内容页重复抓取占比),抽取蜘蛛抓取的1000个页面,收录了12个,可以确定的是网页质量存在问题
(前期部分采集数据,这边多考虑页面的额外价值吧)。

产品筛选抓取居然高达85%,这个数据实在太恐怖了,筛选页面质量不是很高,出现大量重复页面(如s1-1x2x3-14x1x2s1-14x1x2-1x2x3,这个只是url位置变化而已,内容完全一样,浪费抓取),这个我自己的看法是直接用robots屏蔽掉(更好的是可以结合着陆页进行分析),
劫富济贫,让蜘蛛更多的抓取资讯,问答和专题。

还有就是渠道合作的,形如www.abc.com/hef=xxx,蜘蛛也抓取此页面并收录了,抓取量不少,用robots屏蔽。以及301状态页面也有1000+左右,
明明页面已经301了,但是在网页上的旧链接却没有修正过来。

表后面还统计了蜘蛛段ip,据说123段是降权蜘蛛?本来想对比下蜘蛛段ip抓取的区别,但是没发现有什么不同之处?

ps:估计要被公司开除了,求介绍工作啊。。。)

传送门
日志分析shell命令符快速入门
python 批量查询百度收录脚本




评分

参与人数 1赞同 +4 收起 理由
ZERO + 4

查看全部评分

发表于 2014-7-11 03:59:55 |只看大图
回复 收藏
思明,技术宅男SEO之路    QQ:176089710    

1、站内重复
2、主站和子站的内容可以互相访问,URL不唯一
这两个问题都是致命的。
我觉得先把站内结构规划好再来考虑其它的。

附:《百度搜索引擎优化指南2-良好收录》

域名间内容做好权限,互相分开,a.example.com下的内容,不能通过b.example.com访问

子域名间的内容可以互相访问,可能会被搜索引擎当做重复内容而进行除重处理,保留的url不一定是正常域名下的。

网站中同一网页,只对应一个url

如果网站上多种url都能访问同样的内容,会有如下危险:

a. 搜索引擎会选一种url为标准,可能会和正版不同
b. 用户可能为同一网页的不同url做推荐,多种url形式分散了该网页的权重

如果你的网站上已经存在多种url形式,建议按以下方式处理:

a. 在系统中只使用正常形式url,不让用户接触到非正常形式的url
b. 不把Session id、统计代码等不必要的内容放在url中
c. 不同形式的url,301永久跳转到正常形式
d. 防止用户输错而启用的备用域名,301永久跳转到主域名
e. 使用robots.txt禁止Baiduspider抓取您不想向用户展现的形式


更详细的请搜 百度搜索引擎优化指南2.0
发表于 2014-7-11 09:37:55
回复 收藏
老狼,老狼博客 www.lanzhihui.com    [ 版主 ]

抓取到创建索引是一个过程,并非我抓取了你的页面,就要马上收录你,这里面涉及众多因素与流程(建议买本 《走进搜索引擎》《这就是搜索引擎》)

对于抓取url过的URL一段后并不收入,最重要还是内容质量的问题,你本身明知采集了,这就是问题所在。。,页面内容创建的方面,去看下 百度搜索研究的文章-浅谈互联网页面价值

一般的301 百度没反应没有想象中的快。。除非 你有渠道。。。

还有 什么降权蜘蛛、首页蜘蛛。。各种神化的蜘蛛。还是少听,要知道 前因后果。
发表于 2014-7-11 09:44:59
回复 收藏
ZERO,SEO执着爱好者    

以上挺多都是常见问题。如同类页面在www域名比子域名收录好,美团也存在这样的情况,只是区别没这么明显。很多时候内容都应该尽量放在权重高的域名下,但不少大网站没做好这点。

日志只记录URL,没记录被访问的域名,这个是日志配置问题,可以通过技术手段搞定,照理比较简单。

筛选页面抓取非常多,这也是很多网站存在的问题,或许也是抓取上容易出现的最严重问题。在赶集我有尝试不少方法,包括nofollow, canonical,都没有获得明显收效。后来通过直接屏蔽链接入口,得到了一些但非根本性的改善。

美团以前的SEO用了巧妙的方法,不过要求前期URL规划比较好:美团robots.txt屏蔽所有带?的网址的收录,对于一些价值较低的筛选项链接,就使用带?的URL,这样低质量筛选页面就不会被收录。

对于前期URL已积重难返时,如何减少低价值的筛选页面抓取,希望有人能分享下这方面的经验。
发表于 2014-7-11 09:47:57
回复 收藏
fred,请到个人资料页面设置个人签名    [ 版主 ]

老狼 发表于 2014-7-11 09:44
抓取到创建索引是一个过程,并非我抓取了你的页面,就要马上收录你,这里面涉及众多因素与流程(建议买本  ...

抓取到创建索引的过程中,有时候百度会先收录你的页面放出来,但没给创建索引。所以会存在这种,收录不等于索引的情况。
发表于 2014-7-11 09:49:17
回复 收藏
ehome5,请到个人资料页面设置个人签名    

页面一样的情况下,就是重复页面,最好能统一下路径
发表于 2014-7-11 11:37:06
回复 收藏
hwj888,友链。    

ZERO 发表于 2014-7-11 09:47
以上挺多都是常见问题。如同类页面在www域名比子域名收录好,美团也存在这样的情况,只是区别没这么明显。 ...

针对这个的话“对于前期URL已积重难返时,如何减少低价值的筛选页面抓取”,能不能把无价值筛选url提取,然后提交死链或者返回404?
 楼主| 发表于 2014-7-11 15:39:34
回复 收藏
hwj888,友链。    

思明 发表于 2014-7-11 09:37
1、站内重复
2、主站和子站的内容可以互相访问,URL不唯一
这两个问题都是致命的。

总觉得在那里看到这个问题,,,原来在百度官方那。。。。
 楼主| 发表于 2014-7-11 15:42:41
回复 收藏
hwj888,友链。    

老狼 发表于 2014-7-11 09:44
抓取到创建索引是一个过程,并非我抓取了你的页面,就要马上收录你,这里面涉及众多因素与流程(建议买本  ...

针对第一点的话,,,确实数据还是有点不靠谱,,这个数据是前几天的数据。。不一定抓取了,就马上收录。。但是理论上,因为已经2年左右的站了,出现这么严重的收录问题,,跟倾向于是抓取不收录了。。。虽然抓取也有不少问题,但是3w多页面理应不成问题。。。
 楼主| 发表于 2014-7-11 15:47:57
回复 收藏
ZERO,SEO执着爱好者    

hwj888 发表于 2014-7-11 07:39
针对这个的话“对于前期URL已积重难返时,如何减少低价值的筛选页面抓取”,能不能把无价值筛选url提取, ...

对于不少网站,复合筛选会有数量级极其巨大的页面,做不到一一列举。
发表于 2014-7-11 15:51:11
回复 收藏
adway,请到个人资料页面设置个人签名    

可以通过程序进行操作301、、、
发表于 2014-7-11 17:32:26
回复 收藏
why,请到个人资料页面设置个人签名    

那些长期不收录的低质量文章删掉吧  
一篇文章主站和其他域名上出现,然后其他域名又出现是你们网站程序上的问题吗?
发表于 2014-7-12 14:46:11
回复 收藏
快速回复 返回顶部 返回列表