通过数据分析小议收录和抓取问题

只看大图 · 发表于 2014-7-11 03:59:55

本帖最后由 hwj888 于 2014-7-11 04:12 编辑

基本数据：

有收录的网址：

因为收录的量太少了，没办法更深入的分析比如各小目录情况，越详细越好。

但是明显可以看出www主站下内容收录是比其他分站要好的。

未收录的网址：

从有收录网址来看，其它分站的zixun频道几乎不收录，是不是可以考虑关掉，主做www就行了，公司之前有讨论过。

（ps：公司用主站www资讯首页，展示分站的资讯内容，把子域换成www了，如 www.abc.com/zixun/123.html和xxx.abc.com/zixun/123.html，

其实这两个页面是完全一样的）。这边这个情况也照成数据分析的不确定性，日志数据里面url路径是/zixun/123.html，没变法拿到更多数据证明抓的是www还是子站的，还是重复，后面也统计了重复抓取问题。

居然有99%没有收录，是什么原因导致？

原来是想通过网站日志确定爬虫是否全部抓取。因为这边只拿到一天的数据，所以没办法精确确定爬虫抓取问题。

从网站日志分析中，可以发现不少问题

Zixun频道抓取量为4878，爬虫实际抓取到的内容页是3032（扣除小目录和重复抓去），这里重复抓取是1199，也达到了28.33%。

（是否正常，数据是一天内咨询内容页重复抓取占比），抽取蜘蛛抓取的1000个页面，收录了12个，可以确定的是网页质量存在问题

（前期部分采集数据，这边多考虑页面的额外价值吧）。

产品筛选抓取居然高达85%，这个数据实在太恐怖了，筛选页面质量不是很高，出现大量重复页面（如s1-1x2x3-14x1x2和s1-14x1x2-1x2x3，这个只是url位置变化而已，内容完全一样，浪费抓取），这个我自己的看法是直接用robots屏蔽掉（更好的是可以结合着陆页进行分析），

劫富济贫，让蜘蛛更多的抓取资讯，问答和专题。

还有就是渠道合作的，形如www.abc.com/？hef=xxx，蜘蛛也抓取此页面并收录了，抓取量不少，用robots屏蔽。以及301状态页面也有1000+左右，

明明页面已经301了，但是在网页上的旧链接却没有修正过来。

表后面还统计了蜘蛛段ip，据说123段是降权蜘蛛？本来想对比下蜘蛛段ip抓取的区别，但是没发现有什么不同之处？

（ps：估计要被公司开除了，求介绍工作啊。。。）

传送门：

日志分析shell命令符快速入门
python 批量查询百度收录脚本

*发表于 2014-7-11 09:37:55* · 发表于 2014-7-11 09:37:55

１、站内重复
２、主站和子站的内容可以互相访问，URL不唯一
这两个问题都是致命的。
我觉得先把站内结构规划好再来考虑其它的。

附：《百度搜索引擎优化指南2-良好收录》

域名间内容做好权限，互相分开，a.example.com下的内容，不能通过b.example.com访问

子域名间的内容可以互相访问，可能会被搜索引擎当做重复内容而进行除重处理，保留的url不一定是正常域名下的。

网站中同一网页，只对应一个url

如果网站上多种url都能访问同样的内容，会有如下危险：

a. 搜索引擎会选一种url为标准，可能会和正版不同
b. 用户可能为同一网页的不同url做推荐，多种url形式分散了该网页的权重

如果你的网站上已经存在多种url形式，建议按以下方式处理：

a. 在系统中只使用正常形式url，不让用户接触到非正常形式的url
b. 不把Session id、统计代码等不必要的内容放在url中
c. 不同形式的url，301永久跳转到正常形式
d. 防止用户输错而启用的备用域名，301永久跳转到主域名
e. 使用robots.txt禁止Baiduspider抓取您不想向用户展现的形式

更详细的请搜　百度搜索引擎优化指南2.0

*发表于 2014-7-11 09:44:59* · 发表于 2014-7-11 09:44:59

抓取到创建索引是一个过程，并非我抓取了你的页面，就要马上收录你，这里面涉及众多因素与流程（建议买本《走进搜索引擎》《这就是搜索引擎》）

对于抓取url过的URL一段后并不收入，最重要还是内容质量的问题，你本身明知采集了，这就是问题所在。。，页面内容创建的方面，去看下百度搜索研究的文章-浅谈互联网页面价值

一般的301 百度没反应没有想象中的快。。除非你有渠道。。。

还有什么降权蜘蛛、首页蜘蛛。。各种神化的蜘蛛。还是少听，要知道前因后果。

*发表于 2014-7-11 09:47:57* · 发表于 2014-7-11 09:47:57

以上挺多都是常见问题。如同类页面在www域名比子域名收录好，美团也存在这样的情况，只是区别没这么明显。很多时候内容都应该尽量放在权重高的域名下，但不少大网站没做好这点。

日志只记录URL，没记录被访问的域名，这个是日志配置问题，可以通过技术手段搞定，照理比较简单。

筛选页面抓取非常多，这也是很多网站存在的问题，或许也是抓取上容易出现的最严重问题。在赶集我有尝试不少方法，包括nofollow, canonical，都没有获得明显收效。后来通过直接屏蔽链接入口，得到了一些但非根本性的改善。

美团以前的SEO用了巧妙的方法，不过要求前期URL规划比较好：美团robots.txt屏蔽所有带?的网址的收录，对于一些价值较低的筛选项链接，就使用带?的URL，这样低质量筛选页面就不会被收录。

对于前期URL已积重难返时，如何减少低价值的筛选页面抓取，希望有人能分享下这方面的经验。

*发表于 2014-7-11 09:49:17* · 发表于 2014-7-11 09:49:17

老狼发表于 2014-7-11 09:44
抓取到创建索引是一个过程，并非我抓取了你的页面，就要马上收录你，这里面涉及众多因素与流程（建议买本 ...

抓取到创建索引的过程中，有时候百度会先收录你的页面放出来，但没给创建索引。所以会存在这种，收录不等于索引的情况。

*发表于 2014-7-11 11:37:06* · 发表于 2014-7-11 11:37:06

页面一样的情况下，就是重复页面，最好能统一下路径

楼主| *发表于 2014-7-11 15:39:34* · 发表于 2014-7-11 15:39:34

ZERO 发表于 2014-7-11 09:47
以上挺多都是常见问题。如同类页面在www域名比子域名收录好，美团也存在这样的情况，只是区别没这么明显。 ...

针对这个的话“对于前期URL已积重难返时，如何减少低价值的筛选页面抓取”，能不能把无价值筛选url提取，然后提交死链或者返回404？

楼主| *发表于 2014-7-11 15:42:41* · 发表于 2014-7-11 15:42:41

思明发表于 2014-7-11 09:37
１、站内重复
２、主站和子站的内容可以互相访问，URL不唯一
这两个问题都是致命的。

总觉得在那里看到这个问题，，，原来在百度官方那。。。。

楼主| *发表于 2014-7-11 15:47:57* · 发表于 2014-7-11 15:47:57

老狼发表于 2014-7-11 09:44
抓取到创建索引是一个过程，并非我抓取了你的页面，就要马上收录你，这里面涉及众多因素与流程（建议买本 ...

针对第一点的话，，，确实数据还是有点不靠谱，，这个数据是前几天的数据。。不一定抓取了，就马上收录。。但是理论上，因为已经2年左右的站了，出现这么严重的收录问题，，跟倾向于是抓取不收录了。。。虽然抓取也有不少问题，但是3w多页面理应不成问题。。。

*发表于 2014-7-11 15:51:11* · 发表于 2014-7-11 15:51:11

hwj888 发表于 2014-7-11 07:39
针对这个的话“对于前期URL已积重难返时，如何减少低价值的筛选页面抓取”，能不能把无价值筛选url提取， ...

对于不少网站，复合筛选会有数量级极其巨大的页面，做不到一一列举。

*发表于 2014-7-11 17:32:26* · 发表于 2014-7-11 17:32:26

可以通过程序进行操作301、、、

*发表于 2014-7-12 14:46:11* · 发表于 2014-7-12 14:46:11

那些长期不收录的低质量文章删掉吧
一篇文章主站和其他域名上出现，然后其他域名又出现是你们网站程序上的问题吗？

帐号		自动登录	找回密码
密码			注册

通过数据分析小议收录和抓取问题

评分