发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
yc494821461,wifi+微信+大数据    

如何根据关键词采集挖掘相关内容呢?

如何根据关键词采集挖掘相关内容呢?有合适的思路吗?
发表于 2014-9-24 16:37:04
回复 收藏
ZERO,SEO执着爱好者    

好像有些地方叫泛采集,就是自动在一堆网站上采集。用过的软件里面,虫虫、黑马博客有这样的功能,也自己写代码做过。

大概就是采集搜索引擎搜索结果那些网页,然后再提取那些网页上的正文。因为网页模板各种各样都有,智能抽取正文很麻烦。可以找到些现成的代码利用,会大幅减轻工作量,当然始终是保证不了很高准确性的正文抽取的。
发表于 2014-9-24 17:36:15
回复 收藏
yc494821461,wifi+微信+大数据    

ZERO 发表于 2014-9-24 17:36
好像有些地方叫泛采集,就是自动在一堆网站上采集。用过的软件里面,虫虫、黑马博客有这样的功能,也自己写 ...

这种以前的同事用过,不过效果不怎么样啊
 楼主| 发表于 2014-9-24 17:38:17
回复 收藏
小五,请到个人资料页面设置个人签名    

智能抽取正文其实不难,无非是剥离掉js,css之类干扰数据
然后保留换行,抽取文字集中区域.
当然为了保证文章质量,难免会导致文章部分丢失.

这个我之前有写过,搜索出来的文章大多质量不会太高,还不如有计划的定向采集.
发表于 2014-9-24 22:18:58
回复 收藏
老飘,请到个人资料页面设置个人签名    

正在做类似的事情,说下思路
算法:基于标签文字密度比,需要确定一个阈值(这个自己不容易测试),开源包的推荐goose(Python)
页面特征:goose不能识别列表或者专题这样的页面,因此需求确定可识别页面在搜索结果上的一些特征,比如包含.html、blog、thread等
扩词:一个关键词拓展出来的可采集搜索结果页面是挺少的。
采集:一个简单的爬虫
存储:自己安排

正确率90%以上

其实顺着这个思路下来,国平的光年外链系统雏形就出来了
发表于 2014-9-25 09:18:58
回复 收藏
xfxdtt,不变初心。。    

老飘 发表于 2014-9-25 09:18
正在做类似的事情,说下思路
算法:基于标签文字密度比,需要确定一个阈值(这个自己不容易测试),开源包 ...

这样做,采集出来的内容可读性咋样
发表于 2014-9-25 13:26:01
回复 收藏
老飘,请到个人资料页面设置个人签名    

xfxdtt 发表于 2014-9-25 13:26
这样做,采集出来的内容可读性咋样

质量不错,代码也很简单,你试试
发表于 2014-9-26 09:03:10
回复 收藏
快速回复 返回顶部 返回列表