发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
foxconndmd,请到个人资料页面设置个人签名    

海量数据怎么求交集

众所周知,搜索要对用户查询词分词取各词索引取交集再按相关算法排序。
那么对于海量数据如何在1秒内取交集呢,冷僻查询不存在缓存,况且有很多索引集合,如查询以下:

而且在搜索的过程,不同term之间的DocId集合进行逻辑运算的需求非常之多

google结果:
找到约 2,280 条结果 (用时 0.67 秒)

看到一些讨论的算法实现:
bbs.csdn.net/topics/390033026
bbs.chinaunix.net/thread-4074527-1-1.html
发表于 2015-1-9 20:44:26
回复 收藏
ZERO,SEO执着爱好者    

搜索引擎采用最简单的逻辑,两个集合各砍掉大部分再拿剩下的小部分去求交集。

因为砍掉的大部分多数情况下是低质量网页,所以最终一般对结果质量影响不算太大。但当然还是会有部分好页面莫名其妙因为搜索引擎节省点硬件资源,就导致完全看不到排名。

学术界和工业界的对一件事的处理方式往往是截然不同的,注重解决问题更多去关注工业界的做法。
发表于 2015-1-12 15:29:27
回复 收藏
快速回复 返回顶部 返回列表