海量数据怎么求交集

*发表于 2015-1-9 20:44:26* · 发表于 2015-1-9 20:44:26

众所周知，搜索要对用户查询词分词取各词索引取交集再按相关算法排序。
那么对于海量数据如何在1秒内取交集呢，冷僻查询不存在缓存，况且有很多索引集合，如查询以下：

而且在搜索的过程,不同term之间的DocId集合进行逻辑运算的需求非常之多

google结果：
找到约 2,280 条结果（用时 0.67 秒）

看到一些讨论的算法实现:
bbs.csdn.net/topics/390033026
bbs.chinaunix.net/thread-4074527-1-1.html

*发表于 2015-1-12 15:29:27* · 发表于 2015-1-12 15:29:27

搜索引擎采用最简单的逻辑，两个集合各砍掉大部分再拿剩下的小部分去求交集。

因为砍掉的大部分多数情况下是低质量网页，所以最终一般对结果质量影响不算太大。但当然还是会有部分好页面莫名其妙因为搜索引擎节省点硬件资源，就导致完全看不到排名。

学术界和工业界的对一件事的处理方式往往是截然不同的，注重解决问题更多去关注工业界的做法。

帐号		自动登录	找回密码
密码			注册