发现更大的SEO世界
登录
帐号
自动登录
找回密码
密码
登录
注册
查看收藏
设置
退出
搜索
搜索
本版
文章
帖子
用户
首页
SEO视频教程
SEO培训
SEO顾问
加入我们
Lynx在线版
»
首页
»
SEO培训
›
SEO论坛
›
SEO交流
›
帖子
foxconndmd
,请到
个人资料页面
设置个人签名
海量数据怎么求交集
众所周知,搜索要对用户查询词分词取各词索引取交集再按相关算法排序。
那么对于海量数据如何在1秒内取交集呢,冷僻查询不存在缓存,况且有很多索引集合,如查询以下:
而且在搜索的过程,不同term之间的DocId集合进行逻辑运算的需求非常之多
google结果:
找到约 2,280 条结果 (用时 0.67 秒)
看到一些讨论的算法实现:
bbs.csdn.net/topics/390033026
bbs.chinaunix.net/thread-4074527-1-1.html
发表于 2015-1-9 20:44:26
回复
收藏
ZERO
,SEO执着爱好者
搜索引擎采用最简单的逻辑,两个集合各砍掉大部分再拿剩下的小部分去求交集。
因为砍掉的大部分多数情况下是低质量网页,所以最终一般对结果质量影响不算太大。但当然还是会有部分好页面莫名其妙因为搜索引擎节省点硬件资源,就导致完全看不到排名。
学术界和工业界的对一件事的处理方式往往是截然不同的,注重解决问题更多去关注工业界的做法。
发表于 2015-1-12 15:29:27
回复
收藏
快速回复
返回顶部
返回列表