发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
小五,请到个人资料页面设置个人签名    

最近在做个TF/IDF的功能类,用jieba带的词库,(关于idf.txt想咨询)

因为想直接套用在网站上,所以最近在移植Python上面的jieba分词组件.
分词已经实现了,不过对tf/idf的运算还是有疑问.
jieba根目录下有给一批词的idf运算值.
假如idf.txt中出现,那么运算也不成问题,假如没出现,那么idf如何设置个初始值呢?
发表于 2014-9-28 00:50:30
回复 收藏
小五,请到个人资料页面设置个人签名    

折腾了两个小时,自己搞定了,说下解决方案.
给没查找到的值设定个idf中间值,比如8.0
然后把重点词根的idf人肉设置高点(比如100),无关词设置为0.几,目前测试了几篇文章,tag提取的都很靠谱.
如果有朋友有更好的方法,欢迎探讨.
 楼主| 发表于 2014-9-28 02:58:43
回复 收藏
思明,技术宅男SEO之路    QQ:176089710    

IDF(逆向词频)的一个原则是包含这个词的文档数越少,即它的值就越大,这个词就越能做为区分文档属性的关键词.

根据这个,有一个取巧的方法.

我们在在度搜 " 的" 这个字,显示结果数 100,000,000个

我们在百度搜  "python" 显示结果数为 58,400,000个

我们在百度搜 "SEO前线" 显示结果为 300,000个

百度的搜索结果就表示了一个词的 IDF 趋势.所以根据这个,我们可以来自己写一个公式,来计算 idf 值.
发表于 2014-9-28 09:46:56
回复 收藏
ZERO,SEO执着爱好者    

如果目的仅是提取文章tag且无很特殊的要求,jieba自带的tag提取应该就可以。
发表于 2014-9-28 10:06:08
回复 收藏
小五,请到个人资料页面设置个人签名    

思明 发表于 2014-9-28 09:46
IDF(逆向词频)的一个原则是包含这个词的文档数越少,即它的值就越大,这个词就越能做为区分文档属性的关 ...

首先,你这个思路一定是对的.
但是鉴于成本问题,每个不出现的分词都需要去搜索下,这个时间成本有点大.
而且还需要消耗代理.
 楼主| 发表于 2014-9-28 15:05:24
回复 收藏
小五,请到个人资料页面设置个人签名    

ZERO 发表于 2014-9-28 10:06
如果目的仅是提取文章tag且无很特殊的要求,jieba自带的tag提取应该就可以。 ...

tag只是局部需求,根本目的是做好相关文章聚类
 楼主| 发表于 2014-9-28 15:05:53
回复 收藏
刀心,前来膜拜各位大神    

我写了一篇(http://www.seoqx.com/post/1605)看看能用否。
发表于 2016-3-11 14:15:15
回复 收藏
快速回复 返回顶部 返回列表