发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
张小凡,QQ 2858487913    

长尾词搜索词(理论+案例)分析

本帖最后由 张小凡 于 2014-11-18 03:03 编辑

理论:

最近几天都在看关于tf-idf的算法,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency),这个主要是网页权重计算的一种,词*频率*相应的权重,再累加,就是网页权重的一部分,当然还有外链等其它因素,这里只是对tf-idf细细讨论。

前面已提到了tf-idf公式,那么它就和词频,和词的权重有关,词的权重是一个定值,那么提高网页的权重就是多作词的频率,关于做多少词频合适,我也没研究过。

分析案例:

下面说说我发现的案例搜索词(网站怎么开发,怎么开发网站,开发网站怎么,网站是gkkgo@com@guide@37),这个词搜索引擎会分为网站,开发,怎么,三个词,然后按照上面的权重算法,这个网站出现的关键词:网站6次,开发17次,怎么1次,对应的词的权重分别记为a,b,c无论是网站怎么开发,还是怎么网站开发,网站开发怎么,理论上这个网站的权重都是一定的,(外链因素也是固定的)但是在百度输入这两个词的时候,却发现这个网站排名有波动,那必然是有什么遗漏。在我看了百度快照,发现这三个词颜色不一样,于是在百度试了比较多的搜索词过后,总结出来了颜色是代表这个搜索词权重高低,黄色词权重高于蓝色词,高于绿色词,那么前面就能想通了,我们在回过头来看‘怎么网站开发’,这个词‘【怎么】’是最优先匹配的,‘【网站’】其次,‘【开发】’其次,那么权重完整公式应该是x1c+y6a+z17c(x,y,z是对应位置的权重x>y>z)应为其它网站没【怎么】这个词,所以权重公式是(ya+zc),所以gkk这个网站排第一,对于‘【网站怎么开发】这个词 是  x6a+y1c+z17c,其它网站是xa+zc,gkk排在第5,第三个词‘【开发网站怎么】’ gkk没排名。因为这个案例比较鲜明,是我昨天分析的,但是今天早上就发现都没排名了,晕,排名的图也没截下来。看看下面快照图吧。




总结:

颜色是代表这个词的权重,然后x,y,z权重值相差非常大,so用户输入的词的重视程度应该依次降低。

关于我 博客重庆seo排第一,但是seo重庆排第二,说明seo权重还不是很够,需要加强。
发表于 2014-11-18 11:00:04
回复 收藏
renmai,紧箍咒、乳房罩、八戒裤衩、避孕套    

本帖最后由 renmai 于 2014-11-18 16:18 编辑

不同的网站快照颜色是不一样的,多个网站对比看看。

对于同一搜索词而言,网站完全匹配就全是黄色,不完全匹配就展现分词匹配后的颜色,完全匹配全站是比较高的。

对于不确定用户搜索词,满足用户需求就是对标题分词,把分词结果合理插入到网站中,这样无理完全匹配,不完全匹配都能命中。
发表于 2014-11-18 16:05:49
回复 收藏
九十九,seo牛人不是我!    

颜色只是对匹配的分词进行标记,多搜一些词,你会发现黄,蓝、绿,紫,粉,红……都有,不能说明分词权重问题
发表于 2014-11-18 17:10:04
回复 收藏
lydxliusun,请到个人资料页面设置个人签名    

颜色与权重的对应关系太武断,我因为没研究过,不说你错,只是保留意见。

至于你对tfidf的理解,显然浮于表面
发表于 2014-11-26 14:17:03
回复 收藏
思明,技术宅男SEO之路    QQ:176089710    

TF-IDF 理解为权重我觉得是不妥的,我理解为:一个词的信息量

一篇文章通过分词和计算,可以用来:

1、计算每篇文章(网页)所带有的信息量(信息熵的计算),“你的手表” 比 “乔布斯的手表” 信息量要少。
2、提取文章核心词,摘要的提取,确定网页主题等
3、配合余弦定理等可以用来计算两个网页的相似度
4、确定搜索词经分词后的检索词的重要程度

我们知道:

1、搜索引擎喜欢信息丰富的网页
2、搜索引擎需要确定网页和网站的主题和行业,动态标题和摘要生成等
3、搜索引擎需要找出相似的网页,去重
4、搜索引擎得判断用户的搜索意图

当我们在搜索引擎搜索 “ iphone手机 ” 时,会被分成 "iphone"和“手机” 两个检索词,这时候 "iphone" 要比 "手机" 更重要,通过 IDF 可以容易的判断出来。

评分

参与人数 2赞同 +8 收起 理由
菲比 + 4 很给力!
ZERO + 4

查看全部评分

发表于 2014-11-26 16:46:41
回复 收藏
菲比,请到个人资料页面设置个人签名    

思明 发表于 2014-11-26 16:46
TF-IDF 理解为权重我觉得是不妥的,我理解为:一个词的信息量

一篇文章通过分词和计算,可以用来:

思明大牛的解释简单易懂,学习了
发表于 2014-11-26 21:38:14
回复 收藏
道哥,www.seodug.com    

本帖最后由 道哥 于 2014-12-2 15:33 编辑

楼主意识到长尾关键词中的重点词这一方向是正确的,不过不应该生搬硬套的拿tf-idf得分来理解term权重

举个例子:
“南京中山陵景区地址”以及“南京到马尔代夫旅游线路”
如果按照tf-idf来理解的话,“南京”这个term的得分是完全一致的,但实际结合上下文就可以看到第一个query中的核心term是“中山陵”及“地址”,而第二个query中的核心term是"南京"“马尔代夫”“旅游”“线路”

而实际的搜索排序中,百度,360,搜狗对query分析中的term权重计算的确有所倚重,因为出于节省索引空间的原因,他们的倒排索引及query分词粒度很细
发表于 2014-12-2 15:30:38
回复 收藏
快速回复 返回顶部 返回列表