本帖最后由 张小凡 于 2014-11-18 03:03 编辑
理论:
最近几天都在看关于tf-idf的算法,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency),这个主要是网页权重计算的一种,词*频率*相应的权重,再累加,就是网页权重的一部分,当然还有外链等其它因素,这里只是对tf-idf细细讨论。
前面已提到了tf-idf公式,那么它就和词频,和词的权重有关,词的权重是一个定值,那么提高网页的权重就是多作词的频率,关于做多少词频合适,我也没研究过。
分析案例:
下面说说我发现的案例搜索词(网站怎么开发,怎么开发网站,开发网站怎么,网站是gkkgo@com@guide@37),这个词搜索引擎会分为网站,开发,怎么,三个词,然后按照上面的权重算法,这个网站出现的关键词:网站6次,开发17次,怎么1次,对应的词的权重分别记为a,b,c无论是网站怎么开发,还是怎么网站开发,网站开发怎么,理论上这个网站的权重都是一定的,(外链因素也是固定的)但是在百度输入这两个词的时候,却发现这个网站排名有波动,那必然是有什么遗漏。在我看了百度快照,发现这三个词颜色不一样,于是在百度试了比较多的搜索词过后,总结出来了颜色是代表这个搜索词权重高低,黄色词权重高于蓝色词,高于绿色词,那么前面就能想通了,我们在回过头来看‘怎么网站开发’,这个词‘【怎么】’是最优先匹配的,‘【网站’】其次,‘【开发】’其次,那么权重完整公式应该是x1c+y6a+z17c(x,y,z是对应位置的权重x>y>z)应为其它网站没【怎么】这个词,所以权重公式是(ya+zc),所以gkk这个网站排第一,对于‘【网站怎么开发】这个词 是 x6a+y1c+z17c,其它网站是xa+zc,gkk排在第5,第三个词‘【开发网站怎么】’ gkk没排名。因为这个案例比较鲜明,是我昨天分析的,但是今天早上就发现都没排名了,晕,排名的图也没截下来。看看下面快照图吧。
总结:
颜色是代表这个词的权重,然后x,y,z权重值相差非常大,so用户输入的词的重视程度应该依次降低。
关于我 博客重庆seo排第一,但是seo重庆排第二,说明seo权重还不是很够,需要加强。 |