发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
12下一页
发新帖
老飘,请到个人资料页面设置个人签名    

不要迷信相关性,用相似性代替相关性,对SEO作用可能更大

本帖最后由 老飘 于 2014-7-24 17:08 编辑

不要迷信相关性,不要太陷入先验概率、后验概率等NLP领域的概念,没有深厚的算法基础和编程能力,这些根本就无法实现。
对于大部分SEO从业者来说,执行、简单、条理清晰可能更为重要。
对SEO来说,相似性的效果可能会更好(页面调取),只简单计算页面title的相似性就行。
有一个简单的算法:编辑距离,可以求字符串相似性,算法如下,可直接使用。
def levenshtein(a,b):
    "Calculates the Levenshtein distance between a and b."
    n, m = len(a), len(b)
    if n > m:
        # Make sure n <= m, to use O(min(n,m)) space
        a,b = b,a
        n,m = m,n
    current = range(n+1)
    for i in range(1,m+1):
        previous, current = current, +[0]*n
        for j in range(1,n+1):
            add, delete = previous[j]+1, current[j-1]+1
            change = previous[j-1]
            if a[j-1] != b[i-1]:
                change = change + 1
            current[j] = min(add, delete, change)
    return current[n]

def levenshtein_distance(first, second):
    """Find the Levenshtein distance between two strings."""
    if len(first) > len(second):
        first, second = second, first
    if len(second) == 0:
        return len(first)
    first_length = len(first) + 1
    second_length = len(second) + 1
    distance_matrix = [range(second_length) for x in range(first_length)]
    for i in range(1, first_length):
        for j in range(1, second_length):
            deletion = distance_matrix[i-1][j] + 1
            insertion = distance_matrix[j-1] + 1
            substitution = distance_matrix[i-1][j-1]
            if first[i-1] != second[j-1]:
                substitution += 1
            distance_matrix[j] = min(insertion, deletion, substitution)
    return distance_matrix[first_length-1][second_length-1]

算法转载:http://blog.csdn.net/haichao062/article/details/8079748



发表于 2014-7-22 18:47:53
回复 收藏
上流的绅士,网络营销    

真心不懂
发表于 2014-7-22 22:22:16
回复 收藏
晓风,膜拜各路大神。。。    

确实不懂。
发表于 2014-7-24 15:04:14
回复 收藏
老飘,请到个人资料页面设置个人签名    


我修改下,稍等
 楼主| 发表于 2014-7-24 15:33:32
回复 收藏
c0901yuan,一直喜欢 用c0901yuan  做网名。    

看是不懂
发表于 2014-7-29 09:07:00
回复 收藏
52gcs,一条路走到黑    [ 版主 ]

呵呵。 看起来高大上啊。


相关性:比如 深圳之窗旅游攻略。相关性就是旅游线路、旅游周边好玩、好吃的等一些满足满足用户需求点。。。再到旅游跟团、旅游费用

相似性:更多的针对知识型或多义的。很好的一个例子就是百度百科。苹果,是吃的。还是iphone呢。  
发表于 2014-7-30 09:43:40
回复 收藏
老飘,请到个人资料页面设置个人签名    

52gcs 发表于 2014-7-30 09:43
呵呵。 看起来高大上啊。

页面之间的链接权重传递的实现方法,以及提高页面质量的方法。
你说的相关性就是一个专题形式的聚合,相似性感觉你理解有误。
目前搜索引擎还是会使用相似性的算法代替相关性实现。
 楼主| 发表于 2014-8-5 09:04:15
回复 收藏
浅唱孤寂,请到个人资料页面设置个人签名    

老飘 发表于 2014-8-5 09:04
页面之间的链接权重传递的实现方法,以及提高页面质量的方法。
你说的相关性就是一个专题形式的聚合,相 ...

你有什么数据说明搜索引擎用相似性代替  相关性呢?
发表于 2014-8-5 14:17:18
回复 收藏
52gcs,一条路走到黑    [ 版主 ]

本帖最后由 52gcs 于 2014-8-5 14:43 编辑
老飘 发表于 2014-8-5 09:04
页面之间的链接权重传递的实现方法,以及提高页面质量的方法。
你说的相关性就是一个专题形式的聚合,相 ...


什么情况。。。回复2次了
发表于 2014-8-5 14:39:49
回复 收藏
52gcs,一条路走到黑    [ 版主 ]

本帖最后由 52gcs 于 2014-8-5 14:42 编辑
老飘 发表于 2014-8-5 09:04
页面之间的链接权重传递的实现方法,以及提高页面质量的方法。
你说的相关性就是一个专题形式的聚合,相 ...


对,分两种情况。同义词和同音词。这里按相关性理解,相似性就是就是同义词 。乘车=坐车、走路=步行

但不可否认,同音词这种情况用户搜索需求更大,要不就不会出现百科这种东西,因为99%的人都能辨别同义词,不是刚需
发表于 2014-8-5 14:39:49
回复 收藏
52gcs,一条路走到黑    [ 版主 ]

浅唱孤寂 发表于 2014-8-5 14:17
你有什么数据说明搜索引擎用相似性代替  相关性呢?

没有可替代性可言。最多是作延伸
发表于 2014-8-5 14:45:32
回复 收藏
浅唱孤寂,请到个人资料页面设置个人签名    

52gcs 发表于 2014-8-5 14:45
没有可替代性可言。最多是作延伸

赞一个!我觉得相似性匹配出来的东西 太差强人意了!!
发表于 2014-8-5 15:36:03
回复 收藏
老飘,请到个人资料页面设置个人签名    

52gcs 发表于 2014-8-5 14:39
对,分两种情况。同义词和同音词。这里按相关性理解,相似性就是就是同义词 。乘车=坐车、走路=步行

但 ...

相似性是相似性,同义词或同音词是另一块,两者关系不大。
像直接tf-idf+余玄定理,属于相似性算法,而非相关性。
例子:突发事件,时效性比较强的query
 楼主| 发表于 2014-8-6 14:36:52
回复 收藏
飞鸿,爱seo,学习SEO    

个人觉得,做站看你目的,为了一时排名,无所谓,为长远,相关性还是好一点
发表于 2014-8-7 13:56:35
回复 收藏
born,个人微信公众账号:jinan_seo请马上关注    

这是什么玩意~~
发表于 2014-8-7 14:47:25
回复 收藏
12下一页
快速回复 返回顶部 返回列表