发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
Arvin,外链才是硬道理    

[已通过]seo词库去重脚本(升级版)

该脚本是莫山脚本的升级版
http://www.seoqx.com/forum.php?mod=viewthread&tid=16#lastpost

可去除停止词,并过滤停止词后剩下的相同的词。

比如 艾玛电动车 电动车艾玛
再比如   艾玛的电动车 电动车艾玛

过滤后会任意保留一个词。

脚本是之前帮人写的,正好可以拿来用了。


  1. #coding:utf-8
  2. #这脚本可以对多词进行分词去停止词然后去重
  3. import jieba,csv
  4. text=open('result.txt','a')          #输出结果文件
  5. key=csv.reader(file('4s.csv','rb'))    #待处理源文件
  6. stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()]             #停止词文件
  7. dict = {}
  8. for i in key:
  9.     i = ''.join(i)
  10.     fenci = set(jieba.cut(i))-set(stopkey)  #去除停止词,但分词顺序变乱
  11.     dict[i] = list(fenci)       #将原词和过滤之后顺序变乱之后的词存入词库

  12. dict_result={}
  13. for a,b in dict.iteritems():      #将顺序变乱后的词当做字典键值,达到去重
  14.     b.sort                                 #剩下就是唯一不同的词了                                 
  15.     dict_result[''.join(b)] =a  
  16.    
  17. for i in dict_result.values():
  18.     i=  '|'.join(jieba.cut(i))
  19.     print i
  20.     text.write(i.encode('utf-8')+'\n')   #注意编码
复制代码

   

评分

参与人数 1赞同 +4 收起 理由
hwj888 + 4

查看全部评分

发表于 2014-5-26 18:04:20
回复 收藏
快速回复 返回顶部 返回列表