[已通过]seo词库去重脚本(升级版)

*发表于 2014-5-26 18:04:20* · 发表于 2014-5-26 18:04:20

该脚本是莫山脚本的升级版
http://www.seoqx.com/forum.php?mod=viewthread&tid=16#lastpost

可去除停止词，并过滤停止词后剩下的相同的词。

比如艾玛电动车电动车艾玛
再比如艾玛的电动车电动车艾玛

过滤后会任意保留一个词。

脚本是之前帮人写的，正好可以拿来用了。

#coding:utf-8
#这脚本可以对多词进行分词去停止词然后去重
import jieba,csv
text=open('result.txt','a') #输出结果文件
key=csv.reader(file('4s.csv','rb')) #待处理源文件
stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()] #停止词文件
dict = {}
for i in key:
i = ''.join(i)
fenci = set(jieba.cut(i))-set(stopkey) #去除停止词，但分词顺序变乱
dict[i] = list(fenci) #将原词和过滤之后顺序变乱之后的词存入词库
dict_result={}
for a,b in dict.iteritems(): #将顺序变乱后的词当做字典键值，达到去重
b.sort #剩下就是唯一不同的词了
dict_result[''.join(b)] =a
for i in dict_result.values():
i= '|'.join(jieba.cut(i))
print i
text.write(i.encode('utf-8')+'\n') #注意编码

复制代码

帐号		自动登录	找回密码
密码			注册

[已通过]seo词库去重脚本(升级版)

评分