该脚本是莫山脚本的升级版
http://www.seoqx.com/forum.php?mod=viewthread&tid=16#lastpost
可去除停止词,并过滤停止词后剩下的相同的词。
比如 艾玛电动车 电动车艾玛
再比如 艾玛的电动车 电动车艾玛
过滤后会任意保留一个词。
脚本是之前帮人写的,正好可以拿来用了。
- #coding:utf-8
- #这脚本可以对多词进行分词去停止词然后去重
- import jieba,csv
- text=open('result.txt','a') #输出结果文件
- key=csv.reader(file('4s.csv','rb')) #待处理源文件
- stopkey=[line.strip().decode('utf-8') for line in open('stopkey.txt').readlines()] #停止词文件
- dict = {}
- for i in key:
- i = ''.join(i)
- fenci = set(jieba.cut(i))-set(stopkey) #去除停止词,但分词顺序变乱
- dict[i] = list(fenci) #将原词和过滤之后顺序变乱之后的词存入词库
- dict_result={}
- for a,b in dict.iteritems(): #将顺序变乱后的词当做字典键值,达到去重
- b.sort #剩下就是唯一不同的词了
- dict_result[''.join(b)] =a
-
- for i in dict_result.values():
- i= '|'.join(jieba.cut(i))
- print i
- text.write(i.encode('utf-8')+'\n') #注意编码
复制代码
|