此脚本比较弱智啦,只能处理完全重复的数据,“爱玛电动车,电动车爱玛”这种词无法去掉(另有脚本可以解决),停止词无法去掉(回头优化下这个脚本就可以了)。同义词也无法去掉(搞不定啊,操)。
嗯,先这样了。
- #coding:utf-8
- #此脚本使用字典去重对seo词库去重
- #词库的数据格式为:
- #关键字,日搜索量,月搜索量
- #爱玛,2,4
- #雅迪,2,5
- #绿源,3,55
- ciku=open(r'all.csv','r') #打开需要去重文件,可自行修改.
- xieru=open(r'ciku.csv','w') #去重的文件保存到ciku.csv去,可自行修改
- cikus=ciku.readlines()
- zidian={} #创建个空字典
- for x in cikus:
- try:
- x=x.split(',') #sqlit 切割,通过字符串‘,’切割。
- x1=x[0]
- leng=len(x)
- if leng==3: #判断列表长度是否是3,不是3证明词库数据有一定的问题,舍弃,预防报错(这里根据词库来定是几)。
- x2=x[1]+','+x[2] #后面x[1],x[2]是日搜索量,月搜索量,根据自身词库可改进
- zidian1={x1:x2} #关键字做键,后面的搜索量做值
- zidian.update(zidian1) #update添加到字典,类似列表的append的用法,向zidian里面添加zidian1
- except ValueError :
- pass
- for key in zidian.keys(): #keys()字典的键值
- ci=key+','+zidian[key]
- try:
- print ci[0:-1].decode('utf-8').encode('gbk')
- except ValueError:
- pass
- xieru.writelines(ci)
- ciku.close()
- xieru.close()
复制代码 |