发现更大的SEO世界

登录

»首页»SEO培训 › SEO论坛 › SEO交流 › 帖子

发新帖

莫山，改我论坛密码的没有小JJ，哼！！！

[已通过]seo词库去重脚本beta1.0

此脚本比较弱智啦，只能处理完全重复的数据，“爱玛电动车，电动车爱玛”这种词无法去掉（另有脚本可以解决），停止词无法去掉（回头优化下这个脚本就可以了）。同义词也无法去掉（搞不定啊，操）。
嗯，先这样了。

#coding:utf-8
#此脚本使用字典去重对seo词库去重
#词库的数据格式为：
#关键字,日搜索量，月搜索量
#爱玛,2,4
#雅迪,2,5
#绿源,3,55
ciku=open(r'all.csv','r') #打开需要去重文件，可自行修改.
xieru=open(r'ciku.csv','w') #去重的文件保存到ciku.csv去，可自行修改
cikus=ciku.readlines()
zidian={} #创建个空字典
for x in cikus:
try:
x=x.split(',') #sqlit 切割，通过字符串‘,’切割。
x1=x[0]
leng=len(x)
if leng==3: #判断列表长度是否是3，不是3证明词库数据有一定的问题，舍弃，预防报错(这里根据词库来定是几)。
x2=x[1]+','+x[2] #后面x[1],x[2]是日搜索量，月搜索量，根据自身词库可改进
zidian1={x1:x2} #关键字做键，后面的搜索量做值
zidian.update(zidian1) #update添加到字典，类似列表的append的用法，向zidian里面添加zidian1
except ValueError :
pass
for key in zidian.keys(): #keys()字典的键值
ci=key+','+zidian[key]
try:
print ci[0:-1].decode('utf-8').encode('gbk')
except ValueError:
pass
xieru.writelines(ci)
ciku.close()
xieru.close()

复制代码

发表于 2014-5-26 14:57:08

回复收藏

ZERO，SEO执着爱好者

已修改用户组为正式用户。

此段代码完成相同功能，或可参考：

import sys
input_file, output_file = sys.argv[1:3]
f = open(output_file, 'w')
d = {}
for line in open(input_file):
try:
kw, daily, monthly = line.rstrip().split(',')
except:
continue
d[kw] = [daily, monthly]
for kw in d:
output = ','.join([kw]+d[kw])
print >>f, output
print output.decode('utf-8', 'ignore').encode('gbk')
f.close()

复制代码

评分

参与人数 1	赞同 +4	收起理由
小乐	+ 4	赞一个!

查看全部评分

发表于 2014-5-26 15:10:45

回复收藏

SEO前线 ©2013-2014
论坛相关问题联系邮箱：bbs # seoqx.com

快速回复 返回顶部 返回列表