发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
莫山,改我论坛密码的没有小JJ,哼!!!    

[已通过]seo词库去重脚本beta1.0

此脚本比较弱智啦,只能处理完全重复的数据,“爱玛电动车,电动车爱玛”这种词无法去掉(另有脚本可以解决),停止词无法去掉(回头优化下这个脚本就可以了)。同义词也无法去掉(搞不定啊,操)。
嗯,先这样了。

  1. #coding:utf-8
  2. #此脚本使用字典去重对seo词库去重
  3. #词库的数据格式为:
  4. #关键字,日搜索量,月搜索量
  5. #爱玛,2,4
  6. #雅迪,2,5
  7. #绿源,3,55


  8. ciku=open(r'all.csv','r')   #打开需要去重文件,可自行修改.
  9. xieru=open(r'ciku.csv','w')  #去重的文件保存到ciku.csv去,可自行修改
  10. cikus=ciku.readlines()
  11. zidian={}   #创建个空字典
  12. for x in cikus:
  13.         try:
  14.                 x=x.split(',')    #sqlit 切割,通过字符串‘,’切割。
  15.                 x1=x[0]
  16.                 leng=len(x)      
  17.                 if leng==3:                #判断列表长度是否是3,不是3证明词库数据有一定的问题,舍弃,预防报错(这里根据词库来定是几)。
  18.                         x2=x[1]+','+x[2]    #后面x[1],x[2]是日搜索量,月搜索量,根据自身词库可改进
  19.                         zidian1={x1:x2}        #关键字做键,后面的搜索量做值
  20.                         zidian.update(zidian1)   #update添加到字典,类似列表的append的用法,向zidian里面添加zidian1
  21.         except ValueError :
  22.                 pass
  23. for key in zidian.keys():    #keys()字典的键值
  24.         ci=key+','+zidian[key]
  25.         try:
  26.                 print ci[0:-1].decode('utf-8').encode('gbk')
  27.         except ValueError:
  28.                 pass
  29.         xieru.writelines(ci)

  30. ciku.close()
  31. xieru.close()
复制代码
发表于 2014-5-26 14:57:08
回复 收藏
ZERO,SEO执着爱好者    

已修改用户组为正式用户。

此段代码完成相同功能,或可参考:

  1. import sys

  2. input_file, output_file = sys.argv[1:3]
  3. f = open(output_file, 'w')
  4. d = {}

  5. for line in open(input_file):
  6.         try:
  7.                 kw, daily, monthly = line.rstrip().split(',')
  8.         except:
  9.                 continue
  10.         d[kw] = [daily, monthly]

  11. for kw in d:
  12.         output = ','.join([kw]+d[kw])
  13.         print >>f, output
  14.         print output.decode('utf-8', 'ignore').encode('gbk')

  15. f.close()
复制代码

评分

参与人数 1赞同 +4 收起 理由
小乐 + 4 赞一个!

查看全部评分

发表于 2014-5-26 15:10:45
回复 收藏
快速回复 返回顶部 返回列表