发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
xiaoyu,请到个人资料页面设置个人签名    

分词用python提取关键词并统计次数-代码

本帖最后由 xiaoyu 于 2014-6-22 15:41 编辑

python有结巴分词模块,我们在对通过采集获得的关键词做分词处理后,获得的结果放在t_with_POS_tag.txt中,如下:
/腾讯/动漫/论坛/
/高/达/模型/制作/教程/
/无上/大/快刀/
/动漫/论坛/
/海贼王/ /腾讯/
/腾讯/海贼王/
/漫画/论坛/
/死神/论坛/
/海贼王/腾讯/论坛/
/海贼王/漫画/论坛/
/qq/火影/
/火影忍者/腾讯/论坛/
/路飞/的/帽子/
/qq/火影忍者/


接下来需要将处理过的分词做统计,用python代码keyword.py处理,代码如下:
  1. # -*- coding:utf-8 -*-
  2. import sys
  3. #import sys.argv
  4. intxt=sys.argv[1];
  5. outtxt=sys.argv[2];
  6. infile = open(intxt,'r')
  7. outfile = open(outtxt,'w')

  8. keywordAndNums={}
  9. try:
  10.         for line in infile.readlines():
  11.                 line = line.lstrip().rstrip().strip();
  12.                 keys = line.split('/')
  13.                 for key in keys:
  14.                         value = keywordAndNums.get(key)
  15.                         if(value == None):
  16.                                 value=1
  17.                         else:
  18.                                 value = value+1
  19.                         keywordAndNums[key]=value
  20. finally:
  21.         infile.close()
  22. e = sorted(keywordAndNums.items(),key=lambda d:d[1],reverse=True)


  23. for key,nums in e:
  24.         outfile.write(str(key)+'\t'+str(nums)+'\n')

  25.        

复制代码


然后运行:F:\Python27\keyword.py F:\Python27\t_with_POS_tag.txt F:\Python27\result.txt

结果就在rusult.txt中了。

本人是python 的初学者,如哪里不对,还请多多指教。
发表于 2014-6-22 11:07:08
回复 收藏
SEO小橙,请到个人资料页面设置个人签名    

小白请教一个问题,如何运行Python和如何按照结巴分词模块。
发表于 2014-6-23 15:38:05
回复 收藏
小小,优雅的拍砖    

SEO小橙 发表于 2014-6-23 15:38
小白请教一个问题,如何运行Python和如何按照结巴分词模块。

自我安装python   下载结巴分词  找教程安装   相信同样是做seo   必须会使用百度的把
发表于 2014-6-23 15:55:34
回复 收藏
快速回复 返回顶部 返回列表