本帖最后由 xiaoyu 于 2014-6-22 15:41 编辑
python有结巴分词模块,我们在对通过采集获得的关键词做分词处理后,获得的结果放在t_with_POS_tag.txt中,如下:
/腾讯/动漫/论坛/
/高/达/模型/制作/教程/
/无上/大/快刀/
/动漫/论坛/
/海贼王/ /腾讯/
/腾讯/海贼王/
/漫画/论坛/
/死神/论坛/
/海贼王/腾讯/论坛/
/海贼王/漫画/论坛/
/qq/火影/
/火影忍者/腾讯/论坛/
/路飞/的/帽子/
/qq/火影忍者/
接下来需要将处理过的分词做统计,用python代码keyword.py处理,代码如下:
- # -*- coding:utf-8 -*-
- import sys
- #import sys.argv
- intxt=sys.argv[1];
- outtxt=sys.argv[2];
- infile = open(intxt,'r')
- outfile = open(outtxt,'w')
- keywordAndNums={}
- try:
- for line in infile.readlines():
- line = line.lstrip().rstrip().strip();
- keys = line.split('/')
- for key in keys:
- value = keywordAndNums.get(key)
- if(value == None):
- value=1
- else:
- value = value+1
- keywordAndNums[key]=value
- finally:
- infile.close()
- e = sorted(keywordAndNums.items(),key=lambda d:d[1],reverse=True)
- for key,nums in e:
- outfile.write(str(key)+'\t'+str(nums)+'\n')
-
复制代码
然后运行:F:\Python27\keyword.py F:\Python27\t_with_POS_tag.txt F:\Python27\result.txt
结果就在rusult.txt中了。
本人是python 的初学者,如哪里不对,还请多多指教。 |