本帖最后由 小小 于 2015-2-8 11:20 编辑
有时候我们从百度竞价、长尾关键词挖掘词库的时候,总会有各种不相关的词干扰。比如你要找的是植物资料,偏偏有很多的歌曲都是用的植物名称,这个时候就需要对关键词进行清洗。
假设我需要寻找一批旅行包相关的商业词,我从各种工具中搞了一堆放在lvxingxiang.txt中,我要祛除一些知识类的什么尺寸 什么材质 哪个厂家干嘛干嘛。
关键词一行一个,我要提取出不包含品牌的指令:grep -v "品牌" xx.txt
关键词一行一个,我要提取出不包含品牌和材质的指令:egrep -v "材质|品牌" xx.txt
下面运行结果:
ebmen@PC-201010081307 ~/data
$ egrep -v "什么|怎么|尺寸|排名|质量|材质|哪个" lvxingxiang.txt
旅行箱
rimowa旅行箱
旅行箱品牌排行榜
lv旅行箱
旅行箱品牌
名牌旅行箱
旅行箱团购
ito旅行箱
儿童旅行箱
rimowa旅行箱价格
旅行箱的家
外交官旅行箱
复古旅行箱
天使旅行箱
weekender旅行箱
旅行箱贴纸
新秀丽旅行箱
皇冠旅行箱
明星旅行箱
旅行箱密码锁
漠然音乐旅行箱
旅行箱 英文
拉杆旅行箱
旅行箱牌子
转载于XXX.com 不记得 |