本帖最后由 lycfaint 于 2014-7-4 17:29 编辑
了解完国平大哥的seo理念,决定开始建立词库。
第一阶段做法:
自己内部产生100个核心词,用谷歌的关键词工具产生2W个关键词,再利用2W关键词批量产生100W关键词
出现问题:
小白一只,不会API,产生100W这个事情搞不定,放弃
思考:
那么多做不出来,那我做少一点呗,至少一点一点来嘛。考虑自己站点页面数量,10W级别,国平老大的视频里面的说法,一算,大概能产生的关键词页面就是2W左右。嗯,这个靠谱,难倒用谷歌工具产生的2W个?看了一下,感觉好弱。重新找关键词来源:
第二阶段:
网站原来每篇文章的关键词(大概获得6w关键词)、从CNZZ后台收集的最新出现词汇、上升最快词汇、每日搜索来网站的词汇(一个月2W+)、竞争对手相关标签库(2W+)
这样收集到的标签基本上都是强相关,这里可能有朋友要说,你这所谓的10W,有6W是来自以前的关键词(编辑填写的),取巧了。呵呵,不好意思,菜鸟不会技术的方法,就只能尽可能利用以前网站资源喽。CNZZ每日搜索过来的词汇还可以作为日后不断更新的来源,基本上这样框架和来源都搞定了,就是如何排除词当时没想出来,但是也算是基本搞定了。
第三阶段:
因为要上网站,所以第一期是人工从10W关键词选词来上的(这就是不懂技术的苦逼菜鸡的方法啊)。最近在做第二期上线的词,又是开始学python自动将中文转码(网站的tag用的转码),又是用火车头跑有结果的页面。将有结果的页面筛选出来。(其实我也想吐槽,技术应该很快搞定吧,但是。。。我就是想顺便学一下python嘛,夜息老大不说过,分词这个玩意是必须的嘛,用起来会学得快。)
其实这个过程也实现了一个剔除词的渠道。至此,一个十分粗糙的词库算是建成(或许不能算建成吧,只是逻辑意义上的成立,有入,有出)。但是剔除的过程啊,进入的过程,如何不重复?不懂,继续摸索着呗。反正菜鸡什么都不怕,就怕自己怂了,不敢研究了。最后麻烦给通过一下喽,会继续分享自己从完全不会日志,到后面简单实用AWK的过程以及关于SEO前进路上的好多摸索的故事。。。。(那么多废话,其实就是奔着ZERO大神来的啊!!!!!!!)
后继更新(2014-7-4)
最近又试了一下一批新词入库(CNZZ5月份的关键词数据),然后做了一些筛选条件(目前很菜,只会excel,努力学习python中,),将不合适关键词筛选掉。再复制进入原来的关键词库(需要去重)。
筛选的几个条件如下:
1.’%‘(百分号)、’=‘(等号)、’&‘(and号)筛选一遍,基本上是乱码的关键词。(这里需要一个excel技巧,仅选中可见数据,选中-F5-定位条件-可见数据),将关键词从库中删除。
2.’?‘中文的问号,这类关键词也筛选出来,作为问题,以后可以考虑去生成符合搜素需要的页面,不用作标签。
3.’site’、‘inurl’、’intitle‘、‘cont‘、’。‘(句号)、’|‘(竖线)、’;‘(分号)、’:‘(冒号)、’、‘(顿号)、’/‘(除号)、’!‘(感叹号)、’·‘(圆点?不懂咋叫)、’【‘、’“‘(双引号)、’(‘(左括号)这类符号筛选出来的词不能作为标签,一般都比较长,作为目前无法处理的词。(因为最近在研究结巴分词,在考虑圈子的问题,现在不成熟,以后成熟再分享好了,这部分词可能作为jieba分词用)
这样筛选出来的词,基本上可以入库了。入库之后,用excel数据sheet中的去重
最后,啰嗦两句,以上的步骤其实可以用机器实现,只是现在写程序能力实在太shi,但是再流弊的程序也是流程固定后才能写出来的,所以个人建词库的过程可能看起来比较傻比较二,但是基本上的方向是对的,只是跑得慢而已。那如果哪位朋友愿意分享自己更好的方法,在此感谢了。这篇文章应该还会继续更新,再次更新时,应该是再有更好的词库变动的时候了。好激动,好期待。
|