发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
SEO小橙,请到个人资料页面设置个人签名    

词库建立的思路与问题总结

       
        个人依据之前的哪些培训(告诉你什么是关键词,关键词挖掘和关键词的分类啥的概念,完全没有实际操作流程的东西-这导致我之前完全不懂什么叫词库),后阅读了一些词库创建的文章,才知道关键词挖掘出来是要建立词库的。
       
        好吧,个人目前是这样操作的,用关键词工具筛选出一批带有相同词根(产品词或服务此)的关键词.随后将这些关键词提取出用户需求点(统计词频,自动忽略常用词汇停止词)(也会结合竞争对手网站和自身网站)

        将这些需求点中独立的是作为网站的栏目。根据这些需求点再将挖掘的关键词进行分组。在分组中在再次提取需求点(这里的需求点独立的与栏目关联的作为列表)。

        随后将这些处理好的列表里面的关键词再进行分词和提取高频词辅助编辑做内容的撰写——撰写标题的时候还要结合热门搜索词。内容中插入分词和高频词缀(对于这个思路我始终感觉到比较的迷茫)

        对于这个大致思路非常希望能够得到大家的建议。再次谢过各位啦。

最后说下看过夜大的小议SEO数据分析III – 维护词库(完工):http://www.imyexi.com/?p=853 后遇到的问题,如果刚好你知道的话那么就麻烦你了:
1、通过什么去除停止词?
2、去重是去掉实体(实体是去除了停滞词后的实体)?
3、受控词表的处理?
4、tf-idf值高的词到底有何作用?

最后感谢z大提供的平台和论坛中的各位大侠。
发表于 2014-6-27 09:51:19
回复 收藏
fred,请到个人资料页面设置个人签名    [ 版主 ]

这个貌似夜息的原文有提到吧,用Python的结巴分词去掉停词。tf-idf高的词到底有什么作用,这个直接百度,那篇文章解释得比较清晰了,或者你去看看吴军的数学之美的那本书关于tf-idf的解释也是可以的。
发表于 2014-6-27 12:31:18
回复 收藏
ZERO,SEO执着爱好者    

夜息的词库只是用于解决他自己的问题,问题不同,处理方式也不同。不是说原来SEO需要搞词库这个玩意,如前两天在一群里看到昆哥说,很多人就喜欢挖一堆词,但不懂怎么用,就是看着爽。

先有具体需求,再是技术实现。虽然可以回答如何去除停止词之类的(夜息文中使用的jieba还是我推荐给他的),但了解了用不上可能是更大的问题。

因此建议先考虑下,目前认为挖了关键词能做什么,另外是否需要看自己情况了解下挖了词还能做什么更多的。这块建议大概说下自己目前操作网站的行业与规模,对词库的需求区别我个人认为主要取决于这两点。
发表于 2014-6-27 13:21:54
回复 收藏
SEO小橙,请到个人资料页面设置个人签名    

ZERO 发表于 2014-6-27 13:21
夜息的词库只是用于解决他自己的问题,问题不同,处理方式也不同。不是说原来SEO需要搞词库这个玩意,如前 ...

前面的思路是我自己结合了很多自己接触到的关于关键词的内容所想到的感觉比较靠谱点的做法,主要是想知道对于不对。那篇文章一开始看压根没看懂,虽然看上去似乎很厉害的样子。但是对于接触SEO较晚,仅仅是在某某青鸟,某某论坛培训或是某某SEO书籍(好吧,就是我啦,至少我接触的还有很多类似经历的)中看到的都是没有提到的内容。直到后面badbird(感谢这位仁兄)的帮助下才知道了怎么运行python后才试着做了下分词。我将这个结巴推荐给了他,他之前不是用这个,据悉他下午就把分词,去停止词和高词频都写到一起。网上有的仅仅是分词的代码,再次谢过badbird提供的帮助。

目前所处行业:彩票行业  目前主要是做3D和快3。

挖出来的关键词放在那里不去操作也就没有什么价值了,所以也就特别希望了解下对于挖出来的词大家都会做些什么。

感谢Z大的回复。
 楼主| 发表于 2014-6-27 13:53:43
回复 收藏
SEO小橙,请到个人资料页面设置个人签名    

fred 发表于 2014-6-27 12:31
这个貌似夜息的原文有提到吧,用Python的结巴分词去掉停词。tf-idf高的词到底有什么作用,这个直接百度,那 ...

对于毫无程序概念的人来说太深奥了,可能大多看完后还是会一筹莫展——比如我,之前也去了解了tf-idf,知道了概念,然后就没有然后了。
 楼主| 发表于 2014-6-27 14:01:13
回复 收藏
fred,请到个人资料页面设置个人签名    [ 版主 ]

这个,有很多应用。比如内链推荐的时候,通过匹配得到一堆结果后,取tf-idf值高的链接进行推荐等。。。或者夜息还有篇文章有提到tf-idf的应用,你可以去翻一下呢。
发表于 2014-6-27 14:18:23
回复 收藏
SEO小橙,请到个人资料页面设置个人签名    

fred 发表于 2014-6-27 14:18
这个,有很多应用。比如内链推荐的时候,通过匹配得到一堆结果后,取tf-idf值高的链接进行推荐等。。。或者 ...

后面的问题是次要的,我主要是想了解词库的建立。
 楼主| 发表于 2014-6-27 14:20:32
回复 收藏
ZERO,SEO执着爱好者    

SEO小橙 发表于 2014-6-27 05:53
前面的思路是我自己结合了很多自己接触到的关于关键词的内容所想到的感觉比较靠谱点的做法,主要是想知道 ...

小行业的单品,无地域性区别,根据这些我能想出来的词库主要用途,只有写文章为主。

在写文章的时候似也没太多可以考虑,title上面完整出现一个有一定搜索量的词,内容里面再完整出现几个类似的词。

如title为“怎么玩快三”,内容里面出现“快三怎么玩”之类的。因为文章页的内容是完全可控的,所以也没什么到页面里专门塞高频词缀的事,直接塞完整的用户可能搜的词就行了。

列表页有时候塞一些高频词缀,是在它内容不尽可控,也不方便塞完整的关键词的情况下(在一个列表页硬放入“快三怎么玩”很奇怪),仍有可以和页面上其他词凑成长尾的可能性。
发表于 2014-6-27 14:37:17
回复 收藏
SEO小橙,请到个人资料页面设置个人签名    

ZERO 发表于 2014-6-27 14:37
小行业的单品,无地域性区别,根据这些我能想出来的词库主要用途,只有写文章为主。

在写文章的时候似也 ...

       快3还是有地域性区别的,比如江苏快3,湖北快3等等。文章页以技巧,玩法、新闻等为主。其他如开奖结果,试机号等功能性页面和走势图及其他的频道页面。

基本上都明白了,还有点小问题:

文章页一个小类别关键词比如说技巧下面的某某技巧下的词进行分词处理,然后写文章的时候有必要融入进去吗?
   
列表页面本身有不错搜索量的词,还有必要高频词缀吗?此处高频词缀来源于本列表分类下的吧?

感谢回复。
 楼主| 发表于 2014-6-27 15:06:12
回复 收藏
ZERO,SEO执着爱好者    

SEO小橙 发表于 2014-6-27 07:06
快3还是有地域性区别的,比如江苏快3,湖北快3等等。文章页以技巧,玩法、新闻等为主。其他如开奖 ...

不管哪类页面,只要词A有一定机会和页面上原有的词BCD等凑成一个长尾,往页面里面添加词A就有一定意义。
发表于 2014-6-27 15:58:48
回复 收藏
快速回复 返回顶部 返回列表