发现更大的SEO世界
 找回密码
 注册
搜索
»首页»SEO培训 SEO论坛 SEO交流 帖子
发新帖
行书,请到个人资料页面设置个人签名    

【提问】如何完整获取一个网站的所有页面标题、关键词

本帖最后由 行书 于 2014-11-21 12:15 编辑

原先半公开课听过几节,
再加上觉得seoqx的一些页面的标题(首页)、关键词有过调整,
其他技术上的调整,由于思路太少+没有技术,因此先放一边不说。

比较简单的就是分析目标网站的标题、关键词、描述的调整,于是想用老虎sitemap、Xenu下载目标网站。
既然想到就去做,昨天用老虎sitemap下载seoqx,什么都不做调整,就这样直接丢进链接就下载。
后来发现越来越不对劲,老虎sitemap里有很多飘红的链接,下载的页面越来越多,到最后下载了上万也没下载完。

因为不会python、sell,
而对于没有时间成本,再加上过耳忘的人来说,应该用自己会简单操作的工具,进行信息的获取。
z大可否指导一下?
发表于 2014-11-21 09:03:44
回复 收藏
剑舞,只想好好做SEO    

Screaming frog 应该能帮到你
发表于 2014-11-21 10:40:08
回复 收藏
行书,请到个人资料页面设置个人签名    

剑舞 发表于 2014-11-21 10:40
Screaming frog 应该能帮到你

下载过来看看
 楼主| 发表于 2014-11-21 10:54:43
回复 收藏
ZERO,SEO执着爱好者    

不建议这么做,无论哪种全量的数据在多数情况下总是不必要的,监控下重要页面的规则就好。

如果仍要批量实现的话,技术上实现较简单的方式推荐火车头采集器。
发表于 2014-11-21 11:40:13
回复 收藏
行书,请到个人资料页面设置个人签名    

ZERO 发表于 2014-11-21 11:40
不建议这么做,无论哪种全量的数据在多数情况下总是不必要的,监控下重要页面的规则就好。

如果仍要批量实 ...

重点监控页面的话,一般是首页、新建页面、以及某些指令搜索到的页面。但如果有些人不是对这些页面进行调整的话,那么必须尽可能多的收集一些内容。
火车头的话,试试看- -
 楼主| 发表于 2014-11-21 13:58:48
回复 收藏
wb2190,请到个人资料页面设置个人签名    

提示: 作者被禁止或删除 内容自动屏蔽
发表于 2014-11-24 21:39:08
回复 收藏
道哥,www.seodug.com    

不懂技术的话就用xenu好了,可以通过设定中的禁止站外提取功能来爬整站

脚本的话
首先整理好url列表
然后python用beautifulsoup4就能轻松提取出对应的tkd,然后用tab分隔符输出到文件即可。
shell就麻烦些,因为要考虑到不规则的meta标签写法,得用perl正则(零宽断言需要perl正则支持)的grep提取tkd,正则经验不多的还是不推荐了
发表于 2014-11-27 11:32:36
回复 收藏
dingdong,请到个人资料页面设置个人签名    

楼主采集整站数据要做什么呢
发表于 2014-11-27 22:40:39
回复 收藏
快速回复 返回顶部 返回列表