此 YouMoz 条目由我们的一位社区成员提交。作者的观点完全是他们自己的(排除不太可能的催眠情况),可能不反映 Moz 的观点。
Google 网站管理员工具有一个流行的功能,称为“每天抓取的页面数”。该功能可以通过直观的图表向您显示 Googlebot 每天抓取的页面数量。
这个工具非常棒,因为以某种方式进行爬行可以确定您网站的索引,因此了解您的网站的爬行情况始终很重要。
但显然,谷歌并不是这个星球上唯一的搜索引擎——以我自己为例,我做中文SEO,所以我还得看看百度、雅虎TW和其他中文搜索引擎。
因此,就像我一样,你们中的许多人可能还需要了解其他搜索引擎的每日抓取页面数据,更好的是,获得像 Google 那样的简单图表。
好的,今天我将与您分享一个我一直在这样做的简单方法,我相信您会喜欢它:
一点准备:
Linux 服务器日志文件、Cygwin 和 Microsoft Excel。
Cygwin主要用于处理服务器日志。我家里使用的是Windows 7 Basic系统,所以我使用Cygwin直接在上面执行Linux命令。如果您使用的是Linux操作系统,则不需要安装它。
至于服务器日志文件,您可以从服务器下载它(呃,这就是为什么它被称为“服务器日志”……)。
让我们开始:
虽然此方法的目的是为除 Google 之外的其他搜索引擎创建抓取统计图表,但我们仍然以 Google 为例,因此您可以将自己的图表与 Google 网站站长工具的图表进行比较。
1.使用Cygwin处理服务器日志:
我们在中使用命令如下
通过使用上面的“grep”命令行,我们从 服务器日志文件“yourserverlog.log”中包含“www.google.com/bot.html”的任何行 日本手机号码清单 中提取第四个和第七个值,并将它们放入一个名为 googlebot.txt 的新文件。
Cygwin 和 GREP
您可能想知道第四个和第七个值是什么。在标准 Linux 服务器日志的一行中,第 4 个值是访问日期,第 7 个值是访问的 URL。我们想知道每天有多少页面被抓取,所以只有日期和 URL 对我们来说很重要。
服务器日志中的原始行如下所示
经过上面的 grep 命令行处理后,我们得到:
站点地图
因此,执行此命令后,我们会 求购线索 得到一个干净的文本文件,其中仅包含日期和 URL,稍后我们可以在 Excel 中使用它们来创建我们需要的图表。
到目前为止,我不知道你们中有多少人被 Linux 命令行害死了。(当我向我的一位客户解释这一点时,他的表情告诉我他后悔问了……)
对于那些不熟悉 Linux 的人来说这可能有点困难,但相信我,并没有你想象的那么困难,好消息是,从现在开始我们不必做任何与 Linux 相关的事情。