准确的电话号码和 WhatsApp 号码提供商。 如果您想要电子邮件营销活动列表或短信营销活动,那么您可以联系我们的团队。 电报: @xhie1

创建您自己的从服务器日志中抓取的每日页面图表

此 YouMoz 条目由我们的一位社区成员提交。作者的观点完全是他们自己的(排除不太可能的催眠情况),可能不反映 Moz 的观点。

Google 网站管理员工具有一个流行的功能,称为“每天抓取的页面数”。该功能可以通过直观的图表向您显示 Googlebot 每天抓取的页面数量。

这个工具非常棒,因为以某种方式进行爬行可以确定您网站的索引,因此了解您的网站的爬行情况始终很重要。

但显然,谷歌并不是这个星球上唯一的搜索引擎——以我自己为例,我做中文SEO,所以我还得看看百度、雅虎TW和其他中文搜索引擎。

因此,就像我一样,你们中的许多人可能还需要了解其他搜索引擎的每日抓取页面数据,更好的是,获得像 Google 那样的简单图表。

好的,今天我将与您分享一个我一直在这样做的简单方法,我相信您会喜欢它:

一点准备:

Linux 服务器日志文件、Cygwin 和 Microsoft Excel。

Cygwin主要用于处理服务器日志。我家里使用的是Windows 7 Basic系统,所以我使用Cygwin直接在上面执行Linux命令。如果您使用的是Linux操作系统,则不需要安装它。

至于服务器日志文件,您可以从服务器下载它(呃,这就是为什么它被称为“服务器日志”……)。

让我们开始:

虽然此方法的目的是为除 Google 之外的其他搜索引擎创建抓取统计图表,但我们仍然以 Google 为例,因此您可以将自己的图表与 Google 网站站长工具的图表进行比较。

1.使用Cygwin处理服务器日志:

我们在中使用命令如下

 

通过使用上面的“grep”命令行,我们从 服务器日志文件“yourserverlog.log”中包含“www.google.com/bot.html”的任何行 日本手机号码清单 中提取第四个和第七个值,并将它们放入一个名为 googlebot.txt 的新文件。

Cygwin 和 GREP

您可能想知道第四个和第七个值是什么。在标准 Linux 服务器日志的一行中,第 4 个值是访问日期,第 7 个值是访问的 URL。我们想知道每天有多少页面被抓取,所以只有日期和 URL 对我们来说很重要。

服务器日志中的原始行如下所示

 

手机号码清单

 

经过上面的 grep 命令行处理后,我们得到:

站点地图

因此,执行此命令后,我们会 求购线索 得到一个干净的文本文件,其中仅包含日期和 URL,稍后我们可以在 Excel 中使用它们来创建我们需要的图表。

到目前为止,我不知道你们中有多少人被 Linux 命令行害死了。(当我向我的一位客户解释这一点时,他的表情告诉我他后悔问了……)

对于那些不熟悉 Linux 的人来说这可能有点困难,但相信我,并没有你想象的那么困难,好消息是,从现在开始我们不必做任何与 Linux 相关的事情。

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注