通常情况下,谷歌分析的跟踪代码是基于JavaScript的解决方案,它依赖于浏览器来生成并存储cookie。这种依赖性也正是为什么谷歌分析报告中不会显示大多数蜘蛛访问你网站的数据。
但是,如果你真想跟踪搜索蜘蛛的活动呢?这或许是为了做技术性的SEO分析。我们已经制作了一个叫做“搜索蜘蛛专用GA代码”的PHP代码库,它使用服务器端的进程来捕捉来自众多蜘蛛的页面浏览。
尽管谷歌分析已经有专门的服务器端移动跟踪代码脚本,然而该脚本的设计宗旨仍然只是用来跟踪来自浏览器端的用户代理活动。我已经对脚本进行了解构并做了一些修改,使得所有对于_utm.gif文件请求的构建和发送均完全由服务器端处理,从而允许任何用户代理均能被跟踪。
当然,我们只是希望用这个脚本跟踪蜘蛛(而非人),因此这个代码库还包括一个用户代理被认定为蜘蛛的白名单。这将确保你有一个“仅含蜘蛛访问”的谷歌分析配置文件。
需要注意的一件事情是在这个代码库中是“来源”设置为用户代理,而非传统的广告系列来源。我发现使用这种方法可以更简单地下钻到不同蜘蛛。我会更关注页面浏览而非访问,以更好地分析蜘蛛如何爬行你的网站。
另外一间需要明白的重要事情是,该代码仅在蜘蛛爬行了一个确实会使用此代码执行PHP脚本的URL时才会运行。如果一个蜘蛛爬行了一个无法返回已渲染页面的URL(比如,500内部错误),那么搜索蜘蛛专用GA代码将不会执行。因此,这并不会捕捉到所有的蜘蛛活动,特别是含有很多错误页面的网站。明白蜘蛛在错误URL中的活动是非常重要的,我们也正在努力开发第二个版本来解决这个问题。
尽管你可以在谷歌分析中探索所有的标准报告,我仍然推荐下面这个自定义报告。配置为下钻:来源->页面。你可以任意修改这个报告以满足你的特点需求。
在这个报告中看到的第一件事情就是一系列的不同蜘蛛爬行了我们的网站。
你可以看到一些爬行网站的不同搜索引擎。位于名单首位的是“未知蜘蛛”,它包含了所有未定义的蜘蛛。我相信我只知道很少的一些特定蜘蛛,产生了这些点击。因此我应该做的便是识别这些未定义蜘蛛的用户代理,然后把它们补充到botconfig.php文件中。
让我们看下Googlebot在为期6周时间段的爬行行为:
在这个报告中,我们可以看到一些东西。首先,我们可以看到每日蜘蛛活动,在这个较短的时间段内似乎有上升的趋势。我们还可以看到Googlebot(谷歌蜘蛛)经常爬行的热门页面,这可能折射出它认为哪些页面是重要的。
为了让你通过时间归类页面爬行,这个代码库还配置为发送以日期时间为标记的页面级自定义变量。下面是昨天哪些时间页面被爬行的一个细分:
我看到的数据非常酷,但是我确信还有一些更有趣的事情有待发现。请下载文件并亲自尝试一下。分享其他有见地的报告,或者让我们知道对于这个代码有哪些可做改进的。
译者肖庆原创翻译自:http://www.cardinalpath.com/blog/tracking-search-bots-in-google-analytics 翻译不易,转载请注明出处,谢谢。