爬虫架构：避免在 Google Analytics 中计算请求答案

【问题标题】：Crawler architecture: Avoid getting requests counted in Google Analytics爬虫架构：避免在 Google Analytics 中计算请求
【发布时间】：2015-06-11 13:30:10
【问题描述】：

我们运行一项服务，需要不时为客户的网站编制索引。我们的一位客户刚刚注意到，在他们的分析中可以看到来自我们机器人的流量（他们使用 Google 跟踪代码管理器）。当然他们可以尝试过滤它，但是我想知道为什么它首先被跟踪，因为我们没有在机器人中启用 JS，而且他们已经勾选了“排除来自已知机器人和蜘蛛的流量”。两个问题：

我们能否从我们这边（机器人）做任何事情来告诉谷歌分析不要计入流量？
如果没有，他们如何过滤掉我们的机器人？我们设置了一个用户代理，但它似乎在谷歌分析中不可用 - 我们的 IP 也没有。

【问题讨论】：

自定义过滤器中有 IP 和浏览器过滤器 - 您必须为每个视图设置它们（Admin/View/Filters/Custom/Exclude=>field name eq IP address）。如果您启用了 IP 匿名化，则需要排除整个 IP 块，因为最后 3 位数字不会被存储并且不能用于精确匹配。

标签： google-analytics web-crawler google-tag-manager

【解决方案1】：

我在想为什么会被跟踪，如果有谷歌标签管理器并且你禁用了 JS。

没有 JS

结果似乎是通过 iframe 包含的 tagmaneger 的 noscript 变体。

<noscript><iframe src="//www.googletagmanager.com/ns.html?id=GTM-XXXX"
height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>

因此，请尝试在您的爬虫中阻止 URL：www.googletagmanager.com。

带JS

只需设置窗口变量：

window['ga-disable-UA-XXXX-Y'] = true;

【讨论】：