【问题标题】:Crawler architecture: Avoid getting requests counted in Google Analytics爬虫架构:避免在 Google Analytics 中计算请求
【发布时间】:2015-06-11 13:30:10
【问题描述】:

我们运行一项服务,需要不时为客户的网站编制索引。我们的一位客户刚刚注意到,在他们的分析中可以看到来自我们机器人的流量(他们使用 Google 跟踪代码管理器)。当然他们可以尝试过滤它,但是我想知道为什么它首先被跟踪,因为我们没有在机器人中启用 JS,而且他们已经勾选了“排除来自已知机器人和蜘蛛的流量”。两个问题:

  1. 我们能否从我们这边(机器人)做任何事情来告诉谷歌分析不要计入流量?
  2. 如果没有,他们如何过滤掉我们的机器人?我们设置了一个用户代理,但它似乎在谷歌分析中不可用 - 我们的 IP 也没有。

【问题讨论】:

  • 自定义过滤器中有 IP 和浏览器过滤器 - 您必须为每个视图设置它们(Admin/View/Filters/Custom/Exclude=>field name eq IP address)。如果您启用了 IP 匿名化,则需要排除整个 IP 块,因为最后 3 位数字不会被存储并且不能用于精确匹配。

标签: google-analytics web-crawler google-tag-manager


【解决方案1】:

我在想为什么会被跟踪,如果有谷歌标签管理器并且你禁用了 JS。

没有 JS

结果似乎是通过 iframe 包含的 tagmaneger 的 noscript 变体。

<noscript><iframe src="//www.googletagmanager.com/ns.html?id=GTM-XXXX"
height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>

因此,请尝试在您的爬虫中阻止 URL:www.googletagmanager.com。

带JS

只需设置窗口变量:

window['ga-disable-UA-XXXX-Y'] = true;

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多