【问题标题】:Google BigQuery Streaming Data does not Correspond with MixpanelGoogle BigQuery 流数据与 Mixpanel 不对应
【发布时间】:2017-01-31 15:39:54
【问题描述】:

我正在尝试通过使用 Mixpanel 交叉检查数据流事件来验证 BigQuery 中的数据流事件。然而,BigQuery 中的数据总是比 Mixpanel 更多。我认为这是一个重复问题,但 BigQuery 中每个事件的时间都不同。我能看到的唯一可能导致差异的问题是流式插入有很大的滞后,使得某些事件在表中最多显示一个小时。如果有人可以让我深入了解这个问题,我将不胜感激。澄清一下:

  1. 我正在通过查看每天流入的事件数量来验证 BigQuery 数据。

  2. 差异有点小,例如,对于特定的一天,Mixpanel 看到 634 个事件,而 BigQuery 看到 703 个事件。

  3. 我已经考虑了时区差异,因为 Mixpanel 提供您当前时区的事件,而我的公司以 UTC 存储事件。

【问题讨论】:

    标签: google-bigquery


    【解决方案1】:

    如果您正在重试失败的作业,则报告为失败的作业可能会成功并创建重复项。

    您可以通过在流式作业中提供一个唯一的 insertId 来缓解这种情况,Google 将尽最大努力执行重复数据删除。

    当您为每个事件引用不同的时间时,您是引用数据集中存在的列还是 creation_time 列?

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2022-12-21
      • 1970-01-01
      • 1970-01-01
      • 2023-02-13
      • 2018-10-13
      • 2019-03-05
      • 2017-05-17
      相关资源
      最近更新 更多