【发布时间】:2017-01-31 15:39:54
【问题描述】:
我正在尝试通过使用 Mixpanel 交叉检查数据流事件来验证 BigQuery 中的数据流事件。然而,BigQuery 中的数据总是比 Mixpanel 更多。我认为这是一个重复问题,但 BigQuery 中每个事件的时间都不同。我能看到的唯一可能导致差异的问题是流式插入有很大的滞后,使得某些事件在表中最多显示一个小时。如果有人可以让我深入了解这个问题,我将不胜感激。澄清一下:
我正在通过查看每天流入的事件数量来验证 BigQuery 数据。
差异有点小,例如,对于特定的一天,Mixpanel 看到 634 个事件,而 BigQuery 看到 703 个事件。
我已经考虑了时区差异,因为 Mixpanel 提供您当前时区的事件,而我的公司以 UTC 存储事件。
【问题讨论】:
标签: google-bigquery