【发布时间】:2019-11-26 10:45:30
【问题描述】:
我们正在尝试将所有 http 请求导出到我们的谷歌负载均衡器到大查询中。很遗憾,我们注意到数据在 3 分钟后到达 BigQuery。
从本教程开始:https://cloud.google.com/solutions/serverless-pixel-tracking
- 我们创建了一个负载均衡器,它指向公共存储上的 pixel.png
- 创建了一个接收器以将所有日志导出到 Pub/Sub
- 使用提供的模板将发布/订阅流式插入到 BigQuery 表中创建了 DataFlow
- 表按日期分区,并有一个按小时和分钟的簇列。
在我们扩展到每秒 1000 个请求后,我们注意到数据延迟了 2 或 3 分钟
SELECT * FROM DATASET ORDER BY Timestamp desc Limit 100
此查询将在几秒钟后执行,但最后一个结果是 3 分钟前
【问题讨论】:
-
提示:如果您使用实时数据,请确保服务器时钟与谷歌服务器同步。
标签: google-bigquery load-balancing google-cloud-dataflow google-cloud-pubsub