【发布时间】:2019-10-28 16:28:19
【问题描述】:
我想实时(或接近实时)将 HTTP 请求流式传输到 BigQuery。
理想情况下,我想使用一个工具,它提供一个端点来将 HTTP 请求流式传输到,并允许我编写简单的 Node,这样: 1. 我可以添加适当的 insertId,以便 BigQuery 可以在必要时对请求进行重复数据删除,并且 2. 我可以批量处理数据,所以我不会一次发送一行(这会导致不必要的 GCP 成本)
我曾尝试使用 AWS Lambdas 或 Google Cloud Functions,但在这些平台上解决此问题的必要设置远远超出了此处用例的需求。我假设许多开发人员都有同样的问题,并且必须有更好的解决方案。
【问题讨论】:
-
为此推荐的模式是通过 Pub/Sub 和 Cloud Dataflow。所以,它看起来像:
streaming data -> Pub/Sub -> Cloud Dataflow -> BigQuery -
@grahampolley 我看到了用于 pub/sub 到 bigquery 的数据流模板,因此应该添加 pub/sub bw 数据流和 bigquery,如流表示中所示?
标签: node.js aws-lambda google-bigquery google-cloud-functions cloudflare-workers