【问题标题】:Update a row multiple time when data stream from Google Datastore to BigQuery数据从 Google Datastore 流式传输到 BigQuery 时多次更新一行
【发布时间】:2018-12-30 23:59:06
【问题描述】:

我们正在尝试将数据存储实体更新推送到 BigQuery 作为流输入,以提供实时数据分析。

数据存储区中的每个实体将在一天内更新多次。当我们推送实体时,我需要确保只有最新的数据应该是 bigquery 记录。我该如何存档?

【问题讨论】:

    标签: python google-app-engine google-cloud-platform google-bigquery


    【解决方案1】:

    据我所知,没有从 Datastore 到 BigQuery 的内置流式传输路径。支持的是制作 Datastore 备份(导出到 Cloud Storage)并使用加载作业将备份加载到 BigQuery。

    您还可以选择使用 tabledata().insertAll() 方法一次将数据流式传输到 BigQuery,而不是使用作业将数据加载到 BigQuery。这种方法可以在不延迟运行加载作业的情况下查询数据。

    通常流式数据可在第一次流式插入表后的几秒钟内进行实时分析。但是,流缓冲区中的数据可能暂时不可用。当数据不可用时,查询会继续成功运行,但它们会跳过仍在流缓冲区中的一些数据。

    更多详情,您可以查看以下链接:

    Link-1 Link-2

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-10-13
      • 2020-09-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-06-28
      相关资源
      最近更新 更多