【发布时间】:2018-12-30 23:59:06
【问题描述】:
我们正在尝试将数据存储实体更新推送到 BigQuery 作为流输入,以提供实时数据分析。
数据存储区中的每个实体将在一天内更新多次。当我们推送实体时,我需要确保只有最新的数据应该是 bigquery 记录。我该如何存档?
【问题讨论】:
标签: python google-app-engine google-cloud-platform google-bigquery
我们正在尝试将数据存储实体更新推送到 BigQuery 作为流输入,以提供实时数据分析。
数据存储区中的每个实体将在一天内更新多次。当我们推送实体时,我需要确保只有最新的数据应该是 bigquery 记录。我该如何存档?
【问题讨论】:
标签: python google-app-engine google-cloud-platform google-bigquery
据我所知,没有从 Datastore 到 BigQuery 的内置流式传输路径。支持的是制作 Datastore 备份(导出到 Cloud Storage)并使用加载作业将备份加载到 BigQuery。
您还可以选择使用 tabledata().insertAll() 方法一次将数据流式传输到 BigQuery,而不是使用作业将数据加载到 BigQuery。这种方法可以在不延迟运行加载作业的情况下查询数据。
通常流式数据可在第一次流式插入表后的几秒钟内进行实时分析。但是,流缓冲区中的数据可能暂时不可用。当数据不可用时,查询会继续成功运行,但它们会跳过仍在流缓冲区中的一些数据。
更多详情,您可以查看以下链接:
【讨论】: