【问题标题】:Data Transfer from Google Datastore into Bigquery by using Dataflow Pipeline in Python使用 Python 中的 Dataflow Pipeline 将数据从 Google Datastore 传输到 Bigquery
【发布时间】:2016-10-07 14:26:00
【问题描述】:

我们在将数据从 Google Cloud Datastore 传输到 Bigquery 时遇到问题。我们需要为这项工作在 python 中创建数据流脚本。此作业应使用 python 中的管道将数据从数据存储传输到 bigquery。对于 python 中的这项工作,它需要“Apache Beam”库。但是 Apache Beam 库不起作用。谁能帮助我们?

【问题讨论】:

    标签: google-bigquery google-cloud-datastore pipeline google-cloud-dataflow apache-beam


    【解决方案1】:

    适用于 Python 的 Google Cloud Dataflow SDK 现已可供使用,目前在 Google Cloud Platform 中提供 Beta 级支持。它基于 Apache Beam 代码库。请关注Quickstart 开始使用此 SDK。如果您看到具体错误,请提出单独的问题并引用具体问题。

    也就是说,适用于 Python 的 SDK 尚未提供用于直接访问 Google Cloud Datastore 的 API。您可以使用通用的SourceSink API 编写一个。这并不难,但也不是微不足道的。这是我们正在积极开展的工作,Python SDK 将在不久的将来包含此 API。

    同时,我建议也许尝试使用适用于 Java 的 SDK 来完成这项任务,其中包括 DatastoreIOBigqueryIO API。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-06-22
      • 2017-04-07
      • 1970-01-01
      • 1970-01-01
      • 2018-12-30
      • 1970-01-01
      • 2019-05-12
      相关资源
      最近更新 更多