【问题标题】:Data Transfer from Google Datastore into Bigquery by using Dataflow Pipeline in Python使用 Python 中的 Dataflow Pipeline 将数据从 Google Datastore 传输到 Bigquery
【发布时间】:2016-10-07 14:26:00
【问题描述】:
我们在将数据从 Google Cloud Datastore 传输到 Bigquery 时遇到问题。我们需要为这项工作在 python 中创建数据流脚本。此作业应使用 python 中的管道将数据从数据存储传输到 bigquery。对于 python 中的这项工作,它需要“Apache Beam”库。但是 Apache Beam 库不起作用。谁能帮助我们?
【问题讨论】:
标签:
google-bigquery
google-cloud-datastore
pipeline
google-cloud-dataflow
apache-beam
【解决方案1】:
适用于 Python 的 Google Cloud Dataflow SDK 现已可供使用,目前在 Google Cloud Platform 中提供 Beta 级支持。它基于 Apache Beam 代码库。请关注Quickstart 开始使用此 SDK。如果您看到具体错误,请提出单独的问题并引用具体问题。
也就是说,适用于 Python 的 SDK 尚未提供用于直接访问 Google Cloud Datastore 的 API。您可以使用通用的Source 和Sink API 编写一个。这并不难,但也不是微不足道的。这是我们正在积极开展的工作,Python SDK 将在不久的将来包含此 API。
同时,我建议也许尝试使用适用于 Java 的 SDK 来完成这项任务,其中包括 DatastoreIO 和 BigqueryIO API。