【发布时间】:2017-03-27 18:14:35
【问题描述】:
在我的 Dataflow 管道中从 Datastore 中读取数据时,该作业似乎没有分配到我为我的作业设置的可用工人数量上。 Dataflow 是对 Datastore 数据的读取进行并行处理,还是使用单个 worker 来执行?
【问题讨论】:
在我的 Dataflow 管道中从 Datastore 中读取数据时,该作业似乎没有分配到我为我的作业设置的可用工人数量上。 Dataflow 是对 Datastore 数据的读取进行并行处理,还是使用单个 worker 来执行?
【问题讨论】:
通常,DatastoreIO 进行的读取使用多个工作器并行读取。但是,并非所有查询都可以根据文档进行并行化。例如,指定限制或使用不等式过滤器的查询。这些查询需要使用单个工作人员来确保正确性。
https://cloud.google.com/dataflow/model/datastore-io#reading-from-datastore
【讨论】: