【发布时间】:2019-06-04 21:46:22
【问题描述】:
org.apache.beam.sdk.transforms.Reshuffle 的目的是什么?在文档中,目的被定义为:
返回与其输入等效的 PCollection 的 PTransform,但 在操作上提供了 GroupByKey 的一些副作用,在 特别是防止融合周围的变换, 通过 id 进行检查点和重复数据删除。
防止周围变换融合有什么好处?我认为融合是一种优化,可以防止不必要的步骤。实际用例会有所帮助。
【问题讨论】:
标签: google-cloud-dataflow apache-beam