【发布时间】:2017-11-13 17:41:09
【问题描述】:
能否请您告诉我是否可以使用 Apache Beam 实现并行排序?对于文档,Apache Beam 可以使用单台机器进行排序。有没有办法实现并行排序?
【问题讨论】:
-
排序的用例是什么?通常我们发现,每次有人尝试使用全局排序来解决问题时,事实证明有更好的方法来解决问题而不使用全局排序:)
-
这是我们使用的流序列,不确定在什么时候以及如何实现排序。我们有一个 KV
格式的数据结构。我们按 Key 进行分组并产生输出 KV >。我们做一个 groupbykey 因为我们为每个 ID 创建文件。排序要求在 Employee 对象的属性数据中,例如 ID、Age、Designation ......
标签: sorting apache-spark apache-beam