【发布时间】:2017-09-03 14:26:44
【问题描述】:
让我简化一下我的情况。我正在使用 Apache Beam 0.6.0。我的最终处理结果是PCollection<KV<String, String>>。我想将值写入与其键对应的不同文件。
例如,假设结果包括
(key1, value1)
(key2, value2)
(key1, value3)
(key1, value4)
那我想写value1、value3和value4给key1.txt,写value4给key2.txt。
就我而言:
- 密钥集是在管道运行时确定的,而不是在构建管道时确定的。
- 键集可能很小,但每个键对应的值的数量可能非常非常大。
有什么想法吗?
【问题讨论】:
-
@GrahamPolley 我认为侧面输出是在图形构建时决定的。购买我的案例需要管道运行时间。 :-(
-
是的,没错。 Beam 尚不支持动态侧输出(或输入)。
-
@GrahamPolley 是的,我知道。 issues.apache.org/jira/browse/BEAM-92 仍未解决。所以我想知道是否有一些解决方法。
-
我不相信有解决办法。
标签: google-cloud-dataflow apache-beam