【发布时间】:2026-01-20 00:45:01
【问题描述】:
我正在尝试处理 HDFS 上的一些文件并将结果也写回 HDFS。在作业开始之前已经准备好文件。问题是我想根据文件内容写入不同的路径和文件。我知道 BucketingSink(doc here) 是为了在 Flink 流中实现这一点而提供的。但是,Dataset 似乎没有类似的 API。我在 * 上发现了一些问答。(1、2、3)。现在我想我有两个选择:
- 使用 Hadoop API:
MultipleTextOutputFormat或MultipleOutputs; - 以流的形式读取文件并使用
BucketingSink。
我的问题是如何在它们之间做出选择,还是有其他解决方案?任何帮助表示赞赏。
编辑:这个问题可能与this 重复。
【问题讨论】:
标签: apache-flink flink-streaming