【发布时间】:2018-05-20 01:33:46
【问题描述】:
我正在开发一个 Flink 流程序,它读取 kafka 消息并将消息转储到 AWS s3 上的 ORC 文件。我发现没有关于 Flink 的 BucketingSink 和 ORC 文件编写器集成的文档。 BucketingSink 中没有这样的 ORC 文件编写器实现。
我被困在这里,有什么想法吗?
【问题讨论】:
标签: hdfs apache-flink orc
我正在开发一个 Flink 流程序,它读取 kafka 消息并将消息转储到 AWS s3 上的 ORC 文件。我发现没有关于 Flink 的 BucketingSink 和 ORC 文件编写器集成的文档。 BucketingSink 中没有这样的 ORC 文件编写器实现。
我被困在这里,有什么想法吗?
【问题讨论】:
标签: hdfs apache-flink orc
我同意,ORC 文件的BucketingSink 编写器将是一个很棒的功能。但是,它还没有贡献给 Flink。你必须自己实现这样的作家。
如果您考虑将其贡献给 Flink,我相信 Flink 社区会帮助设计和审查作者。
【讨论】:
StreamWriterBase,我想扩展这个类。 ORC writer 不接受流。所以我必须实现Writer 接口。你有更好的主意吗?
Writer接口而不是StreamWriterBase接口。作者将包装 ORC 的core-java Writer。