【发布时间】:2019-01-15 10:37:44
【问题描述】:
目前我们使用 Flink FsStateBackend 检查点并设置 fileStateSizeThreshold 来限制写入 HDFS 上的 avro/json 文件的数据大小为 128MB。在检查点操作有一定延迟后也会关闭文件。
由于我们没有在新项目中使用高级 Flink 功能,我们希望使用带有 Kafka Connect HDFS Connector 的 Kafka Streaming 将消息直接写入 hdfs(无需启动 Flink)
但是我找不到是否有选项可以限制来自 kafka 连接器的 hdfs 文件的文件大小,除了 flush.size 似乎限制了记录数。
如果连接器上没有设置,人们如何以另一种方式管理来自 hdfs 上的流数据的文件大小?
【问题讨论】:
标签: apache-kafka hdfs apache-flink apache-kafka-connect