【发布时间】:2018-12-29 01:43:51
【问题描述】:
我有一个包含 200 万条消息的 kafka 主题,我的刷新大小为 100000,默认分区处于分布式模式,有 4 个工作人员,我能够在几秒钟内(10 到 15 秒)内看到数据立即写入 HDFS )。
我看到创建了一个+tmp目录和文件夹,每次触发新连接器时都会创建主题。
是kafka connect的行为每次都写得这么快,还是已经将数据存储在HDFS中并根据连接器属性将其移动到主题目录?
如果我想为此计算延迟,我该如何计算?
如果我停止并删除 /topics 和 /temp 中的主题目录并重新触发同一主题,它会再次从 Kafka 中提取数据,还是会从 hdfs 中的某个位置获取数据作为备份?
需要澄清这是如何发生的。如果我的理解不正确,请告诉我。
【问题讨论】:
标签: apache-kafka hdfs kafka-consumer-api apache-kafka-connect confluent-platform