Camus Migration - Kafka HDFS Connect 未从设置的偏移量开始答案

【问题标题】：Camus Migration - Kafka HDFS Connect does not start from the set offsetCamus Migration - Kafka HDFS Connect 未从设置的偏移量开始
【发布时间】：2018-09-25 01:00:29
【问题描述】：

我目前正在使用 Confluent HDFS Sink Connector (v4.0.0) 来替换 Camus。我们正在处理敏感数据，因此我们需要在切换到连接器期间保持偏移的一致性。

切割计划：

我们创建了 hdfs sink 连接器并订阅了一个写入临时 hdfs 文件的主题。这将创建一个名为 connect- 的消费者组
使用 DELETE 请求停止了连接器。
使用 /usr/bin/kafka-consumer-groups 脚本，我可以将连接器使用者组 kafka 主题分区的当前偏移量设置为所需的值（即加缪写的最后偏移量 + 1)。
当我重新启动 hdfs 接收器连接器时，它会继续从最后提交的连接器偏移读取并忽略设置值。我期望 hdfs 文件名如下： hdfs_kafka_topic_name+kafkapartition+Camus_offset+Camus_offset_plus_flush_size.format

我对融合连接器行为的期望是否正确？

【问题讨论】：

标签： hadoop apache-kafka hdfs apache-kafka-connect camus

【解决方案1】：

当您重新启动此连接器时，它将使用文件中嵌入的偏移量，该偏移量是最后一个写入 hdfs 的文件。它不会使用消费者组偏移量。这样做是因为它使用预写日志来实现恰好一次传送到 hdfs。

【讨论】：

感谢@dawsaw 的快速响应，现在更了解连接器的行为。我添加了一个名为 hdfs_kafka_topic_name+kafkapartition+dummy_offset+***camus_offset***.format 的虚拟文件并创建了一个新的连接器。它开始使用 camus_offset+1 写入新文件。谢谢。 :)
@dawsaw "文件中嵌入的偏移量是最后一个写入 hdfs 的文件的偏移量" 这是嵌入在 WAL 文件中还是在最终的 AVRO 文件中？
最后一个，wal还没有提交数据