【问题标题】:Camus Migration - Kafka HDFS Connect does not start from the set offsetCamus Migration - Kafka HDFS Connect 未从设置的偏移量开始
【发布时间】:2018-09-25 01:00:29
【问题描述】:

我目前正在使用 Confluent HDFS Sink Connector (v4.0.0) 来替换 Camus。我们正在处理敏感数据,因此我们需要在切换到连接器期间保持偏移的一致性。

切割计划:

  1. 我们创建了 hdfs sink 连接器并订阅了一个写入临时 hdfs 文件的主题。这将创建一个名为 connect- 的消费者组
  2. 使用 DELETE 请求停止了连接器。
  3. 使用 /usr/bin/kafka-consumer-groups 脚本,我可以将连接器使用者组 kafka 主题分区的当前偏移量设置为所需的值(即加缪写的最后偏移量 + 1)。
  4. 当我重新启动 hdfs 接收器连接器时,它会继续从最后提交的连接器偏移读取并忽略设置值。我期望 hdfs 文件名如下: hdfs_kafka_topic_name+kafkapartition+Camus_offset+Camus_offset_plus_flush_size.format

我对融合连接器行为的期望是否正确?

【问题讨论】:

    标签: hadoop apache-kafka hdfs apache-kafka-connect camus


    【解决方案1】:

    当您重新启动此连接器时,它将使用文件中嵌入的偏移量,该偏移量是最后一个写入 hdfs 的文件。它不会使用消费者组偏移量。这样做是因为它使用预写日志来实现恰好一次传送到 hdfs。

    【讨论】:

    • 感谢@dawsaw 的快速响应,现在更了解连接器的行为。我添加了一个名为 hdfs_kafka_topic_name+kafkapartition+dummy_offset+***camus_offset***.format 的虚拟文件并创建了一个新的连接器。它开始使用 camus_offset+1 写入新文件。谢谢。 :)
    • @dawsaw "文件中嵌入的偏移量是最后一个写入 hdfs 的文件的偏移量" 这是嵌入在 WAL 文件中还是在最终的 AVRO 文件中?
    • 最后一个,wal还没有提交数据
    猜你喜欢
    • 2016-11-20
    • 1970-01-01
    • 2021-10-16
    • 1970-01-01
    • 1970-01-01
    • 2020-05-17
    • 2016-10-23
    • 2019-01-18
    • 1970-01-01
    相关资源
    最近更新 更多