从 Apache Kafka (kafka_2.10-0.10.1.1) 滚动升级到 Confluent Platform 4.0 问题答案

【问题标题】：Rolling upgrade from Apache Kafka (kafka_2.10-0.10.1.1) to Confluent Platform 4.0 issue从 Apache Kafka (kafka_2.10-0.10.1.1) 滚动升级到 Confluent Platform 4.0 问题
【发布时间】：2018-06-03 16:21:48
【问题描述】：

我们正在尝试从 Apache Kafka 版本 kafka_2.10-0.10.1.1 滚动升级到 Confluent 4.0 提供的 Kafka，我们也想保留当前数据。

这些是我们执行的步骤：

关闭 Apache Kafka 代理。
将 server.properties 从当前复制到新旧以确保匹配。
从 Confluent 安装启动新的 Kafka 节点。

但是，当新节点尝试加入 Kafka 集群时，我们会遇到，因为我无法从 Kafka 集群中的其他节点获取副本。

错误如下：

GC_USR-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition __consumer_offsets-48 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition DCN_USR_RETRY-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition __consumer_offsets-19 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition GC_ACCT-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition __consumer_offsets-11 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition DCN_ERROR_TEST-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition DCN_MONITOR-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition __consumer_offsets-13 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition Hello-Yoga-Test-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition DCN_COUNT_TOPIC-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition __consumer_offsets-2 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition __consumer_offsets-43 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition DCN_INFRA_ERROR-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition __consumer_offsets-6 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition GC_ACL-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition DCN_REQUEST_GROUPS_OWNERSHIP-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition __consumer_offsets-14 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition DCN_MAILBOX_OWNER-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition TASK_REGISTRY_TEST-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition uatTest1-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)
[2017-12-21 02:51:33,869] INFO [ReplicaFetcher replicaId=1, leaderId=0, fetcherId=0] Retrying leaderEpoch request for partition DCN_CMDB_TEST-0 as the leader reported an error: UNKNOWN_SERVER_ERROR (kafka.server.ReplicaFetcherThread)

我们可以清理所有现有数据并设置一个全新的 Confluent Platform 集群，但我们已经在生产环境中使用 Apache Kafka，因此我们不想丢失数据。

请任何人提供建议？

【问题讨论】：

标签： apache-kafka confluent-platform

【解决方案1】：

我已经找到了解决方案。 server.properties 中需要添加以下配置。

inter.broker.protocol.version=0.10.1.1
log.message.format.version=0.10.1.1

【讨论】：

整个集群升级后，通过编辑inter.broker.protocol.version并将其设置为1.0来提升协议版本...kafka.apache.org/10/documentation.html#upgrade