【发布时间】:2019-06-11 12:22:43
【问题描述】:
我们在执行使用 Kafka Connect Elasticsearch 连接器将来自 Kafka 主题的消息发送到 Elasticsearch 的顺序时遇到问题。在主题中,消息的顺序正确且偏移量正确,但如果连续快速创建两条具有相同 ID 的消息,它们会以错误的顺序间歇性地发送到 Elasticsearch。这会导致 Elasticsearch 获得来自倒数第二条消息的数据,而不是来自最后一条消息的数据。如果我们在主题中的两条消息之间添加一两秒的人为延迟,问题就会消失。
文档here 指出:
使用分区级别确保文档级别的更新顺序 Kafka offset作为文档版本,使用
version_mode=external。
但是,我在任何地方都找不到有关此 version_mode 设置的任何文档,以及我们是否需要将其设置在某个地方。
在来自 Kafka Connect 系统的日志文件中,我们可以看到两条消息(对于相同的 ID)以错误的顺序处理,相隔几毫秒。看起来这些是在不同的线程中处理的,这可能很重要。另请注意,该主题只有一个分区,因此所有消息都在同一个分区中。
以下是日志 sn-p,为清楚起见稍作编辑。 Kafka 主题中的消息由 Debezium 填充,我认为这与问题无关,但恰好包含时间戳值。这表明消息的处理顺序错误(尽管它们在由 Debezium 填充的 Kafka 主题中的顺序正确):
[2019-01-17 09:10:05,671] DEBUG http-outgoing-1 >> "
{
"op": "u",
"before": {
"id": "ac025cb2-1a37-11e9-9c89-7945a1bd7dd1",
... << DATA FROM BEFORE SECOND UPDATE >> ...
},
"after": {
"id": "ac025cb2-1a37-11e9-9c89-7945a1bd7dd1",
... << DATA FROM AFTER SECOND UPDATE >> ...
},
"source": { ... },
"ts_ms": 1547716205205
}
" (org.apache.http.wire)
...
[2019-01-17 09:10:05,696] DEBUG http-outgoing-2 >> "
{
"op": "u",
"before": {
"id": "ac025cb2-1a37-11e9-9c89-7945a1bd7dd1",
... << DATA FROM BEFORE FIRST UPDATE >> ...
},
"after": {
"id": "ac025cb2-1a37-11e9-9c89-7945a1bd7dd1",
... << DATA FROM AFTER FIRST UPDATE >> ...
},
"source": { ... },
"ts_ms": 1547716204190
}
" (org.apache.http.wire)
有谁知道在将消息发送到 Elasticsearch 时如何强制此连接器维护给定文档 ID 的消息顺序?
【问题讨论】:
-
您的主题有多少个分区?你的分区键是什么?
-
有一个分区,键是单个 UUID 值的 JSON 表示(由 Debezium 生成),它是 Postgres 数据库中一行的主键,例如
{ "id": "ac025cbe-1a37-11e9-9c89-7945a1bd7dd1" } -
你为连接器配置了多少
tasks.max? -
对于 Elasticsearch 连接器和 Debezium 连接器,
tasks.max是1。 (Debezium 连接器从 Postgres 读取数据并将其放入 Kafka 主题;然后由 Elasticsearch 连接器发送到 Elasticsearch。)
标签: elasticsearch apache-kafka apache-kafka-connect debezium