【发布时间】:2017-09-19 02:26:53
【问题描述】:
我有一个 spark 流应用程序,它从 kafka 流式传输数据。我非常依赖消息的顺序,因此只在 kafka 主题中创建了一个分区。
我正在以集群模式部署此作业。
我的问题是:由于我是在集群模式下执行此操作,因此我可以让多个执行器接收任务,并且在这种情况下我会丢失从 kafka 接收到的消息的顺序。如果没有,spark如何保证订单?
【问题讨论】:
-
您必须自己编写才能实现排序。你有任何时间戳作为消息的一部分吗?
标签: apache-spark apache-kafka spark-streaming