【发布时间】:2018-11-23 09:00:53
【问题描述】:
我的 spark 流式传输作业中有 3 个执行器,这些执行器从 Kafka 消耗。执行者计数取决于主题中的分区计数。当从这个主题消费一条消息时,我开始查询 Hazelcast。每个 executor 从 hazelcast 上的一些过滤操作中找到结果并返回重复的结果。因为当执行器返回数据并且其他执行器找到相同的数据时,数据状态不会更新。
我的问题是,有没有办法将所有结果合并到一个列表中,由执行者在流式传输期间找到?
【问题讨论】:
-
使用累加器...请分享您的代码..
-
感谢您的评论。我详细说明了我的问题。累加器仍在桌面上,我正在阅读它。
标签: java apache-spark hazelcast