【发布时间】:2016-03-29 14:10:51
【问题描述】:
我正在使用spark 1.5.2。我需要使用 kafka 作为流媒体源来运行 spark 流媒体作业。我需要阅读 kafka 中的多个主题并以不同方式处理每个主题。
- 在同一份工作中这样做是个好主意吗?如果是这样,我应该为每个主题创建一个包含多个分区的流还是不同的流?
- 我正在使用 Kafka 直接蒸汽。据我所知,spark 会为每个分区启动长时间运行的接收器。我有一个相对较小的集群,6 个节点,每个节点有 4 个核心。如果我在每个主题中有很多主题和分区,效率会因为大多数执行者忙于长时间运行的接收者而受到影响吗? 如果我的理解有误请指正
【问题讨论】:
标签: apache-spark apache-kafka spark-streaming