Spark + Kafka 集成 - 将 Kafka 分区映射到 RDD 分区答案

【问题标题】：Spark + Kafka integration - mapping of Kafka partitions to RDD partitionsSpark + Kafka 集成 - 将 Kafka 分区映射到 RDD 分区
【发布时间】：2015-10-06 03:55:01
【问题描述】：

我有几个与 Spark Streaming 相关的基本问题

[请让我知道这些问题是否已在其他帖子中得到解答 - 我找不到任何问题]：

(i) 在 Spark Streaming 中，RDD 中的 partition 数量是否默认等于 worker 的数量？

(ii) 在 Spark-Kafka 集成的Direct Approach 中，创建的 RDD 分区数等于 Kafka 分区数。假设每个 RDD 分区i 在每批DStream 中都会映射到同一个工作节点j 是否正确？即，分区到工作节点的映射是否仅基于分区的索引？例如，分区 2 是否可以在一个批次中分配给工人 1，而在另一批次中分配给工人 3？

提前致谢

【问题讨论】：

标签： scala apache-spark apache-kafka spark-streaming apache-spark-1.4

【解决方案1】：

i) 默认并行度是核心数（或 mesos 为 8），但分区数取决于输入流实现

ii) 不，分区索引到工作节点的映射不是确定性的。如果您在与 spark 执行程序相同的节点上运行 kafka，则运行任务的首选位置将在该分区的 kafka 领导节点上。但即便如此，一个任务也可能被安排在另一个节点上。

【讨论】：