【发布时间】:2015-10-06 03:55:01
【问题描述】:
我有几个与 Spark Streaming 相关的基本问题
[请让我知道这些问题是否已在其他帖子中得到解答 - 我找不到任何问题]:
(i) 在 Spark Streaming 中,RDD 中的 partition 数量是否默认等于 worker 的数量?
(ii) 在 Spark-Kafka 集成的Direct Approach 中,创建的 RDD 分区数等于 Kafka 分区数。
假设每个 RDD 分区i 在每批DStream 中都会映射到同一个工作节点j 是否正确?即,分区到工作节点的映射是否仅基于分区的索引?例如,分区 2 是否可以在一个批次中分配给工人 1,而在另一批次中分配给工人 3?
提前致谢
【问题讨论】:
标签: scala apache-spark apache-kafka spark-streaming apache-spark-1.4