【发布时间】:2014-08-07 19:13:52
【问题描述】:
我正在使用 Spark 的 Python API 并运行 Spark 0.8。
我正在存储大量的浮点向量 RDD,我需要针对整个集合执行一个向量的计算。
RDD 中的切片和分区之间有什么区别吗?
当我创建 RDD 时,我将 100 作为参数传递给它,这使它将 RDD 存储为 100 个切片并在执行计算时创建 100 个任务。我想知道对数据进行分区是否会通过使系统更有效地处理数据来提高切片之外的性能(即对分区执行操作与仅对切片 RDD 中的每个元素进行操作之间是否存在差异)。
例如,这两段代码有什么明显的区别吗?
rdd = sc.textFile(demo.txt, 100)
对
rdd = sc.textFile(demo.txt)
rdd.partitionBy(100)
【问题讨论】:
标签: python apache-spark