分解 Spark RDD答案

【问题标题】：Decomposing Spark RDDs分解 Spark RDD
【发布时间】：2015-05-12 05:45:54
【问题描述】：

在Spark中，可以将多个RDD组合成一个，使用zip、union、join等...

是否可以有效地分解RDD？即，不对原始 RDD 执行多次传递？我正在寻找的是类似于：

val rdd: RDD[T] = ...     
val grouped: Map[K, RDD[T]] = rdd.specialGroupBy(...)

RDD 的优势之一是它们能够高效地执行迭代计算。在我遇到的一些（机器学习）用例中，我们需要分别对每个组执行迭代算法。

目前我知道的可能性是：

我正在考虑的一些用例是，给定一个非常大的（表格）数据集：

【问题讨论】：

【解决方案1】：

我认为最好的选择是将数据一次性写入每个键的一个文件（请参阅Write to multiple outputs by key Spark - one Spark job），然后将每个键的文件分别加载到一个 RDD 中。

【讨论】：

丹尼尔，我试过上面的方法。您建议的问题是对象被写为字符串，即您丢失了类型。我编写了以下代码（用于本地模式）来克服这个问题：gist.github.com/MishaelRosenthal/108ebbbb7590c7d3104b 但由于某种原因它非常慢。我怀疑的是，由于某种原因，它会多次迭代整个数据。
不知道，抱歉。你的代码在我看来。我自己并没有尝试过在实践中这样做，所以我不知道会有什么表现。也许您可以通过 Spark UI（阶段）了解它在做什么。