【发布时间】:2018-03-19 04:43:06
【问题描述】:
我已经用 Scala 编写了我的程序,现在我想将它转换为 Spark。
我在实现 grouped 时遇到问题,它将列表的元素分组为特定长度。
以下是我想在 Spark 中转换的 Scala 代码,其中Population 是一个 RDD。
var pop = Population.grouped(dimensions).toList
我做了很多冲浪,但都是徒劳的。有人可以帮帮我吗?
【问题讨论】:
-
转换成Spark是什么意思?如果 Population 已经是一个 RDD,那么 pop 也是一个 RDD 并且 RDD 在 Spark 中。那么你的期望是什么?你能用恰当的例子解释一下吗?
-
如果要分组,有groupBy功能。但建议做一个reduceBy,因为这将避免不必要的洗牌。最重要的是,您需要编写指定如何分组的函数
标签: scala apache-spark