【发布时间】:2017-08-02 14:03:51
【问题描述】:
使用 scala/spark 1.6 概括从 RDD[Vector] 到 DataFrame 的转换的最佳解决方案是什么。 输入是不同的 RDD[Vector]。 Vector 中的列数可以从 1 到 n 用于不同的 RDD。
我尝试使用 shapeless 库,它们需要声明的列号和类型。 ES:
val df = rddVector.map(_.toArray.toList)
.collect {
case t: List[Double] if t.length == 3 => t.toHList[Double :: Double :: Double :: HNil].get.tupled.productArity
}
.toDF( "column_1", "column_2", "column_3" )
谢谢!
【问题讨论】:
-
据我了解,我在这里回答了类似的问题:stackoverflow.com/a/45009516/7224597你能检查一下这是否适合你吗?
标签: scala apache-spark apache-spark-mllib apache-spark-1.6