【发布时间】:2015-03-26 22:27:54
【问题描述】:
对于可能是一个简单的问题,我深表歉意,但我正在努力掌握如何使用 scala/spark 解析 rdd。我有一个从 CSV 创建的 RDD,用
读入 val partitions: RDD[(String, String, String, String, String)] = withoutHeader.mapPartitions(lines => {
val parser = new CSVParser(',')
lines.map(line => {
val columns = parser.parseLine(line)
(columns(0), columns(1), columns(2), columns(3), columns(4))
})
})
当我用
将其输出到文件时partitions.saveAsTextFile(file)
我得到每行带括号的输出。我不想要这些括号。我一般都在努力理解这里发生的事情。我的背景是低级语言,我正在努力通过抽象来了解它实际在做什么。我理解映射,但它是逃避我的输出。有人可以向我解释(columns(0), columns(1), columns(2), columns(3), columns(4)) 行中发生了什么,或者指向一个简单解释正在发生的事情的指南吗?
我的最终目标是能够在 spark 中操作 hdsf 上的文件,以将它们放入适合 mllib 的格式。我对 spark 或 scala 指南不感兴趣,因为它们看起来像是用注释不佳的 javadocs 生成的并没有真正解释任何事情。
提前致谢。
院长
【问题讨论】:
-
能否展示您的输出文件样本?
-
输出文件如下图: (3.5,1.4,0.2,setosa) (3,1.4,0.2,setosa) (3.2,1.3,0.2,setosa) (3.1,1.5,0.2,setosa) ( 3.6,1.4,0.2,setosa)
标签: scala apache-spark