【发布时间】:2016-08-25 05:04:12
【问题描述】:
我有一个单列的 CSV 文件,行定义如下:
123 || food || fruit
123 || food || fruit || orange
123 || food || fruit || apple
我想创建一个具有单列和不同行值的 csv 文件:
orange
apple
我尝试使用以下代码:
val data = sc.textFile("fruits.csv")
val rows = data.map(_.split("||"))
val rddnew = rows.flatMap( arr => {
val text = arr(0)
val words = text.split("||")
words.map( word => ( word, text ) )
} )
但是这段代码没有给我想要的正确结果。
谁能帮我解决这个问题?
【问题讨论】:
标签: scala csv apache-spark spark-streaming rdd