【发布时间】:2016-08-03 18:52:10
【问题描述】:
我在 hdfs 中有一个以逗号 (,) 分隔的文件,我正在尝试使用 scala 提取第 6 列,因为我在下面的代码中编写了该文件
object WordCount {
def main(args: Array[String])
{
val textfile = sc.textFile("/user/cloudera/xxx/xxx")
val word = textfile.filter( x => x.length > 0 ).map(_.replaceAll("\\|",",").trim)
val keys = word.map(a => a(5))
keys.saveAsTextFile("/user/cloudera/xxx/Sparktest")
}
}
但我在 HDFS 中得到的结果不是我想要的。
以前我的数据是:
MSH|^~\&|RQ|BIN|SMS|BIN|2019||ORU^R01|120330003918|J|2.2
PID|1|xxxxx|xxxx||TEST|Rooney|19761202|M|MR^^M^MR^MD^11|7|0371 HOES LANE^0371
现在我的数据是:
\
T
I
,
1
N
\
T
I
,
1
N
\
T
I
我希望我的结果是:
BIN
TEST
我不知道我做错了什么。请帮忙
【问题讨论】:
-
我为什么要投反对票?你能解释一下,以便我更正吗
标签: scala hadoop apache-spark