【发布时间】:2016-10-19 14:18:51
【问题描述】:
不幸的是,我们仍然必须使用 spark 1.0.0 并且需要使用 RDD。 我有一个从 CSV 文件创建的 RDD。
val serialRDD = sc.textFile(path)
如果我们打印 RDD 的每一行,我们会得到类似这样的东西(一个 id 和一个字符串):
1929 abc
2384 def
8753 ghi
3893 jkl
我希望能够添加另一列作为另一个 id,这将是一个类似“SERIAL-”的字符串,其中 RANK 将是 1、2、3 等自动递增 1
输出应该是这样的:
1929 abc SERIAL-1
2384 def SERIAL-2
8753 ghi SERIAL-3
3893 jkl SERIAL-4
我如何使用 RDD 完成这项工作?
【问题讨论】:
标签: scala apache-spark rdd rank