【发布时间】:2015-08-06 03:16:37
【问题描述】:
如果我有一个文件,并且我每行做了一个 RDD zipWithIndex,
([row1, id1001, name, address], 0)
([row2, id1001, name, address], 1)
...
([row100000, id1001, name, address], 100000)
如果我重新加载文件,我能否获得相同的索引顺序?既然是并行运行的,其他行可能分区不同?
【问题讨论】:
标签: scala apache-spark