【发布时间】:2015-08-01 00:50:56
【问题描述】:
我有一个包含大量大型压缩文本文件的目录(其中“大文件”是指解压缩后无法放入堆中的文件)。
我有一个要应用于每个文件的 reduce 操作。该操作需要按顺序处理行,并产生A 类型的小结果。
如何对目录中的所有文件应用此操作并获得(Path,A) 类型的RDD?
换句话说,我正在寻找类似的东西:
sc.wholeTextFiles(dir).mapValues(operation)
...但是文件不需要存储在内存中。
【问题讨论】:
标签: scala apache-spark