【发布时间】:2018-04-18 04:52:33
【问题描述】:
我了解textFile为每个文件生成分区的基本原理,而wholeTextFiles生成一个pair values的RDD,其中key是每个文件的路径,value是每个文件的内容。
现在,从技术角度来看,有什么区别:
val textFile = sc.textFile("my/path/*.csv", 8)
textFile.getNumPartitions
和
val textFile = sc.wholeTextFiles("my/path/*.csv",8)
textFile.getNumPartitions
在这两种方法中,我都生成了 8 个分区。那么我为什么要首先使用wholeTextFiles,它比textFile 有什么好处呢?
【问题讨论】:
标签: scala apache-spark file-io