【发布时间】:2016-05-05 23:36:21
【问题描述】:
我是 Spark 的新手,我使用 sc.wholeTextFiles(path); 读取所有文件,函数返回 JavaPairRDD<String, String> 并且 RDD 的键是每个文件的完整路径但是我想要的是将键更改为文件。
他们是不是类似于mapValues(func),但用于键。
【问题讨论】:
-
你不能对 sc.wholeTextFiles(path) 应用映射操作并将完整路径转换为文件名吗??
-
@shekhar 映射函数将返回 JavaRDD
-
不行,你只能用.map操作修改key。
-
@shekhar 对不起,但是文档说通过对这个 RDD 的所有元素应用一个函数来返回一个新的 RDD,这意味着在这种情况下我会丢失密钥。
-
我使用scala,scala中的map函数对rdd和pairedRDD都适用,在java中我认为有mapToPair函数
标签: java apache-spark