【发布时间】:2016-11-21 05:45:43
【问题描述】:
我正在尝试将我的 Spark JavaRDD 保存到 HDFS。该过程成功运行,但我没有看到保存在 HDFS 中的文件。下面是我的代码。我在本地运行它。 (直接从 IntelliJ 运行 main() 方法。)
public static void main(String[] args){
String file = "/Path/to/file/abc.csv";
SparkConf conf = new SparkConf().setAppName("test").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> lines = sc.textFile(file);
JavaRDD<String > filteredLines = lines.filter(new Function<String, Boolean>() {
@Override
public Boolean call(String s) throws Exception {
return s.contains("Hollywood");
}
});
filteredLines.coalesce(1).saveAsObjectFile("hdfs://localhost:9000/input");
sc.close();
}
我在 Spark 2.0 和 Hadoop 2.7.2 上运行此代码。在我的 hadoop core-site.xml 中配置为 localhost:9000。我正在启动我的 HDFS 伪分布式集群,如 hadoop 文档中所述。
我在这里缺少什么?
【问题讨论】:
-
所以您是在安装了 Hadoop 的同一台机器上运行此代码?如果不尝试使用主机名一次。
-
是的。在同一台机器上运行代码。
标签: hadoop apache-spark