亚马逊网络服务 EMR 文件系统答案

【问题标题】：Amazon Web Service EMR FileSystem亚马逊网络服务 EMR 文件系统
【发布时间】：2014-12-15 02:41:51
【问题描述】：

我正在尝试在 AWS EMR 集群上运行作业。我遇到的问题如下：

aws java.io.IOException: No FileSystem for scheme: hdfs

我不知道我的问题到底出在哪里（在我的 java jar 作业或作业的配置中）

在我的 S3 存储桶中，我创建了一个文件夹（输入），并在其中放入了一堆文件和我的数据。然后在参数中我给出输入文件夹的路径，然后使用相同的路径作为 FileInputPath.getInputPath(args[0])。

我的问题是 - 首先作业会抓取输入文件夹中的所有文件并处理它们，还是我必须提供每个文件的所有路径？

第二个问题——如何解决上述异常？

谢谢

【问题讨论】：

【解决方案1】：

将您的输入文件保存在 S3 中。例如s3://mybucket/输入/ 将所有要按下的文件保存在我的存储桶下的输入文件夹中。

在你的映射减少使用代码如下

FileInputFormat.addInputPath(job,"s3n://mybucket/input/")

这将自动处理输入文件夹下的所有文件。

【讨论】：