【发布时间】:2019-08-04 20:38:23
【问题描述】:
我在 Amazon EC2 上运行 hdfs
比方说,我有一个存储一些数据的 ftp 服务器。
我只是想以并行方式将这些数据直接复制到 hdfs(这可能更有效)。
我认为 hadoop distcp 是我需要的。
但是
$ bin/hadoop distcp ftp://username:passwd@hostname/some/path/ hdfs://namenode/some/path
没用。
13/07/05 16:13:46 INFO tools.DistCp: srcPaths=[ftp://username:passwd@hostname/some/path/]
13/07/05 16:13:46 INFO tools.DistCp: destPath=hdfs://namenode/some/path
Copy failed: org.apache.hadoop.mapred.InvalidInputException: Input source ftp://username:passwd@hostname/some/path/ does not exist.
at org.apache.hadoop.tools.DistCp.checkSrcPath(DistCp.java:641)
at org.apache.hadoop.tools.DistCp.copy(DistCp.java:656)
at org.apache.hadoop.tools.DistCp.run(DistCp.java:881)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:79)
at org.apache.hadoop.tools.DistCp.main(DistCp.java:908)
我通过在Chrome中复制ftp路径检查路径,文件确实存在,我什至可以下载。
然后,我尝试通过以下方式列出路径下的文件:
$ bin/hadoop dfs -ls ftp://username:passwd@hostname/some/path/
结尾是:
ls: Cannot access ftp://username:passwd@hostname/some/path/: No such file or directory.
这似乎是相同的 pb。
这里有什么解决方法吗?
提前谢谢你。
浩。
【问题讨论】: