【问题标题】:distcp: copy file from hdfs to s3 (How to use in scala or java)distcp:将文件从 hdfs 复制到 s3(如何在 scala 或 java 中使用)
【发布时间】:2017-05-31 14:43:07
【问题描述】:

我正在尝试通过 distcp 通过以下代码将大文件从 hdfs 复制到 s3:

val files:Array[String] = new Array[String](2)
files(0) = "/****/in.zip"

val in =  new Path(new URI("/**/in.zip"))
val out = new Path(new URI("***/out.zip"))
var distcpOpt = new DistCpOptions(in,out)
ToolRunner.run(new DistCp(new Configuration(),distcpOpt), files)

我尝试做类似于this link 的事情。

以前有人这样做过,请帮忙。

【问题讨论】:

    标签: scala amazon-s3 emr distcp


    【解决方案1】:

    我找到了解决办法:

    1- files 数组应该有两个值:第一个用于输入,第二个用于输出。

    2- distcpOpt 不需要有任何值(空字符串即可)

    3- 确保来自 s3 路径

    【讨论】:

    • 你有没有机会分享现在对你有用的代码?
    猜你喜欢
    • 2020-12-22
    • 1970-01-01
    • 1970-01-01
    • 2019-11-14
    • 1970-01-01
    • 2014-11-13
    • 2011-11-21
    • 2014-12-13
    • 1970-01-01
    相关资源
    最近更新 更多