【发布时间】:2018-06-08 23:13:03
【问题描述】:
陈述我的问题
1) 我想将我们的 cdh hadoop 集群备份到 s3
2) 我们有一个正在运行的 emr 集群
3) 我正在尝试从 emr 集群运行 s3distcp ,将 src 作为 cdh 远程集群的 hdfs URL,将目标作为 s3 。
出现以下错误: 引起:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException):权限被拒绝:user=mapred,access=RE AD_EXECUTE, inode="/tmp/hadoop-mapred/mapred/staging"
以下是我在这里阅读文档后的问题
http://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html
1) 这可行吗?我可以从 s3distcp 文档中看到可以给出任何 hdfs url。但我找不到任何关于它在外部集群情况下如何工作的文档。
2) 我想知道 staging 目录在哪里(有人提到 s3distcp 在复制到 s3 之前将数据复制到该目录),文档中提到的它是在远程集群或 emr 集群中创建的。
【问题讨论】:
标签: hadoop amazon-s3 amazon-emr distcp s3distcp