emrfs 一致视图和命令行复制/删除答案

【问题标题】：emrfs consistent view and command line copy/deleteemrfs 一致视图和命令行复制/删除
【发布时间】：2017-10-18 09:04:09
【问题描述】：

在我的集群上，我启用了 emrfs 一致视图，它在运行 spark 作业时运行良好。

但是，我发现在通用 s3 操作之后手动同步/删除/导入元数据很乏味。

比如复制后s3变得不一致：

aws s3 cp localfile1 s3://bucket/path/
emrfs sync s3://bucket/path/
emrfs diff s3://bucket/path/

BOTH | MANIFEST ONLY | S3 ONLY
DIR  bucket/path/           (BOTH)
FILE bucket/path/localfile1 (BOTH)

在这里，localfile1 和元数据是同步的。

aws s3 cp localfile2 s3://bucket/path/
emrfs diff s3://bucket/path/

BOTH | MANIFEST ONLY | S3 ONLY
DIR  bucket/path/           (BOTH)
FILE bucket/path/localfile1 (BOTH)
FILE bucket/path/localfile2 (S3 ONLY)

当直接从启用了一致视图的 EMR 集群执行类似操作时，有没有办法让元数据与 s3 保持同步？

谢谢

【问题讨论】：

能否请您尝试 hdfs 副本并查看 emrfs 差异。我认为它会解决问题。 Emrfs 一致视图适用于 hadoop opeartions 和 hadoop 作业

标签： amazon-s3 amazon-emr

【解决方案1】：

尝试 hdfs 副本并查看 emrfs 差异。它将解决问题。 Emrfs 一致视图适用于 hadoop opeartions 和 hadoop 作业。

aws s3 cp

命令不会通过 hadoop。

因此，当我们对使用 aws s3 命令复制的对象执行 emrfs diff 时，它们只会 s3

【讨论】：

【解决方案2】：

这里有几件事需要注意。 EMRFS 一致视图应该仅适用于基于 hadoop 的作业。如果一个人正在运行非 Hadoop 作业，他/她将不得不将元数据和 s3 数据同步。 AWS 公开了 aws-cli 命令，例如 delete、sync、diff、import 等。我们可以使用这些命令来实现所需的结果。

有时即使我们只运行 hadoop 作业，仍然会出现不一致的情况。对于这几件事，我们应该检查的是在 dynamodb 端节流。如果 dynamodb 没有受到限制，请在 (emrfs-site.xml) 中查找 emrfs 设置

fs.s3.consistent.retryCount
fs.s3.consistent.retryPeriodSeconds

尝试增加这些值，看看是否有帮助。

【讨论】：