【问题标题】:emrfs consistent view and command line copy/deleteemrfs 一致视图和命令行复制/删除
【发布时间】:2017-10-18 09:04:09
【问题描述】:

在我的集群上,我启用了 emrfs 一致视图,它在运行 spark 作业时运行良好。

但是,我发现在通用 s3 操作之后手动同步/删除/导入元数据很乏味。

比如复制后s3变得不一致:

aws s3 cp localfile1 s3://bucket/path/
emrfs sync s3://bucket/path/
emrfs diff s3://bucket/path/

BOTH | MANIFEST ONLY | S3 ONLY
DIR  bucket/path/           (BOTH)
FILE bucket/path/localfile1 (BOTH)

在这里,localfile1 和元数据是同步的。

aws s3 cp localfile2 s3://bucket/path/
emrfs diff s3://bucket/path/

BOTH | MANIFEST ONLY | S3 ONLY
DIR  bucket/path/           (BOTH)
FILE bucket/path/localfile1 (BOTH)
FILE bucket/path/localfile2 (S3 ONLY)

当直接从启用了一致视图的 EMR 集群执行类似操作时,有没有办法让元数据与 s3 保持同步?

谢谢

【问题讨论】:

  • 能否请您尝试 hdfs 副本并查看 emrfs 差异。我认为它会解决问题。 Emrfs 一致视图适用于 hadoop opeartions 和 hadoop 作业

标签: amazon-s3 amazon-emr


【解决方案1】:

尝试 hdfs 副本并查看 emrfs 差异。它将解决问题。 Emrfs 一致视图适用于 hadoop opeartions 和 hadoop 作业。

aws s3 cp

命令不会通过 hadoop。

因此,当我们对使用 aws s3 命​​令复制的对象执行 emrfs diff 时,它们只会 s3

【讨论】:

    【解决方案2】:

    这里有几件事需要注意。 EMRFS 一致视图应该仅适用于基于 hadoop 的作业。如果一个人正在运行非 Hadoop 作业,他/她将不得不将元数据和 s3 数据同步。 AWS 公开了 aws-cli 命令,例如 delete、sync、diff、import 等。我们可以使用这些命令来实现所需的结果。

    有时即使我们只运行 hadoop 作业,仍然会出现不一致的情况。对于这几件事,我们应该检查的是在 dynamodb 端节流。如果 dynamodb 没有受到限制,请在 (emrfs-site.xml) 中查找 emrfs 设置

    fs.s3.consistent.retryCount
    fs.s3.consistent.retryPeriodSeconds
    

    尝试增加这些值,看看是否有帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2023-03-06
      • 2016-09-19
      • 2022-01-13
      • 2021-12-11
      • 2017-08-15
      • 1970-01-01
      • 1970-01-01
      • 2021-05-01
      相关资源
      最近更新 更多