【发布时间】:2017-10-18 09:04:09
【问题描述】:
在我的集群上,我启用了 emrfs 一致视图,它在运行 spark 作业时运行良好。
但是,我发现在通用 s3 操作之后手动同步/删除/导入元数据很乏味。
比如复制后s3变得不一致:
aws s3 cp localfile1 s3://bucket/path/
emrfs sync s3://bucket/path/
emrfs diff s3://bucket/path/
BOTH | MANIFEST ONLY | S3 ONLY
DIR bucket/path/ (BOTH)
FILE bucket/path/localfile1 (BOTH)
在这里,localfile1 和元数据是同步的。
aws s3 cp localfile2 s3://bucket/path/
emrfs diff s3://bucket/path/
BOTH | MANIFEST ONLY | S3 ONLY
DIR bucket/path/ (BOTH)
FILE bucket/path/localfile1 (BOTH)
FILE bucket/path/localfile2 (S3 ONLY)
当直接从启用了一致视图的 EMR 集群执行类似操作时,有没有办法让元数据与 s3 保持同步?
谢谢
【问题讨论】:
-
能否请您尝试 hdfs 副本并查看 emrfs 差异。我认为它会解决问题。 Emrfs 一致视图适用于 hadoop opeartions 和 hadoop 作业
标签: amazon-s3 amazon-emr