【发布时间】:2017-02-10 21:45:51
【问题描述】:
在 Amazon EMR 集群上运行 spark 作业后,我直接从 s3 中删除了输出文件并尝试再次重新运行该作业。尝试使用 sqlContext.write 在 s3 上写入 parquet 文件格式时收到以下错误:
'bucket/folder' present in the metadata but not s3
at com.amazon.ws.emr.hadoop.fs.consistency.ConsistencyCheckerS3FileSystem.getFileStatus(ConsistencyCheckerS3FileSystem.java:455)
我试着跑了
emrfs sync s3://bucket/folder
即使它确实从跟踪元数据的 DynamoDB 实例中删除了一些记录,它似乎也没有解决错误。不知道我还能尝试什么。如何解决此错误?
【问题讨论】:
标签: amazon-s3 pyspark amazon-emr