【发布时间】:2017-02-13 14:28:39
【问题描述】:
当我向 S3 提交创建 parquet 文件的作业时,EMR 中是否有任何服务或可以看到进度条(或经过的时间)的方式?
代码:
df.write.partitionBy("date").mode("append").parquet("s3n://uk-adp-vault/semasio/output")
【问题讨论】:
-
根据我的经验,您应该避免以这种方式添加新数据。运行时间与 s3 上的现有数据量呈线性关系。看到这个:stackoverflow.com/questions/40830152/… 使用 s3-dist-cp 时,我可以在资源管理器中看到进度 (http://
:8088/cluster) -
Niros 的建议是正确的,但工作进度在 Spark UI 中
标签: apache-spark emr amazon-emr