【问题标题】:EMR Spark - How can I see the progress of writing files to S3?EMR Spark - 如何查看将文件写入 S3 的进度?
【发布时间】:2017-02-13 14:28:39
【问题描述】:

当我向 S3 提交创建 parquet 文件的作业时,EMR 中是否有任何服务或可以看到进度条(或经过的时间)的方式?

代码:

df.write.partitionBy("date").mode("append").parquet("s3n://uk-adp-vault/semasio/output")

【问题讨论】:

  • 根据我的经验,您应该避免以这种方式添加新数据。运行时间与 s3 上的现有数据量呈线性关系。看到这个:stackoverflow.com/questions/40830152/… 使用 s3-dist-cp 时,我可以在资源管理器中看到进度 (http://:8088/cluster)
  • Niros 的建议是正确的,但工作进度在 Spark UI 中

标签: apache-spark emr amazon-emr


【解决方案1】:

您可以使用 EMR 上的 8088 端口访问 ResourceManager。这将显示内存利用率。

您可以从那里导航到 ApplicationMaster,它是集群的 spark UI。这将向您显示该作业的进度以及每项任务的详细信息。

【讨论】:

    猜你喜欢
    • 2017-03-16
    • 1970-01-01
    • 2020-01-26
    • 2017-08-06
    • 2019-06-07
    • 2018-03-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多