【问题标题】:Keep track of all the parameters of spark-submit跟踪 spark-submit 的所有参数
【发布时间】:2019-11-19 21:12:44
【问题描述】:

我有一个团队,其中许多成员有权通过命令行将 Spark 任务提交给 YARN(资源管理)。很难跟踪谁在使用多少核心,谁在使用多少内存……例如现在我正在寻找可以帮助我监控每个成员使用的参数的软件、框架或其他东西。它将成为客户端和 YARN 之间的桥梁。然后我可以用它来过滤提交命令。

我确实看过 mlflow,我真的很喜欢 MLFlow Tracking,但它是为 ML 训练过程而设计的。我想知道我的目的是否有替代方案?或者有其他解决方案。

谢谢!

【问题讨论】:

    标签: apache-spark parameters hadoop-yarn spark-submit mlflow


    【解决方案1】:

    我的建议是自己构建这样一个工具,因为它不太复杂, 有一个包装器脚本来触发提交,该脚本将使用情况记录在数据库中,并且在火花作业完成后,包装器将知道发布信息。可以很容易地完成。 此外,如果您的团队已经要求提供太多信息,您甚至可以阻止新的 spark 提交。

    当您自己构建它时,它非常灵活,您甚至可以创建“子团队”或任何您想要的东西。

    【讨论】:

    • 谢谢,伊利亚!您的回答帮助我更清楚地看到了这个选项。在实施之前我仍然想知道是否还有其他选择。
    猜你喜欢
    • 2019-11-13
    • 2016-11-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-04-16
    • 2017-10-29
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多