【问题标题】:Retain spark node history保留火花节点历史
【发布时间】:2019-09-19 19:01:46
【问题描述】:

如何在集群中保留 spark worker 和 master 节点的历史记录,例如已完成的应用程序、已完成的驱动程序。当重新启动时,所有这些历史记录都会丢失。是否有任何特定的配置可用于维护历史记录。

在 spark-defaults.conf 中启用 spark 事件日志

    spark.eventLog.enabled    true
    spark.eventLog.dir   file:////app/spark/logs/data/event_log_dir

但仍然无法保留历史

【问题讨论】:

    标签: apache-spark


    【解决方案1】:

    有收件箱解决方案 - Spark History Server

    https://spark.apache.org/docs/latest/monitoring.html#viewing-after-the-fact

    【讨论】:

    • 使用文件系统提供程序类时,必须在 spark.history.fs.logDirectory 配置选项中提供基本日志目录,并且应该包含每个代表应用程序事件日志的子目录。火花作业本身必须配置为记录事件,并将它们记录到同一个共享的可写目录。例如,如果服务器配置了 hdfs://namenode/shared/spark-logs 的日志目录,那么客户端选项将是: spark.eventLog.enabled true spark.eventLog.dir hdfs://namenode /shared/spark-logs
    • 这里我使用的是本地文件系统路径,Spark History Server 需要“spark.eventLog.dir”
    【解决方案2】:

    Spark UI 仅在应用程序运行时可用。 有一个 Spark History Server 工具,可让您在应用程序完成后查看 UI。

    更多信息在 Spark 文档中: Spark: Monitoring and Instrumentation - Viewing After the Fact

    【讨论】:

    • 使用文件系统提供程序类时,必须在 spark.history.fs.logDirectory 配置选项中提供基本日志目录,并且应该包含每个代表应用程序事件日志的子目录。火花作业本身必须配置为记录事件,并将它们记录到同一个共享的可写目录。例如,如果服务器配置了 hdfs://namenode/shared/spark-logs 的日志目录,那么客户端选项将是: spark.eventLog.enabled true spark.eventLog.dir hdfs://namenode /shared/spark-logs
    • 这里我使用的是本地文件系统路径,Spark History Server 需要“spark.eventLog.dir”
    猜你喜欢
    • 2016-01-14
    • 2016-03-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-06-24
    • 2017-08-04
    • 1970-01-01
    相关资源
    最近更新 更多