【问题标题】:Apache Spark Jobc complete but hadoop job still runningApache Spark Jobc 已完成,但 hadoop 作业仍在运行
【发布时间】:2017-08-19 23:47:58
【问题描述】:

我正在与 Hadoop 一起运行一个大型 Spark 作业(大约 20TB 并存储到 HDFS)。 Spark 控制台显示作业已完成,但 Hadoop 仍然显示作业正在运行,无论是在控制台中还是在日志中都显示“正在运行”。

我应该等多久才会担心?

【问题讨论】:

  • 您正在从文件系统运行 Spark 流式传输作业,或者您正在运行 Spark 核心
  • Spark Core - 数据来自 S3 存储桶。 Spark 作业在 6 小时前完成,但 hadoop 作业仍在运行并写入 HDFS

标签: hadoop apache-spark hdfs


【解决方案1】:

您可以尝试干净地停止火花上下文。如果您还没有关闭它,请在作业结束时添加一个 sparkcontext 停止方法。例如

sc.stop()

【讨论】:

    猜你喜欢
    • 2021-12-26
    • 2021-07-08
    • 1970-01-01
    • 2020-09-20
    • 2017-01-27
    • 2015-12-17
    • 1970-01-01
    • 1970-01-01
    • 2016-06-26
    相关资源
    最近更新 更多