【发布时间】:2017-08-19 23:47:58
【问题描述】:
我正在与 Hadoop 一起运行一个大型 Spark 作业(大约 20TB 并存储到 HDFS)。 Spark 控制台显示作业已完成,但 Hadoop 仍然显示作业正在运行,无论是在控制台中还是在日志中都显示“正在运行”。
我应该等多久才会担心?
【问题讨论】:
-
您正在从文件系统运行 Spark 流式传输作业,或者您正在运行 Spark 核心
-
Spark Core - 数据来自 S3 存储桶。 Spark 作业在 6 小时前完成,但 hadoop 作业仍在运行并写入 HDFS
标签: hadoop apache-spark hdfs