【发布时间】:2018-04-19 16:06:39
【问题描述】:
我正在集群节点上使用带有 Pyspark 内核的 Jupyter Notebook,问题是我的 /tmp 文件夹总是满的。我已经更新了参数:
SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=172800"
问题是该文件夹只有 200GB,当我在 Jupyter 中关闭内核时,有没有办法说清理干净?还是应该将Dspark.worker.cleanup.appDataTtl 设置为 30 分钟,以便每 30 分钟删除一次所有临时文件/日志?
【问题讨论】:
-
你可以试试 spark.cleaner.ttl 属性吗?我不确定它是如何工作的。刚刚找到一个参考,它清除了中间数据。
-
感谢您的回复,我会尝试 :)。从文档来看,它似乎适用于内存中未写入磁盘的数据。我认为这不是正确的方法,但我会尝试阅读更多相关信息。
标签: apache-spark pyspark jupyter-notebook hortonworks-data-platform