【问题标题】:Spark Standalone - Tmp FolderSpark Standalone - Tmp 文件夹
【发布时间】:2018-04-19 16:06:39
【问题描述】:

我正在集群节点上使用带有 Pyspark 内核的 Jupyter Notebook,问题是我的 /tmp 文件夹总是满的。我已经更新了参数:

SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=172800"

问题是该文件夹只有 200GB,当我在 Jupyter 中关闭内核时,有没有办法说清理干净?还是应该将Dspark.worker.cleanup.appDataTtl 设置为 30 分钟,以便每 30 分钟删除一次所有临时文件/日志?

【问题讨论】:

  • 你可以试试 spark.cleaner.ttl 属性吗?我不确定它是如何工作的。刚刚找到一个参考,它清除了中间数据。
  • 感谢您的回复,我会尝试 :)。从文档来看,它似乎适用于内存中未写入磁盘的数据。我认为这不是正确的方法,但我会尝试阅读更多相关信息。

标签: apache-spark pyspark jupyter-notebook hortonworks-data-platform


【解决方案1】:

您可以尝试更改 spark.local.dir 参数到具有更多空间的不同位置。

见: https://spark.apache.org/docs/latest/configuration.html

【讨论】:

  • 感谢您的回复,但我真的不想这样做,我需要我可以拥有的所有空间,应该有一种方法可以删除所有无用的日志和文件(而不是手动作为我现在正在做),或者如果不需要则根本不生成它们(我只是在 Jupyter 中进行原型设计,然后我将进入集群模式进行生产)。
猜你喜欢
  • 1970-01-01
  • 2011-06-19
  • 2016-02-07
  • 1970-01-01
  • 1970-01-01
  • 2022-01-18
  • 2013-10-19
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多