【问题标题】:Spark Worker /tmp directorySpark Worker /tmp 目录
【发布时间】:2018-04-28 20:33:21
【问题描述】:

我正在使用 spark-2.1.1-bin-hadoop-2.7 独立模式(4 个 worker 的集群,120g 内存,总共 32 个内核) 虽然我将spark.local.dir conf 参数定义为写入/opt,但spark worker 继续写入/tmp 目录,例如/tmp/spark-e071ae1b-1970-47b2-bfec-19ca66693768

有没有办法告诉 spark worker 不要写信给/tmp dir?

【问题讨论】:

  • 如果您需要更多信息,请告诉我..
  • 你能检查SPARK_WORKER_DIR 环境变量吗?启动一个将其设置为目录的工作人员。您还可以使用--work-dir-d 命令行选项。
  • SPARK_WORKER_DIR 默认为:SPARK_HOME/work 除了这个目录,它还写入 /tmp
  • 您可以查看java.io.tmpdir Java 属性吗?
  • 谢谢@JacekLaskowski!那是指向/tmp,我会改变它。

标签: apache-spark


【解决方案1】:

根据spark documentation,很少有环境变量会覆盖属性'spark.local.dir',请尝试检查这些环境变量

引用文档:

spark.local.dir

用于 Spark 中“临时”空间的目录,包括地图输出 存储在磁盘上的文件和 RDD。这应该是快速的, 系统中的本地磁盘。它也可以是逗号分隔的列表 不同磁盘上的多个目录。注意:这将被覆盖 通过 SPARK_LOCAL_DIRS(独立)、MESOS_SANDBOX(Mesos)或 LOCAL_DIRS (YARN) 由集群管理器设置的环境变量。

【讨论】:

    猜你喜欢
    • 2021-01-04
    • 1970-01-01
    • 2017-05-05
    • 1970-01-01
    • 2017-04-13
    • 1970-01-01
    • 1970-01-01
    • 2020-02-21
    • 2011-04-05
    相关资源
    最近更新 更多