【发布时间】:2018-07-17 10:50:48
【问题描述】:
我有一个 EMR 作业,它读取大约 1TB 的数据,对其进行过滤并对其进行重新分区(重新分区后有一些连接),但是我的作业在重新分区时失败,并出现错误“设备上没有剩余空间”。我厌倦了更改“spark.local.dir”,但它没有用。我的工作仅在 d2.4xlarge 实例上完成,但在具有相似核心和内存的 r3.4xlarge 上失败。我找不到这个问题的根本原因。任何帮助将不胜感激。
感谢您的宝贵时间。
【问题讨论】:
标签: apache-spark pyspark