Sparklyr 错误：org.apache.spark.SparkException：作业因阶段失败而中止答案

【问题标题】：Sparklyr Error: org.apache.spark.SparkException: Job aborted due to stage failureSparklyr 错误：org.apache.spark.SparkException：作业因阶段失败而中止
【发布时间】：2019-12-25 03:30:48
【问题描述】：

我正在尝试使用带有庞大飞行数据集的 Sparklyr 运行线性回归（所有 NA 都已从数据中删除），但出现以下内存错误：

错误：org.apache.spark.SparkException：作业因阶段失败而中止：阶段 33.0 中的任务 6 失败 1 次，最近一次失败：阶段 33.0 中丢失任务 6.0（TID 327，本地主机，执行程序驱动程序）：java .lang.OutOfMemoryError: Java 堆空间 (...)

我正在使用以下代码：

lm_model <- my_dataset %>%
  select(A, B, C, D) %>%
  ml_linear_regression(A ~ B + C + D)

您对如何避免此类错误有任何建议吗？

【问题讨论】：

标签： r dplyr sparklyr

【解决方案1】：

三件事可能会奏效。

如果您有很多已保存的变量、向量、数据集等，请删除不需要的。
重新启动 R 会话。
options(java.parameters = "-Xmx8000m") 为 rJava 分配更多内存。

【讨论】：