【发布时间】:2019-12-25 03:30:48
【问题描述】:
我正在尝试使用带有庞大飞行数据集的 Sparklyr 运行线性回归(所有 NA 都已从数据中删除),但出现以下内存错误:
错误:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 33.0 中的任务 6 失败 1 次,最近一次失败:阶段 33.0 中丢失任务 6.0(TID 327,本地主机,执行程序驱动程序):java .lang.OutOfMemoryError: Java 堆空间 (...)
我正在使用以下代码:
lm_model <- my_dataset %>%
select(A, B, C, D) %>%
ml_linear_regression(A ~ B + C + D)
您对如何避免此类错误有任何建议吗?
【问题讨论】: