【问题标题】:Sparklyr Error: org.apache.spark.SparkException: Job aborted due to stage failureSparklyr 错误:org.apache.spark.SparkException:作业因阶段失败而中止
【发布时间】:2019-12-25 03:30:48
【问题描述】:

我正在尝试使用带有庞大飞行数据集的 Sparklyr 运行线性回归(所有 NA 都已从数据中删除),但出现以下内存错误:

错误:org.apache.spark.SparkException:作业因阶段失败而中止:阶段 33.0 中的任务 6 失败 1 次,最近一次失败:阶段 33.0 中丢失任务 6.0(TID 327,本地主机,执行程序驱动程序):java .lang.OutOfMemoryError: Java 堆空间 (...)

我正在使用以下代码:

lm_model <- my_dataset %>%
  select(A, B, C, D) %>%
  ml_linear_regression(A ~ B + C + D)

您对如何避免此类错误有任何建议吗?

【问题讨论】:

    标签: r dplyr sparklyr


    【解决方案1】:

    三件事可能会奏效。

    1. 如果您有很多已保存的变量、向量、数据集等,请删除不需要的。
    2. 重新启动 R 会话。
    3. options(java.parameters = "-Xmx8000m") 为 rJava 分配更多内存。

    【讨论】:

      猜你喜欢
      • 2020-10-04
      • 2020-11-07
      • 2018-03-18
      • 1970-01-01
      • 2019-08-29
      • 2022-08-03
      • 2023-03-20
      • 2019-09-24
      • 2015-01-09
      相关资源
      最近更新 更多