【发布时间】:2016-06-23 13:22:08
【问题描述】:
我想知道为什么随机森林分类不支持 Spark 中的大量观察。如果我给超过 7500 我得到了
org.apache.spark.SparkException:作业因阶段失败而中止:阶段 4.0 中的任务 0 失败 1 次,最近一次失败:阶段 4.0 中丢失任务 0.0(TID 7,本地主机):java.lang.IllegalArgumentException:大小超过 Integer.MAX_VALUE
【问题讨论】:
-
您能否提供一个可重现的示例。为什么您的代码失败的原因很明显,可能的解决方案因上下文而异。
-
你要我提供用过的数据集还是什么?
-
不,但代码很有用。查看关闭的原因。
标签: java apache-spark machine-learning dataset random-forest