如何在火花中处理 Integer.MAX_VALUE？ [关闭]答案

【问题标题】：How to handle Integer.MAX_VALUE in spark? [closed]如何在火花中处理 Integer.MAX_VALUE？ [关闭]
【发布时间】：2016-06-23 13:22:08
【问题描述】：

我想知道为什么随机森林分类不支持 Spark 中的大量观察。如果我给超过 7500 我得到了

org.apache.spark.SparkException：作业因阶段失败而中止：阶段 4.0 中的任务 0 失败 1 次，最近一次失败：阶段 4.0 中丢失任务 0.0（TID 7，本地主机）：java.lang.IllegalArgumentException：大小超过 Integer.MAX_VALUE

【问题讨论】：

您能否提供一个可重现的示例。为什么您的代码失败的原因很明显，可能的解决方案因上下文而异。
你要我提供用过的数据集还是什么？
不，但代码很有用。查看关闭的原因。

标签： java apache-spark machine-learning dataset random-forest

【解决方案1】：

这是由于 Spark 的限制。 spark中块的底层抽象是一个ByteBuffer，它将块的大小限制为2GB。这不仅对使用中的托管块有影响，而且对洗牌块也有影响。这是火花在非平凡数据集上使用时的问题。

【讨论】：

这个有没有解决办法
暂时没有。