【问题标题】:How to handle Integer.MAX_VALUE in spark? [closed]如何在火花中处理 Integer.MAX_VALUE? [关闭]
【发布时间】:2016-06-23 13:22:08
【问题描述】:

我想知道为什么随机森林分类不支持 Spark 中的大量观察。如果我给超过 7500 我得到了

org.apache.spark.SparkException:作业因阶段失败而中止:阶段 4.0 中的任务 0 失败 1 次,最近一次失败:阶段 4.0 中丢失任务 0.0(TID 7,本地主机):java.lang.IllegalArgumentException:大小超过 Integer.MAX_VALUE

【问题讨论】:

  • 您能否提供一个可重现的示例。为什么您的代码失败的原因很明显,可能的解决方案因上下文而异。
  • 你要我提供用过的数据集还是什么?
  • 不,但代码很有用。查看关闭的原因。

标签: java apache-spark machine-learning dataset random-forest


【解决方案1】:

这是由于 Spark 的限制。 spark中块的底层抽象是一个ByteBuffer,它将块的大小限制为2GB。 这不仅对使用中的托管块有影响,而且对洗牌块也有影响。这是火花在非平凡数据集上使用时的问题。

【讨论】:

  • 这个有没有解决办法
  • 暂时没有。
猜你喜欢
  • 2020-04-15
  • 1970-01-01
  • 1970-01-01
  • 2020-12-11
  • 2018-09-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多