为什么我在使用 spark+cassandra 时出现错误：“大小超过 Integer.MAX_VALUE”？答案

【问题标题】：why I got the error: "Size exceed Integer.MAX_VALUE" when using spark+cassandra?为什么我在使用 spark+cassandra 时出现错误：“大小超过 Integer.MAX_VALUE”？
【发布时间】：2016-06-22 03:59:17
【问题描述】：

我有 7 个 cassandra 节点 (5 nodes with 32 cores and 32G memory, and 4 nodes with 4 cores and 64G memory)，并在此集群上部署了 spark 工作程序，并且 spark 的主节点位于 8th node 中。我为他们使用了spark-cassandra-connector。现在我的 cassandra 有近 10 亿条记录和 30 个字段，我编写了包含以下 sn-p 的 scala：

def startOneCache(): DataFrame = {
val conf = new SparkConf(true)
  .set("spark.cassandra.connection.host", "192.168.0.184")
  .set("spark.cassandra.auth.username", "username")
  .set("spark.cassandra.auth.password", "password")
  .set("spark.driver.maxResultSize", "4G")
  .set("spark.executor.memory", "12G")
  .set("spark.cassandra.input.split.size_in_mb","64")

val sc = new SparkContext("spark://192.168.0.131:7077", "statistics", conf)
val cc = new CassandraSQLContext(sc)
val rdd: DataFrame = cc.sql("select user_id,col1,col2,col3,col4,col5,col6
,col7,col8 from user_center.users").limit(100000192)
val rdd_cache: DataFrame = rdd.cache()

rdd_cache.count()
return rdd_cache
}

在spark的master中我使用spark-submit运行上面的代码，当执行语句：rdd_cache.count()时，我在一个工作节点中得到了一个ERROR：192.168.0.185：

16/03/08 15:38:57 INFO ShuffleBlockFetcherIterator: Started 4 remote fetches in 221 ms
16/03/08 15:43:49 WARN MemoryStore: Not enough space to cache rdd_6_0 in memory! (computed 4.6 GB so far)
16/03/08 15:43:49 INFO MemoryStore: Memory use = 61.9 KB (blocks) + 4.6 GB (scratch space shared across 1 tasks(s)) = 4.6 GB. Storage limit = 6.2 GB.
16/03/08 15:43:49 WARN CacheManager: Persisting partition rdd_6_0 to disk instead.
16/03/08 16:13:11 ERROR Executor: Managed memory leak detected; size = 4194304 bytes, TID = 24002
16/03/08 16:13:11 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 24002)
java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE

我只是认为最后的错误Size exceeds Integer.MAX_VALUE是由它之前的warn：16/03/08 15:43:49 WARN MemoryStore: Not enough space to cache rdd_6_0 in memory! (computed 4.6 GB so far)引起的，但我不知道为什么，或者我是否应该设置大于.set("spark.executor.memory", "12G")，我应该怎么做才能纠正这个？

【问题讨论】：

标签： apache-spark spark-cassandra-connector cassandra-2.1

【解决方案1】：

No Spark shuffle block can be greater than 2 GB.

Spark 使用ByteBuffer 作为存储块的抽象，其大小受Integer.MAX_VALUE（20 亿）的限制。

分区数少会导致 shuffle 块大小变大。要解决此问题，请尝试使用rdd.repartition() 或rdd.coalesce() 或增加分区数。

如果这没有帮助，则意味着您的至少一个分区仍然太大，您可能需要使用一些更复杂的方法来使其更小 - 例如使用随机性来均衡各个分区之间的 RDD 数据分布分区。

【讨论】：

虽然这是一个正确的答案，但一些解释会很有用。
Rado Buransky，谢谢！我应该怎么做才能获得当前 rdd 中有多少个分区？在我的 spark UI 中，总任务是23660，这是当前的分区数，如果是，我应该设置多少个分区来解决这个错误？
@abelard2008 试试这个：databricks.gitbooks.io/databricks-spark-knowledge-base/content/…
Rado Buransky，谢谢！从链接中，我可以通过rdd.toJavaRDD.partitions.size() 获取数字（我的rdd 类型是DataFrame，所以我使用`rdd.toJavaRDD），但是我应该怎么做才能为我的案例设置多少个分区？
@abelard2008 我认为您找不到一般规则。您必须了解数据的性质。在幻灯片中，您会发现一个好的经验法则是分区大小约为 128 MB。所以可能你需要做一个专家猜测。