【发布时间】:2018-08-29 05:13:55
【问题描述】:
我对 PySpark 比较陌生。我一直在尝试缓存 30GB 的数据,因为我需要对其进行聚类。所以执行任何操作,如count
最初我得到了一些heap space issue。所以我用谷歌搜索,发现增加执行器/驱动程序的内存对我来说是可行的。所以,这是我目前的配置
SparkConf().set('spark.executor.memory', '45G')
.set('spark.driver.memory', '80G')
.set('spark.driver.maxResultSize', '10G')
但现在我得到了这个garbage collection issue。我检查了 SO,但到处的答案都很模糊。人们建议使用配置。有没有更好的方法来确定配置应该是什么?我知道这只是一个调试异常,我可以将其关闭。但是我还是想学一点数学来自己计算配置。
我目前使用的是 256GB RAM 的服务器。任何帮助表示赞赏。提前致谢。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql