优化 EMR 集群上的 GC答案

【问题标题】：Optimizing GC on EMR cluster优化 EMR 集群上的 GC
【发布时间】：2016-12-07 23:56:30
【问题描述】：

我正在 EMR 上运行一个用 Scala 编写的 Spark 作业，每个执行器的标准输出都充满了 GC 分配失败。

2016-12-07T23:42:20.614+0000: [GC (Allocation Failure) 2016-12-07T23:42:20.614+0000: [ParNew: 909549K->432K(1022400K), 0.0089234 secs] 2279433K->1370373K(3294336K), 0.0090530 secs] [Times: user=0.11 sys=0.00, real=0.00 secs] 
2016-12-07T23:42:21.572+0000: [GC (Allocation Failure) 2016-12-07T23:42:21.572+0000: [ParNew: 909296K->435K(1022400K), 0.0089298 secs] 2279237K->1370376K(3294336K), 0.0091147 secs] [Times: user=0.11 sys=0.01, real=0.00 secs] 
2016-12-07T23:42:22.525+0000: [GC (Allocation Failure) 2016-12-07T23:42:22.525+0000: [ParNew: 909299K->485K(1022400K), 0.0080858 secs] 2279240K->1370427K(3294336K), 0.0082357 secs] [Times: user=0.12 sys=0.00, real=0.01 secs] 
2016-12-07T23:42:23.474+0000: [GC (Allocation Failure) 2016-12-07T23:42:23.474+0000: [ParNew: 909349K->547K(1022400K), 0.0090641 secs] 2279291K->1370489K(3294336K), 0.0091965 secs] [Times: user=0.12 sys=0.00, real=0.00 secs]

我正在读取几 TB 的数据（主要是字符串），所以我担心不断的 GC 会减慢处理时间。
我将不胜感激有关如何理解此消息以及如何优化 GC 以使其消耗最少 CPU 时间的任何指示。

【问题讨论】：

这是由于以下配置而出现的：“spark.executor.memory”：“xg”。为了删除此尝试并包含 spark.executor.memory（如果尚未包含），否则会增加该值直到它消失。就我而言，我将其设置为 24g。干杯！

标签： apache-spark garbage-collection jvm emr amazon-emr

【解决方案1】：

分配失败是启动GC循环的正常和最常见的原因。

日志告诉我们 GC 每秒发生一次，大约需要 10ms，即 1% 的时间。 IMO，这里没有什么可以优化的。

【讨论】：