集群创建 HdInsight 和核心分配。调整 apache spark 提交答案

【问题标题】：Cluster Creation HdInsight and Cores Asignation. Tunning apache spark submit集群创建 HdInsight 和核心分配。调整 apache spark 提交
【发布时间】：2021-09-13 13:38:41
【问题描述】：

我想用 Spark 在 Azure Hd Insight 集群中处理一个 250gb gzip(filename.json.gzip) 文件。但我做不到。

我猜是因为核心、内存、vCPU 之间的关系不好，所以我想知道要创建的更好的集群和要发送的 Spark 配置。

目前我正在使用这个实例：

集群 E8a v4 的 6 个节点（8 核，64 GB RAM）

我的 Spark 配置是：

驱动程序内存：10Gb
驱动核心数：7
执行程序内存：10Gb
执行器核心：7 个
执行者数量：7

那么，在 Azure HDInsight 群集 (Link To the all avaiable clusters i can create) 和 Spark 提交配置中有更好的选择吗？

【问题讨论】：

标签： azure apache-spark pyspark azure-hdinsight

【解决方案1】：

Apache Spark 作业的性能取决于多种因素。这些性能因素包括：数据的存储方式、集群的配置方式以及处理数据时使用的操作。

您可能面临的常见挑战包括：由于执行程序大小不当导致的内存限制、长时间运行的操作以及导致笛卡尔运算的任务。

还有许多优化可以帮助您克服这些挑战，例如缓存和允许数据倾斜。

更多详情，请参考Optimize Apache Spark jobs in HDInsight。

【讨论】：