【问题标题】:Cluster Creation HdInsight and Cores Asignation. Tunning apache spark submit集群创建 HdInsight 和核心分配。调整 apache spark 提交
【发布时间】:2021-09-13 13:38:41
【问题描述】:

我想用 Spark 在 Azure Hd Insight 集群中处理一个 250gb gzip(filename.json.gzip) 文件。但我做不到。

我猜是因为核心、内存、vCPU 之间的关系不好,所以我想知道要创建的更好的集群和要发送的 Spark 配置。

目前我正在使用这个实例:

  • 集群 E8a v4 的 6 个节点(8 核,64 GB RAM)

我的 Spark 配置是:

  • 驱动程序内存:10Gb
  • 驱动核心数:7
  • 执行程序内存:10Gb
  • 执行器核心:7 个
  • 执行者数量:7

那么,在 Azure HDInsight 群集 (Link To the all avaiable clusters i can create) 和 Spark 提交配置中有更好的选择吗?

【问题讨论】:

    标签: azure apache-spark pyspark azure-hdinsight


    【解决方案1】:

    Apache Spark 作业的性能取决于多种因素。这些性能因素包括:数据的存储方式、集群的配置方式以及处理数据时使用的操作。

    您可能面临的常见挑战包括:由于执行程序大小不当导致的内存限制、长时间运行的操作以及导致笛卡尔运算的任务。

    还有许多优化可以帮助您克服这些挑战,例如缓存和允许数据倾斜。

    更多详情,请参考Optimize Apache Spark jobs in HDInsight

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-06-02
      • 1970-01-01
      • 2017-08-24
      • 1970-01-01
      • 2015-10-10
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多