【发布时间】:2021-09-13 13:38:41
【问题描述】:
我想用 Spark 在 Azure Hd Insight 集群中处理一个 250gb gzip(filename.json.gzip) 文件。但我做不到。
我猜是因为核心、内存、vCPU 之间的关系不好,所以我想知道要创建的更好的集群和要发送的 Spark 配置。
目前我正在使用这个实例:
- 集群 E8a v4 的 6 个节点(8 核,64 GB RAM)
我的 Spark 配置是:
- 驱动程序内存:10Gb
- 驱动核心数:7
- 执行程序内存:10Gb
- 执行器核心:7 个
- 执行者数量:7
那么,在 Azure HDInsight 群集 (Link To the all avaiable clusters i can create) 和 Spark 提交配置中有更好的选择吗?
【问题讨论】:
标签: azure apache-spark pyspark azure-hdinsight