【发布时间】:2016-09-05 09:57:48
【问题描述】:
我正在使用 Hortnworks (HDP 2.4) 设置集群。我有一个 4 个节点集群,每个集群都有(16Gb-RAM,8 个 CPU)。为了使用 python (pyspark),我还安装了 Spark 和 Zeppelin Notebook。
我的问题是:我从 3 个节点的配置开始,后来我添加了另一个新节点(如前所述总共 4 个),无论如何 Spark 上的执行器数量仍然是“3”。
我在网上看到执行器的数量可以在SPARK_EXECUTOR_INSTANCES 中设置,但是这个参数只存在于Ambari UI 中Spark 配置页面的spark-env template 中。似乎它要求 YARN 关于执行者的决定,但在 YARN 中我没有找到任何关于此的信息。
确切地说,如何使用 Ambari 增加 Hortonworks Hadoop 集群中的执行程序数量?
【问题讨论】:
-
你在使用 Spark 和 YARN 集群管理器
-
我认为是的...如何检查此配置?
-
您可以通过两种方式将“spark.dynamicAllocation.enabled”设置为 true 或将执行程序实例的数量“spark.executor.instances”设置为您想要的某个数字
-
在哪里可以找到这些选项?如前所述,我仅在“spark-env 模板”中看到它们,并且该模板表示这些选项是在 YARN 客户端模式下读取的。
标签: python hadoop apache-spark hadoop-yarn apache-zeppelin