【发布时间】:2017-03-22 17:56:02
【问题描述】:
我有一个使用 Spark 1.0.1 的包含 4 个节点(每个节点有 16 个核心)的集群。
我有一个已重新分区的 RDD,因此它有 200 个分区(希望增加并行度)。
当我对此 RDD 进行转换(例如过滤器)时,我似乎无法同时处理超过 64 个任务(我跨 4 个节点的内核总数)。任务是指在应用程序 Spark UI 下显示的任务数。我尝试将 spark.default.parallelism 显式设置为 128(希望我能同时运行 128 个任务),并在正在运行的应用程序的应用程序 UI 中验证了这一点,但这没有任何效果。也许,对于“过滤器”,这将被忽略,默认值是可用内核的总数。
我对 Spark 还很陌生,所以我可能只是缺少或误解了一些基本的东西。任何帮助将不胜感激。
【问题讨论】:
标签: apache-spark