Spark 数据框未使用工作人员答案

【问题标题】：Spark data frame is not utilizing the workersSpark 数据框未使用工作人员
【发布时间】：2020-08-13 14:07:21
【问题描述】：

我有一个带有 3 个工作节点的 spark 集群，当我尝试从 hdfs 加载 csv 文件时，它只利用我通过 spark-shell 加载 csv 的系统上的资源（cpu 和内存）（使用的主节点）

加载数据帧

val df = spark.read.format("csv")
.option("header","true")
.load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv")

对数据框做一些操作

df.agg(sum("failure")).show

当我加载 csv 时，系统内存增加了 1.3 GB，这是 hdfs 文件大小和 100 % CPU 使用率。工作人员的 CPU 空闲率接近 0%，并且没有内存使用量变化。理想情况下，我希望所有繁重的工作都由工人完成，而这并没有发生。

【问题讨论】：

【解决方案1】：

将 spark 模式设置为可以解决您的问题的集群。看起来您的作业正在客户端模式下运行。

【讨论】：

我该怎么做，请您指出资源。
您可以搜索 Spark 执行模式 - 我发现以下链接很有帮助 techvidvan.com/tutorials/spark-modes-of-deployment