【问题标题】:Spark data frame is not utilizing the workersSpark 数据框未使用工作人员
【发布时间】:2020-08-13 14:07:21
【问题描述】:

我有一个带有 3 个工作节点的 spark 集群,当我尝试从 hdfs 加载 csv 文件时,它只利用我通过 spark-shell 加载 csv 的系统上的资源(cpu 和内存)(使用的主节点)

加载数据帧

val df = spark.read.format("csv")
.option("header","true")
.load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv")

对数据框做一些操作

df.agg(sum("failure")).show

当我加载 csv 时,系统内存增加了 1.3 GB,这是 hdfs 文件大小和 100 % CPU 使用率。工作人员的 CPU 空闲率接近 0%,并且没有内存使用量变化。理想情况下,我希望所有繁重的工作都由工人完成,而这并没有发生。

【问题讨论】:

    标签: scala apache-spark apache-spark-sql


    【解决方案1】:

    将 spark 模式设置为可以解决您的问题的集群。看起来您的作业正在客户端模式下运行。

    【讨论】:

    猜你喜欢
    • 2021-02-07
    • 1970-01-01
    • 2013-06-14
    • 1970-01-01
    • 2020-07-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多