【发布时间】:2020-08-13 14:07:21
【问题描述】:
我有一个带有 3 个工作节点的 spark 集群,当我尝试从 hdfs 加载 csv 文件时,它只利用我通过 spark-shell 加载 csv 的系统上的资源(cpu 和内存)(使用的主节点)
加载数据帧
val df = spark.read.format("csv")
.option("header","true")
.load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv")
对数据框做一些操作
df.agg(sum("failure")).show
当我加载 csv 时,系统内存增加了 1.3 GB,这是 hdfs 文件大小和 100 % CPU 使用率。工作人员的 CPU 空闲率接近 0%,并且没有内存使用量变化。理想情况下,我希望所有繁重的工作都由工人完成,而这并没有发生。
【问题讨论】:
标签: scala apache-spark apache-spark-sql