【问题标题】:Spark sql group by and sum changing column name?Spark sql分组和总和更改列名?
【发布时间】:2018-10-11 10:07:27
【问题描述】:

在这个数据框中,我找到了每个组的总工资。在 Oracle 中,我会使用此代码

select job_id,sum(salary) as "Total" from hr.employees group by job_id;

在 Spark SQL 中尝试过同样的方法,我面临两个问题

empData.groupBy($"job_id").sum("salary").alias("Total").show()
  1. 别名总计未显示,而是显示“sum(salary)”列
  2. 我无法使用$(我认为是Scala SQL 语法)。遇到编译问题

     empData.groupBy($"job_id").sum($"salary").alias("Total").show()
    

有什么想法吗?

【问题讨论】:

标签: scala apache-spark


【解决方案1】:

如果您想提供别名,请使用聚合函数 .agg()。这接受 scala 语法 ($" ")

empData.groupBy($"job_id").agg(sum($"salary") as "Total").show()

如果您不想使用.agg(),也可以使用.select()提供别名:

empData.groupBy($"job_id").sum("salary").select($"job_id", $"sum(salary)".alias("Total")).show()

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-09-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多