【发布时间】:2019-07-04 08:28:58
【问题描述】:
我正在尝试查看 parquet 文件,并希望显示一列的不同值的数量以及在其中找到它的行数。
等效的 SQL 是:
select distinct(last_name), count(*) from optimization.opt_res group by (last_name)
在 scala-spark 中(分别显示):
val dataFrame = sparkSession.read.parquet(fname)
dataFrame.show(truncate = false)
val disID = dataFrame.select("last_name").distinct()
disID.show(false)
val disCount = disID.count
我想让它显示
+-----------+-------+
| last_name | count |
+-----------+-------+
| Alfred | 202 |
| James | 1020 |
+-----------+-------+
【问题讨论】:
标签: scala apache-spark apache-spark-sql