【发布时间】:2020-02-03 09:44:15
【问题描述】:
我有以下格式的 csv 数据。
我需要找到 2017 年营业额超过 100 的前 2 供应商。
Turnover= Sum(Invoices which status is Paid-in-Full ) - Sum(Invoices 其状态为 Exception 或 Rejected)
我已经在 datebricks scala notebook 中加载了来自 csv 的数据,如下所示:
val invoices_data = spark.read.format(file_type)
.option("header", "true")
.option("dateFormat", "M/d/yy")
.option("inferSchema", "true")
.load("invoice.csv")
然后我尝试按供应商名称进行分组
val avg_invoice_by_vendor = invoices_data.groupBy("VendorName")
但现在我不知道该怎么做。
这是示例 csv 数据。
Id InvoiceDate Status Invoice VendorName
2 2/23/17 Exception 23 V1
3 11/23/17 Paid-in-Full 56 V1
1 12/20/17 Paid-in-Full 12 V1
5 8/4/19 Paid-in-Full 123 V2
6 2/6/17 Paid-in-Full 237 V2
9 3/9/17 Rejected 234 V2
7 4/23/17 Paid-in-Full 78 V3
8 5/23/17 Exception 345 V4
【问题讨论】:
标签: scala dataframe apache-spark-sql azure-databricks