【发布时间】:2020-08-11 08:52:15
【问题描述】:
尝试为 A 列和 B 列的不同值提取具有最新日期的记录(如下)
理想结果:
当前解决方案:
from pyspark.sql import functions as f
test = df.groupBy(df['A'], df['B']).agg(f.first(df['C']), f.first(df['D']), f.max(df['E']))
有什么漏洞可以寻找或优化以上的建议吗?
【问题讨论】:
-
是熊猫的df吗?试试这个:
test = df.groupBy(["A", "B"]).agg(cFirst=("C", "first"), dFirst=("C", "first"), cFirst=("C", "max"))不完全确定你是否也在 pyspark 中加载了 df..
标签: python apache-spark pyspark apache-spark-sql