【发布时间】:2021-08-12 18:35:01
【问题描述】:
我需要将以下python代码转换成pyspark。
df['GRN_ratio'] = df['GRN Quantity']/ df.groupby(['File No','Delivery Note Number'])['GRN
Quantity'].transform(sum)
为此,我正在使用以下 Pyspark 代码。但我没有得到预期的输出。
df.groupby(['File No','Delivery Note Number']).agg(F.sum('GRN Quantity').alias('GRN_Sum')))
.withColumn("GRN_ratio", F.col("GRN Quantity")/F.col("GRN_Sum"))
【问题讨论】:
标签: python apache-spark pyspark group-by aggregate-functions