【发布时间】:2020-10-01 00:19:30
【问题描述】:
我有以下数据框,我正在尝试对其进行分组和聚合数据。
Column_1 Column_2 Column_3
A N1 P1
A N2 P2
A N3 P3
B N1 P1
C N1 P1
C N2 P2
所需输出:
Column_1 Column_2 Column_3
A N1,N2,N3 P1,P2,P3
B N1 P1
C N1,N2 P1,P2
我可以通过使用 partition 和 groupby 创建一个窗口来处理一列。 然后我在窗口上使用收集列表和分组并聚合以获取一列。这适用于一列。
如何在 2 列中执行相同的操作。请帮忙
【问题讨论】:
标签: python dataframe apache-spark pyspark