【发布时间】:2025-12-27 10:25:16
【问题描述】:
我有一个如下所示格式的数据框,其中我们将有多个DEPNAME 条目,如下所示,我的要求是在DEPNAME 级别设置result = Y,如果flag_1 或flag_2= Y,如果标志即flag_1 和flag_2 = N,则结果将设置为N,如DEPNAME=personnel 所示
我能够使用连接获得所需的结果,但我很好奇我们是否可以使用窗口函数来实现它,因为数据集的大小非常大。
+---------+------+------+-+------+
| depName|flag_1|flag_2| result |
+---------+------+------+-+------+
| sales| N| Y | Y |
| sales| N| N | Y |
| sales| N| N | Y |
|personnel| N| N | N |
|personnel| N| N | N |
| develop| Y| N | Y |
| develop| N| N | Y |
| develop| N| N | Y |
| develop| N| N | Y |
| develop| N| N | Y |
+---------+-----+------+ +------+
【问题讨论】:
标签: python sql dataframe apache-spark pyspark