【发布时间】:2022-11-16 06:02:22
【问题描述】:
鉴于此数据框:
+-----+-----+----+
|num_a|num_b| sum|
+-----+-----+----+
| 1| 1| 2|
| 12| 15| 27|
| 56| 11|null|
| 79| 3| 82|
| 111| 114| 225|
+-----+-----+----+
如果可以从其他列收集值,您将如何在 sum 列中填充 Null 值?在此示例中,值将是 56+11。
我已经用 udf 尝试过df.fillna,但这似乎不起作用,因为它只是获取列名而不是实际值。我只想计算具有缺失值的行的值,因此创建一个新列不是一个可行的选择。
【问题讨论】:
标签: apache-spark pyspark