【发布时间】:2022-12-07 07:03:02
【问题描述】:
我有一些数据有年、月、日、column_x。 column_x 可以缺失或不缺失。我要生成的是 column_x 的缺失率。为此,我尝试创建两列,其中包含总行号,即 total_count,以及代表 column_x == null 的计数列。
我正在尝试创建如下所示的内容:
total_count | count | year | month | date
60 | 20 | 2022 | 12 | 01
所以我以后可以做count / total_count来获得一些百分比。
但是,我不确定如何生成查询。
我尝试了子查询,但它抛出了一个错误。我如何通过 pyspark 或 sql 子查询实现这一点? (我也可以注册临时表并运行 sql 查询)
【问题讨论】: