【发布时间】:2020-05-15 02:03:56
【问题描述】:
我在 PySpark 中有一个更大的数据集,想要计算每列的 None/NaN 值的百分比,并将其存储在另一个名为 percent_missing 的数据框中。例如,如果以下是输入数据框:
df = sc.parallelize([
(0.4, 0.3),
(None, None),
(9.7, None),
(None, None)
]).toDF(["A", "B"])
我希望输出是一个数据框,其中“A”列包含值 0.5,“B”列包含值 0.75。
我正在寻找这样的东西:
for column_ in my_columns:
amount_missing = df[df[column_] == None].count().div(len(df)) * 100
如果有一个库具有执行此操作的功能,我也很乐意使用它。
【问题讨论】:
-
不,实际上我是反过来问的。计算 NaN 条目的数量。不是非 NaN 条目。
标签: python apache-spark pyspark data-cleaning data-processing