【发布时间】:2017-07-20 16:44:20
【问题描述】:
我有下一个名为 df
的数据框ci ing de
21 20 100
22 19 0
23 NA 80
24 100 NA
25 NA 50
26 50 30
我想使用 spark 计算每列的缺失数。
我知道在 R 中这样的代码可以工作
apply(df, 2,
FUN = function (x)
{ sum(is.na(x)) } )
我也想这样做,但使用 spark
Spark 有一个名为 spark_apply 的函数,但我不知道如何使它工作。
【问题讨论】:
-
我会澄清“缺失”的含义。如果您要推断如何在 Spark 中计算 NULL 值,这里有一篇关于使用 NULL 的好文章。 stackoverflow.com/questions/41533290/…
-
对不起,我不明白
标签: apache-spark dplyr apply na missing-data