【发布时间】:2021-08-10 10:57:24
【问题描述】:
我目前正在处理一个缺少值的数据集,但它们只缺少一个变量。我试图确定它们是否随机丢失,以便我可以简单地将它们从数据框中删除。因此,我试图找到数据框中的 NA 与其他变量的值之间的潜在相关性。我在网上找到了如下代码:
library("VIM")
data(sleep)
x <- as.data.frame(abs(is.na(sleep)))
head(sleep)
head(x)
y <- x[which(sapply(x, sd) > 0)]
cor(y)
但是,这仅向您展示了缺失值本身是如何相关的,以防它们分布在所有变量中。
有没有办法找到数据框中缺失值之间的相关性,而不是一个变量的缺失值与另一个变量的值之间的相关性?例如,如果您有一项调查可以选择询问家庭收入,您如何确定缺失值是否为例如与R的低收入相关?
【问题讨论】:
-
无法在数据上检验是否满足 MAR 假设。
-
那你怎么知道你是否可以删除缺失值,因为它们与其他变量相关?
-
这里是一个简短的阅读:stats.stackexchange.com/a/292075/163114
标签: r dataframe statistics data-analysis