【问题标题】:Dealing with Missing Values for one Variable in R处理 R 中一个变量的缺失值
【发布时间】:2021-08-10 10:57:24
【问题描述】:

我目前正在处理一个缺少值的数据集,但它们只缺少一个变量。我试图确定它们是否随机丢失,以便我可以简单地将它们从数据框中删除。因此,我试图找到数据框中的 NA 与其他变量的值之间的潜在相关性。我在网上找到了如下代码:

library("VIM")
data(sleep)
x <- as.data.frame(abs(is.na(sleep)))
head(sleep)
head(x)
y <- x[which(sapply(x, sd) > 0)]
cor(y)

但是,这仅向您展示了缺失值本身是如何相关的,以防它们分布在所有变量中。

有没有办法找到数据框中缺失值之间的相关性,而不是一个变量的缺失值与另一个变量的值之间的相关性?例如,如果您有一项调查可以选择询问家庭收入,您如何确定缺失值是否为例如与R的低收入相关?

【问题讨论】:

  • 无法在数据上检验是否满足 MAR 假设。
  • 那你怎么知道你是否可以删除缺失值,因为它们与其他变量相关?
  • 这里是一个简短的阅读:stats.stackexchange.com/a/292075/163114

标签: r dataframe statistics data-analysis


【解决方案1】:
library(finalfit)
library(dplyr)

df <- data.frame(
  A = c(1,2,4,5),
  B = c(55,44,3,6),
  C = c(NA, 4, NA, 5)
)

df %>%
  missing_pairs("A", "C")

【讨论】:

    猜你喜欢
    • 2013-05-21
    • 1970-01-01
    • 1970-01-01
    • 2015-10-23
    • 1970-01-01
    • 2014-04-27
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多