【问题标题】:Dataset in base R with missing values基础 R 中具有缺失值的数据集
【发布时间】:2015-10-29 19:31:33
【问题描述】:

R 中是否有任何包含缺失值的数据集示例?到目前为止,我一直在依次浏览每一个,并且还使用 google-nothing 进行了搜索。

library(MASS)
data()

编辑:我知道如何将缺失值添加到 R 中的数据集,我只想知道是否存在这样的数据集。

【问题讨论】:

  • 您可以轻松添加缺失值。 d[sample(1:length(d), n)] <- NA 添加 n 不适用。
  • 谢谢,我知道如何在 R 中添加缺失值,只是想知道是否有任何带有缺失值的真实数据集可以使用。
  • 在极端情况下,进行插补的包可能会有示例数据集。
  • @BondedDust,谢谢,我正在调查。

标签: r missing-data


【解决方案1】:

我会用 NA 创建自己的数值数据集。这是创建一个名为 df 的 10x10 data.frame 并将高于 80 的值替换为 NA 的一种方法。

df <- data.frame(matrix(data = sample(100,100,replace=TRUE), ncol = 10))
df[df>80] <- NA

另外,您可以使用 visdat 包直观地检查 NA。

library(visdat)
vis_miss(df)

【讨论】:

    【解决方案2】:

    airquality 在 base 中,其中包含一些 NA

    > summary(airquality)
         Ozone           Solar.R           Wind             Temp           Month            Day      
     Min.   :  1.00   Min.   :  7.0   Min.   : 1.700   Min.   :56.00   Min.   :5.000   Min.   : 1.0  
     1st Qu.: 18.00   1st Qu.:115.8   1st Qu.: 7.400   1st Qu.:72.00   1st Qu.:6.000   1st Qu.: 8.0  
     Median : 31.50   Median :205.0   Median : 9.700   Median :79.00   Median :7.000   Median :16.0  
     Mean   : 42.13   Mean   :185.9   Mean   : 9.958   Mean   :77.88   Mean   :6.993   Mean   :15.8  
     3rd Qu.: 63.25   3rd Qu.:258.8   3rd Qu.:11.500   3rd Qu.:85.00   3rd Qu.:8.000   3rd Qu.:23.0  
     Max.   :168.00   Max.   :334.0   Max.   :20.700   Max.   :97.00   Max.   :9.000   Max.   :31.0  
     NA's   :37       NA's   :7                                                                      
    

    【讨论】:

      【解决方案3】:

      VIM 包有一些很好的缺失数据的数据集示例。当我教授缺失值插补时,我使用该包中的睡眠数据集。

      【讨论】:

      • 谢谢,base R 怎么样?
      猜你喜欢
      • 1970-01-01
      • 2011-08-17
      • 1970-01-01
      • 2011-06-17
      • 2015-06-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多