【问题标题】:Removing outliers from the dataset using which function in R使用 R 中的哪个函数从数据集中删除异常值
【发布时间】:2021-06-15 08:54:30
【问题描述】:

我有一个包含多个物种的数据集,每个物种都有多个个体。列格式如下:

    S Ind    X  Y
    A 1     ax1 ay1
    A 2     ax2 ay2
    B 1     bx1 by1 

我想为每个物种绘制一个 x-y 图,从 X 和 Y 两列中删除任何异常值。 我用过

`outliers<- boxplot(df$X plot=F)$out` 

从 2 列中识别我的异常值。我还应用了一个 for 循环,它为每个物种计算这个。从我正在使用的数据集中删除它们

df2<- df[-which(df$X %in% outliers),]

当没有识别出异常值或由于样本量小而无法计算时,就会出现问题。在这种情况下, ouliers 为空,因此 df2 作为空数据帧返回。 有人可以帮助我了解我还能如何实现这一目标吗?

【问题讨论】:

  • 如果异常值向量为空,则不要删除任何内容。您可以使用 if 语句来执行此操作。但是您也可以通过仅过滤与平均值接近(1.96 SE 或 2.51 SE)的元素来计算没有箱线图的异常值。这应该很容易。

标签: r outliers


【解决方案1】:

取反 %in% 值以删除异常值。

df2<- df[!df$X %in% outliers,]

例如,mtcars 数据集 -

mtcars[!mtcars$cyl %in% c(4, 6), ]

#                     mpg cyl  disp  hp drat    wt  qsec vs am gear carb
#Hornet Sportabout   18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
#Duster 360          14.3   8 360.0 245 3.21 3.570 15.84  0  0    3    4
#Merc 450SE          16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
#Merc 450SL          17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
#Merc 450SLC         15.2   8 275.8 180 3.07 3.780 18.00  0  0    3    3
#Cadillac Fleetwood  10.4   8 472.0 205 2.93 5.250 17.98  0  0    3    4
#Lincoln Continental 10.4   8 460.0 215 3.00 5.424 17.82  0  0    3    4
#Chrysler Imperial   14.7   8 440.0 230 3.23 5.345 17.42  0  0    3    4
#Dodge Challenger    15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
#AMC Javelin         15.2   8 304.0 150 3.15 3.435 17.30  0  0    3    2
#Camaro Z28          13.3   8 350.0 245 3.73 3.840 15.41  0  0    3    4
#Pontiac Firebird    19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
#Ford Pantera L      15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
#Maserati Bora       15.0   8 301.0 335 3.54 3.570 14.60  0  1    5    8

使用这种方法,当值不存在时,它会返回所有行。

mtcars[!mtcars$cyl %in% 5, ]

【讨论】:

    【解决方案2】:

    我们可以在base R中使用subset

    subset(mtcars, !cyl %in% c(4, 6))
    

    【讨论】:

      猜你喜欢
      • 2015-12-24
      • 1970-01-01
      • 2011-06-14
      • 2018-12-16
      • 2017-04-24
      • 1970-01-01
      • 2016-08-17
      • 2018-07-29
      相关资源
      最近更新 更多