【问题标题】:remove row with nan value删除具有 nan 值的行
【发布时间】:2011-08-23 03:23:07
【问题描述】:

比如说,我有这个数据:

data <- c(1,2,3,4,5,6,NaN,5,9,NaN,23,9)
attr(data,"dim") <- c(6,2)
data

     [,1] [,2]
[1,]    1  NaN
[2,]    2    5
[3,]    3    9
[4,]    4  NaN
[5,]    5   23
[6,]    6    9

现在我想删除其中包含 NaN 值的行:第 1 行和第 4 行。 但我不知道这些行在哪里,如果它是 100.000+ 行的数据集,所以我需要用函数找到它们并删除完整的行。

谁能指出我正确的方向?

【问题讨论】:

标签: r nan data-manipulation


【解决方案1】:

函数complete.cases 会告诉你需要的行在哪里:

data <- matrix(c(1,2,3,4,5,6,NaN,5,9,NaN,23,9), ncol=2)
data[complete.cases(data), ]

     [,1] [,2]
[1,]    2    5
[2,]    3    9
[3,]    5   23
[4,]    6    9

【讨论】:

    【解决方案2】:

    数据

    data <- matrix(rnorm(100000000), ncol=10000)
    idx <- sample(1:10000,100)
    idy <- sample(1:10000,100)
    data[idx,idy] <- NaN
    

    功能

    foo <- function(d=data) d[apply(d,2,function(x) any(is.nan(x))),]
    

    运行时间

    > system.time(data[complete.cases(data),])
       user  system elapsed 
       3.53    0.12    3.65 
    
    > system.time(foo(data))
       user  system elapsed 
       2.37    0.09    2.46 
    

    【讨论】:

    • 不应该是d[!apply(d,1,function(x) any(is.nan(x))), ] 吗? (使用“1”作为维度而不是“2”,并使用“!”仅获取没有 NaN 的行?)