基于行内容的高选择性过滤答案

【问题标题】：Highly selective filtering based on row contents基于行内容的高选择性过滤
【发布时间】：2022-01-21 06:56:52
【问题描述】：

我有一个数据集（相当凌乱 - 但不是我的工作......帮助同事），它具有多行值，其中一些行在一列中重复，但其他列因某些元素添加了“*”而有所不同。重复如下：-

a <- c("2020", "Rose", "r","r","s","s","i","i","r")
b <- c("2020", "Rose","r*","r*","s*","s*","s*","s*","s*")
c <- c("2020", "Lily","r","r","s","s","i","i","r")
d <- c("2020", "Tulip","r*","r*","r*","r*","s*","r*","r*")
e <- c("2020", "Tulip","s","s","r","s","s","r","r")

data <- rbind(a,b,c,d,e)

所以我的数据框看起来像这样......

  [,1]   [,2]    [,3] [,4] [,5] [,6] [,7] [,8] [,9]
a "2020" "Rose"  "r"  "r"  "s"  "s"  "i"  "i"  "r" 
b "2020" "Rose"  "r*" "r*" "s*" "s*" "s*" "s*" "s*"
c "2020" "Lily"  "r"  "r"  "s"  "s"  "i"  "i"  "r" 
d "2020" "Tulip" "r*" "r*" "r*" "r*" "s*" "r*" "r*"
e "2020" "Tulip" "s"  "s"  "r"  "s"  "s"  "r"  "r"

我需要删除第 2 列中重复的行（“Rose”、“Lily”等），并选择性地保留带有 * 的行，使其看起来像这样......

  [,1]   [,2]    [,3] [,4] [,5] [,6] [,7] [,8] [,9]
b "2020" "Rose"  "r*" "r*" "s*" "s*" "s*" "s*" "s*"
c "2020" "Lily"  "r"  "r"  "s"  "s"  "i"  "i"  "r" 
d "2020" "Tulip" "r*" "r*" "r*" "r*" "s*" "r*" "r*"

我觉得与 lapply 捆绑在一起的功能可能是正确的方法，但不知道如何继续！ - 任何想法

【问题讨论】：

是否会出现没有重复项中有 * 或多个重复项的情况？这些情况下的规则是什么？
我的理解是应该只有 1 个重复项（即：它们是对的），一个有 * 一个没有。
那么逻辑是：如果只有1个就保留它。如果有两个保留一个带*？

标签： r filtering apply

【解决方案1】：

你可以试试这个。对于第二个条件 (*s)，它只检查第三列，因为它们似乎是全部或全部。

tbl <- table( data[,2] )
rmv <- names( tbl[ tbl > 1 ] )

data[ !( data[,2] %in% rmv & !grepl("\\*",data[,3])), ]
  [,1]   [,2]    [,3] [,4] [,5] [,6] [,7] [,8] [,9]
b "2020" "Rose"  "r*" "r*" "s*" "s*" "s*" "s*" "s*"
c "2020" "Lily"  "r"  "r"  "s"  "s"  "i"  "i"  "r"
d "2020" "Tulip" "r*" "r*" "r*" "r*" "s*" "r*" "r*"

如果它必须基于任何 *（至少一个）进行选择，请使用此

data[ !( data[,2] %in% rmv & apply( data[,3:9], 1, function(x) 
  any(!grepl("\\*",x)) )), ]
  [,1]   [,2]    [,3] [,4] [,5] [,6] [,7] [,8] [,9]
b "2020" "Rose"  "r*" "r*" "s*" "s*" "s*" "s*" "s*"
c "2020" "Lily"  "r"  "r"  "s"  "s"  "i"  "i"  "r"
d "2020" "Tulip" "r*" "r*" "r*" "r*" "s*" "r*" "r*"

【讨论】：

1. 调用两次表效率相当低，我会调用一次并使用一个对象。 2. 为什么要在括号周围使用奇怪的空格？
@jay.sf 公平点，添加了更改。虽然在任何循环之外，我有时会出于演示目的做类似的事情。

【解决方案2】：

首先，您谈论的是数据框，但到目前为止，您使用的是矩阵。所以我们先做一个数据框。

df <- as.data.frame(data)

其次，我们可以使用by()，它的工作原理基本上类似于lapply(split(x, g), FUN)。作为拆分因子，我们使用前两列 1:2 并在每个切片上应用 grepl()。最后rbind()。

df <- by(df, df[1:2], \(x) {
  if (nrow(x) > 1) {
    x[grepl('\\*', x$V3), ]
  } else x}) |> (\(.) do.call(rbind, .))()

df
#     V1    V2 V3 V4 V5 V6 V7 V8 V9
# c 2020  Lily  r  r  s  s  i  i  r
# b 2020  Rose r* r* s* s* s* s* s*
# d 2020 Tulip r* r* r* r* s* r* r*

要清除行名，请添加：

|> `rownames<-`(NULL)

注意： R 版本 4.1.2 (2021-11-01)。

数据：

data <- structure(c("2020", "2020", "2020", "2020", "2020", "Rose", "Rose", 
"Lily", "Tulip", "Tulip", "r", "r*", "r", "r*", "s", "r", "r*", 
"r", "r*", "s", "s", "s*", "s", "r*", "r", "s", "s*", "s", "r*", 
"s", "i", "s*", "i", "s*", "s", "i", "s*", "i", "r*", "r", "r", 
"s*", "r", "r*", "r"), .Dim = c(5L, 9L), .Dimnames = list(c("a", 
"b", "c", "d", "e"), NULL))

【讨论】：

谢谢 jay.sf ...我不熟悉 by() - 看起来是个不错的解决方案
@Peter 每天一个新的vocabulary，那么你很快就会流利地使用 R ;)
意思是赞成而不是反对！！！我一定是点击了错误的东西
@Peter :D 感谢您的评论。如果真的是你，你现在可以改变它，我做了一个编辑来解锁它。我看到两张票，一张赞成票，一张反对票，而且可能是其他人。