【问题标题】:Check if string contains anything other than items in vector [R]检查字符串是否包含向量 [R] 中的项目以外的任何内容
【发布时间】:2020-06-07 20:25:45
【问题描述】:

我有一个包含一列字符串的数据框。我想检查每个字符串中的任何元素是否与一个或多个预定义向量中的任何元素匹配,然后返回一个新的逻辑列。使用grepl() 很容易做到这一点。

但是(这是我需要帮助的部分),我还想检查字符串是否包含任何元素 other 而不是关键字向量中包含的元素。

示例数据:

matchvector1 <- c("Apple","Banana","Orange")
matchvector2 <- c("Strawberry","Kiwi","Grapefruit")

id <- c(1,2,3)
string_column <- c(paste0(c("Apple","Banana"),collapse=", "), paste0(c("Strawberry","Kiwi"), collapse = ", "), paste0(c("Apple","Pineapple"), collapse = ", "))
df <- data.frame(id, string_column)
df$string_column <- as.character(df$string_column)

matches_vector1 <- grepl(paste(matchvector1, collapse = "|"), df$string_column)
matches_vector2 <- grepl(paste(matchvector2, collapse = "|"), df$string_column)

输出应该类似于:

matches_vector1: TRUE FALSE TRUE
matches_vector2: FALSE TRUE FALSE
unmatched_words: FALSE FALSE TRUE

我被困在最后一部分。有没有一种简单的方法可以使用grepl()(或其他函数)匹配关键字列表中的任何内容except?我怀疑它会以某种方式涉及使用负面环视,但现有的几个线程似乎没有回答我的问题。

【问题讨论】:

    标签: r grepl


    【解决方案1】:

    一种选择是将'string_column'与separate_rows分开,按'id'分组,检查'string_column'%in%串联向量中是否没有any元素

    library(dplyr)
    library(tidyr)
    df %>%
       separate_rows(string_column) %>%
       group_by(id) %>% 
       summarise(unmatched = any(!string_column %in% c(matchvector1, matchvector2)) )
    # A tibble: 3 x 2
    #     id unmatched
    #* <dbl> <lgl>    
    #1     1 FALSE    
    #2     2 FALSE    
    #3     3 TRUE     
    

    base R

    lengths(sapply(strsplit(df$string_column, ",\\s*"), 
          setdiff, c(matchvector1, matchvector2))) > 0
    #[1] FALSE FALSE  TRUE
    

    【讨论】:

    • 太棒了!感谢您也包括基础 R。我什至不知道 invert 参数(我的错是没有充分阅读文档)。谢谢@akrun
    猜你喜欢
    • 2016-01-26
    • 1970-01-01
    • 1970-01-01
    • 2012-06-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-11-15
    相关资源
    最近更新 更多