从重复因子水平清洁字符观察答案

【问题标题】：Clean character observation from duplicate factor levels从重复因子水平清洁字符观察
【发布时间】：2017-03-29 16:05:49
【问题描述】：

情况如下：我有一列“a”属于字符类，包含许多整数。每个整数代表一个类别。我想知道每个观察都包含哪些独特的级别。 b 列代表期望的结果：清除重复项，但代表每个唯一级别。我想知道的是如何清理a列，使其看起来像b列。我需要实现 60k 行的解决方案。

                                                       a          b
1 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5 |   4, 5
2                            2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2 |   2
3           86, 86, 86, 86, 86, 37, 37, 37, 37, 37, 37, 8, 8 |   86, 37, 8   

a <- c("4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5, 4, 5", "2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2", "86, 86, 86, 86, 86, 37, 37, 37, 37, 37, 37, 8, 8")
b <- c("4, 5", "2", "86, 37, 8")
df <- data.frame(a, b)

我已经阅读了一些关于删除重复因子值的帖子，但是您可以自己尝试一下，这不会产生任何有用的信息。

droplevels(factor(df$a))

这样基本解决了问题，但是对于60k行是不可行的。

df$a[1] <- factor(unique(as.numeric(unlist(str_extract_all(df$a[1], "[[:digit:]]+")))))
df$a[2] <- factor(unique(as.numeric(unlist(str_extract_all(df$a[2], "[[:digit:]]+")))))
df$a[3] <- factor(unique(as.numeric(unlist(str_extract_all(df$a[3], "[[:digit:]]+")))))

【问题讨论】：

值得问自己一个问题，我的数据格式是否正确？如果您的字符串中充满了逗号分隔的数字，那么您可能真的想要创建一个向量列表或一个分组数据框。

标签： r concatenation levels

【解决方案1】：

您在这里错过了sapply 的使用。这使您不必逐个元素地构造元素，例如：

df$a <- sapply(a,function(i){
  paste(unique(strsplit(i,", ")[[1]]),
        collapse = ", ")
})

df$a
#> [1] "4, 5"      "2"         "86, 37, 8"

请记住，strsplit() 适用于字符向量。所以要么在构造数据时使用stringsAsFactors = FALSE，要么先使用as.character()将因子变量转换为字符。在我的代码中，我只使用了向量a。

附注：我喜欢stringr 包，但在这种情况下strsplit() 会给你更快的代码。使用上面的代码，您可以避免使用正则表达式产生的大量开销。

【讨论】：