【问题标题】:Recode a variable using data.table使用 data.table 重新编码变量
【发布时间】:2017-11-19 07:56:16
【问题描述】:

我正在尝试使用 data.table 重新编码变量。谷歌搜索了将近 2 个小时,但找不到答案。

假设我有一个 data.table 如下:

DT <- data.table(V1=c(0L,1L,2L),
                 V2=LETTERS[1:3],
                 V4=1:12)

我想重新编码 V1 和 V2。对于 V1,我想将 1s 重新编码为 0,将 2s 重新编码为 1。 对于 V2,我想将 A 重新编码为 T,B 重新编码为 K,C 重新编码为 D。

如果我使用dplyr,就很简单了。

library(dplyr)
DT %>% 
  mutate(V1 = recode(V1, `1` = 0L, `2` = 1L)) %>% 
  mutate(V2 = recode(V2, A = "T", B = "K", C = "D"))

但我不知道如何在 data.table 中执行此操作

DT[V1==1, V1 := 0]
DT[V1==2, V1 := 1]
DT[V2=="A", V2 := "T"]
DT[V2=="B", V2 := "K"]
DT[V2=="C", V2 := "D"]

以上是我认为最好的代码。但必须有更好、更有效的方法来做到这一点。


编辑

我更改了重新编码 V2 的方式,以使我的示例更通用。

【问题讨论】:

  • 我认为您的V2 可能必须是字符,因为您想将"C" 更改为"D" 对吗?虽然我可能弄错了你想如何重新编码V2
  • @MikeH。是的,V2 可能必须是字符。

标签: r data.table recode


【解决方案1】:

使用data.table 可以通过加入更新来解决重新编码问题:

DT[.(V1 = 1:2, to = 0:1), on = "V1", V1 := i.to]
DT[.(V2 = LETTERS[1:3], to = c("T", "K", "D")), on = "V2", V2 := i.to]

DT 转换为

    V1 V2 V4
 1:  0  T  1
 2:  0  K  2
 3:  1  D  3
 4:  0  T  4
 5:  0  K  5
 6:  1  D  6
 7:  0  T  7
 8:  0  K  8
 9:  1  D  9
10:  0  T 10
11:  0  K 11
12:  1  D 12

编辑:为了安全起见,@Frank 建议使用 i.to

说明

表达式.(V1 = 1:2, to = 0:1).(V2 = LETTERS[1:3], to = c("T", "K", "D")) 分别创建查找表on-the-fly

或者,可以预先设置查找表

lut1 <- data.table(V1 = 1:2, to = 0:1)
lut2 <- data.table(V2 = LETTERS[1:3], to = c("T", "K", "D"))

lut1
   V1 to
1:  1  0
2:  2  1
lut2
   V2 to
1:  A  T
2:  B  K
3:  C  D

然后,更新加入变成

DT[lut1, on = "V1", V1 := i.to]
DT[lut2, on = "V2", V2 := i.to]

【讨论】:

    【解决方案2】:

    我认为这可能是您正在寻找的。在:= 的左侧,我们命名了我们要更新的变量,而在右侧,我们有我们要用来更新相应变量的表达式。

    DT[, c("V1","V2") := .(as.numeric(V1==2), sapply(V2, function(x) {if(x=="A") "T" 
                                                         else if (x=="B") "K" 
                                                         else if (x=="C") "D" }))]
    
     #   V1 V2 V4
     #1:  0  T  1
     #2:  0  K  2
     #3:  1  D  3
     #4:  0  T  4
     #5:  0  K  5
     #6:  1  D  6
     #7:  0  T  7
     #8:  0  K  8
     #9:  1  D  9
    #10:  0  T 10
    #11:  0  K 11
    #12:  1  D 12
    

    或者,只需在data.table 中使用recode

    library(dplyr)
    DT[, c("V1","V2") := .(as.numeric(V1==2), recode(V2, "A" = "T", "B" = "K", "C" = "D"))]
    

    【讨论】:

    • 谢谢!我试图找到与dplyrrecode 等效的data.table。因此,我将示例更改为更一般的情况。
    • 不知道data.table里面有没有像recode这样的具体功能。但是,您可以在 data.table 中使用 recode,例如:DT[, c("V1","V2") := .(as.numeric(V1==2), recode(V2, "A" = "T", "B" = "K", "C" = "D"))]
    • 或者,您可以使用其他函数,例如 sapply: DT[, c("V1","V2") := .(as.numeric(V1==2), sapply(V2, function(x) {if(x=="A") "T" else if (x=="B") "K" else if (x=="C") "D" }))]
    • 请注意:使用as.numeric(V1==2)2L 伪造为1L 并将任何其他数字伪造为0L 是一个非常聪明的R 技巧。但它的技巧只在这种特殊情况下有效。例如,如果V1 包含任何其他数字,它将中断。
    【解决方案3】:

    来自 plyr 的 mapvalues() 与 data.table 结合使用,效果非常好。

    我将它用于大型数据(50 mio - 400 mio 行)。尽管与其他可能性相比,我没有对其进行基准测试,但我发现清晰的语法很有价值,因为它意味着复杂的重新编码操作中的错误更少。

    library(data.table)
    library(plyr)
    
    
    DT <- data.table(V1=c(0L,1L,2L),
                     V2=LETTERS[1:3],
                     V4=1:12)
    
    
    DT[, V1 := mapvalues(V1, from=c(1, 2), to=c(0, 1))]
    DT[, V2 := mapvalues(V2, from=c('A', 'B', 'C'), to=c('T', 'K', 'D'))]
    

    对于更复杂的重新编码操作,我总是先用 NA 创建一个新变量,然后使用另一个带有 from-to 向量的 data.table 作为变量。

    在某些用例中更像是一个错误的功能是 mapvalues() 将这些值保留在不在 from 参数中的旧变量中。 如果您确定所有正确的值都在 from-vector 中,这是一个问题,因此 data.table 中不在此向量中的任何值都应该是 NA 。

    DT <- data.table(V1=c(LETTERS[1:3], 'i dont want this value transfered'),
                     V4=1:12)
    map_DT <- data.table(from=c('A', 'B', 'C'), to=c('T', 'K', 'D'))
    
    
    # NA variable to begin with is good practice because it is clearer to spot an error  
    DT[, V1_new := NA_character_]
    DT[V1 %in% map_DT$from , V1_new := mapvalues(V1, from=map_DT$from, to=map_DT$to)][]
    

    请注意 plyr 已被弃用,因此 mapvalues 函数在将来的某个时间点有消失的风险。因此,提出的 update-joins 方法可能是一种更好的方法,尽管我发现 mapvalues 更易于阅读。尽管不推荐使用 mapvalues 可能需要数年时间,但很可能需要很多年。但是,在决定是否将其用作工具时要记住一些事情。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-08-12
      • 1970-01-01
      相关资源
      最近更新 更多