【发布时间】:2015-02-16 11:30:50
【问题描述】:
我有一个数据集 (mydata),其中包含多个列,这些列可能适合存储在另一个数据集 (mycomparison) 中的范围内。
我想将mycomparison 加入mydata,其中mydata 的值在mycomparison 的范围内。
MWE
library(data.table)
mydata<-data.table(
id=1:5,
val1=seq(10000, 50000, by=10000),
val2=floor(rnorm(5,mean=400,sd=100)),
val3=rnorm(5,mean=.7,sd=.1)
)
mycomparison<-data.table(
Name=LETTERS[1:3],
minval1=c(0,30000,10000),
maxval1=c(50000,80000,30000),
minval2=c(300,400,300),
maxval2=c(800,800,800),
minval3=c(0,.5,.2),
maxval3=c(1,.9,.8),
correspondingval=c(.1,.2,.3)
)
期望的输出
> mydata.withmatches
id val1 val2 val3 Name minval1 maxval1 minval2 maxval2 minval3 maxval3 correspondingval
1: 1 10000 387 0.4844319 A 0 50000 300 800 0 1 0.1
2: 2 20000 425 0.7856313 NA NA NA NA NA NA NA NA
3: 3 30000 324 0.8063969 NA NA NA NA NA NA NA NA
4: 4 40000 263 0.5590113 NA NA NA NA NA NA NA NA
5: 5 50000 187 0.8764396 NA NA NA NA NA NA NA NA
当前解决方案
这感觉/非常笨拙,涉及交叉连接数据(使用optiRum::CJ.dt),进行大型逻辑检查,然后重新组装数据。
library(optiRum)
workingdt<-CJ.dt(mydata,mycomparison)
matched<-workingdt[val1>=minval1 &
val1<=maxval1 &
val2>=minval2 &
val2<=maxval2 &
val3>=minval3 &
val3<=maxval3][which.min(correspondingval)]
notmatched<-mydata[id!= matched[,id]]
all<-list(matched,notmatched)
mydata.withmatches<- rbindlist(all, fill=TRUE, use.names=TRUE)
寻找更好的解决方案 - 已更新
我知道foverlaps,但它只适用于单个间隔,而不是像这种情况下的许多范围。
我希望有一个不那么笨重、更优雅的解决方案。
【问题讨论】:
-
A previous
foverlapsQ&A 似乎与您的情况相似:单个“点”(您:例如val1,其他 Q:pos)应与范围连接(您:例如minval1/maxval1,其他问:start/end)。 @arun 写道:“你的问题是这种重叠连接的一个特例,开始和结束坐标是相同的”,(val1-val1;pos-pos)。 @arun 的诀窍是创建第二个pos变量 (pos2 := pos)。这也可能是您向前迈出的第一步。 -
干杯 @Henrik - 我不确定创建大量额外的列是否会特别优雅 - 我将尝试虚拟列解决方案
-
@Henrik 在探索中看起来 foverlaps 在尝试在多个范围内使用时可能不可行
-
这是旧的,但匹配的不是比显示的多吗?即 id 2 也在名称 A 中。
-
当我放入 rnorms 以允许重复测试以确保不返回重复行时,它会有所不同
标签: r data.table