子集 data.frame 基于时间间隔 + 或 - 日期列表答案

【问题标题】：subset data.frame base on a time interval + or - list of dates子集 data.frame 基于时间间隔 + 或 - 日期列表
【发布时间】：2016-06-04 13:24:28
【问题描述】：

我有一个大型（20,000 obs）data.frame，其中包含每小时值并按唯一 ID 分组。我还有一个日期列表（每个日期都出现在 data.frame 中）。我正在尝试将日期与 data.frame 匹配，然后从匹配日期提取 + 或 - 某个时间间隔之间的日期时间。比如在下面的data.frame中：

 setAs("character","myDate", function(from) as.POSIXct(from, "%m/%e/%Y    %H:%M", tz="UTC")) 
# previous function formats date input as UTC 
   df <- read.table(textConnection("datetimeUTC id  value
                             '5/1/2013 5:00'    153 0.53
                            '5/1/2013 6:00'     153 0.46
                            '5/1/2013 7:00'     153 0.53
                            '5/1/2013 8:00'     153 0.46
                            '5/1/2013 9:00'     153 0.44
                            '5/1/2013 10:00'    153 0.48
                            '5/1/2013 11:00'    153 0.49
                            '5/1/2013 12:00'    153 0.49
                            '5/1/2013 13:00'    153 0.51
                            '5/1/2013 14:00'    153 0.53
                            '11/24/2013 9:00'   154 0.45
                            '11/24/2013 10:00'  154 0.46
                            '11/24/2013 11:00'  154 0.49
                            '11/24/2013 12:00'  154 0.55
                            '11/24/2013 13:00'  154 0.61
                            '11/24/2013 14:00'  154 0.7
                            '11/24/2013 15:00'  154 0.74
                            '11/24/2013 16:00'  154 0.78
                            '11/24/2013 17:00'  154 0.77
                            '11/24/2013 18:00'  154 0.79
                            '8/2/2015 1:00'     240 0.2
                            '8/2/2015 2:00'     240 0.2
                            '8/2/2015 3:00'     240 0.2
                            '8/2/2015 4:00'     240 0.22
                            '8/2/2015 5:00'     240 0.22
                            '8/2/2015 6:00'     240 0.27
                            '8/2/2015 7:00'     240 0.23
                            '8/2/2015 8:00'     240 0.21
                            '8/2/2015 9:00'     240 0.22
                            '8/2/2015 10:00'    240 0.22
                            '8/2/2015 11:00'    240 0.21
                            '8/2/2015 12:00'    240 0.21
                            '8/2/2015 13:00'    240 0.21
                            '8/2/2015 14:00'    240 0.22
                            '8/2/2015 15:00'    240 0.24
                            '8/2/2015 16:00'    240 0.25
                            '8/2/2015 17:00'    240 0.12
                            '8/2/2015 18:00'    240 0.32
                            "), header=TRUE, colClasses=c("myDate", "character", "numeric"))

我想从这个键中提取每个 id 匹配日期时间之前或之后 2 小时的所有观察结果：

  key <-read.table(textConnection("
     datetimeUTC        id
    '5/1/2013 9:00'     153
    '11/24/2013 14:00'  154
    '8/2/2015 5:00'     240
    '8/2/2015 15:00'        240"), header=TRUE, colClasses=c("myDate",  "character"))

所需的结果如下所示：

  result <- read.table(textConnection("datetimeUTC  id  value
                            '5/1/2013 7:00'     153 0.53
                            '5/1/2013 8:00'     153 0.46
                            '5/1/2013 9:00'     153 0.44
                            '5/1/2013 10:00'    153 0.48
                            '5/1/2013 11:00'    153 0.49
                            '11/24/2013 12:00'  154 0.55
                            '11/24/2013 13:00'  154 0.61
                            '11/24/2013 14:00'  154 0.7
                            '11/24/2013 15:00'  154 0.74
                            '11/24/2013 16:00'  154 0.78
                            '8/2/2015 3:00'     240 0.2
                            '8/2/2015 4:00'     240 0.22
                            '8/2/2015 5:00'     240 0.22
                            '8/2/2015 6:00'     240 0.27
                            '8/2/2015 7:00'     240 0.23
                            '8/2/2015 13:00'    240 0.21
                            '8/2/2015 14:00'    240 0.22
                            '8/2/2015 15:00'    240 0.24
                            '8/2/2015 16:00'    240 0.25
                            '8/2/2015 17:00'    240 0.12
                            "), header=TRUE, colClasses=c("myDate", "character", "numeric"))

似乎是一项简单的任务，但我似乎无法得到我想要的。我尝试过的几件事。

result <-df[which(df$id == key$id &(df$datetimeUTC >= key$datetimeUTC -2*60*60 |df$datetimeUTC <= key$datetimeUTC + 2*60*60 )),]

 library(data.table)
  dt <- setDT(df)
  dt[dt$datetimeUTC %between% c(dt$datetimeUTC - 2*60*60,dt$datetimeUTC +   2*60*60) ]

【问题讨论】：

对于 Id 153 ，在你的输出中为什么你有 8:00 ？考虑到您想要“之前或之后 2 小时”，不应该只是 7:00 和 9:00
我进行了编辑以更清楚地说明我希望提取匹配日期后加或 -2 小时之间的所有日期

标签： r data.table

【解决方案1】：

为您提供几个data.table 解决方案

1.笛卡尔连接

全部加入，然后过滤掉你不想要的

library(data.table)
dt <- as.data.table(df)
dt_key <- as.data.table(key)

dt_join <- dt[ dt_key, on="id", allow.cartesian=T][difftime(i.datetimeUTC, datetimeUTC, units="hours") <= 2 & difftime(i.datetimeUTC, datetimeUTC, units="hours") >= -2]

 #          datetimeUTC  id value       i.datetimeUTC
 #1: 2013-05-01 07:00:00 153  0.53 2013-05-01 09:00:00
 #2: 2013-05-01 08:00:00 153  0.46 2013-05-01 09:00:00
 #3: 2013-05-01 09:00:00 153  0.44 2013-05-01 09:00:00
 #4: 2013-05-01 10:00:00 153  0.48 2013-05-01 09:00:00
   ... etc

2。每个 I 的条件

利用an answer 回答我之前的一个问题，在j 中指定EACHI 在加入时必须满足的条件。

dt[ dt_key, 
        { idx = difftime(i.datetimeUTC, datetimeUTC, units="hours") <= 2 & difftime(i.datetimeUTC, datetimeUTC, units="hours") >= -2
        .(datetime = datetimeUTC[idx],
            value = value[idx])
            },
        on=c("id"),
        by=.EACHI]

【讨论】：

感谢 tspig，这两种解决方案都适用于我的示例数据，我明天在工作中尝试使用完整的数据集。
@Wyldsoul - 没问题。根据您的数据大小，cartesian 连接可能会耗尽您的 RAM，但如果不是，它应该运行得更快。
两种解决方案在我的完整数据集上同样有效（用时不到 1 秒），但笛卡尔连接的额外好处是为每个时间间隔分配唯一的 i.datetimeUTC var，这很有用对我来说。再次感谢！
@tospig，很好的答案（已经投票）。只是想让您了解 data.table、非 equi 连接的最新发展。我已经提供了答案。干杯。
@Arun - 谢谢：我一直在观看/使用开发版本，非 equi 连接是一个很棒的功能。感谢您实施它。

【解决方案2】：

@Tospig 的解决方案非常好。但是现在，在当前开发版本的 data.table 中新实现的non-equi 连接功能，这非常简单：

require(data.table) # v1.9.7+
setDT(df)
setDT(key) ## converting data.frames to data.tables by reference
df[key, .(x.datetimeUTC, i.datetimeUTC, id, value), 
  on=.(datetimeUTC >= d1, datetimeUTC <= d2), nomatch=0L]

就是这样。

请注意，这会执行条件直接连接，因此既节省内存（与执行笛卡尔连接然后根据条件过滤）又快速（因为与给定条件匹配的行是使用修改后的二进制搜索获得的，而不是@tospig 的答案中显示的by=.EACHI 循环变体）。

查看开发版here的安装说明。

【讨论】：

据我所知，'d1' 和 'd2' 没有定义。尽管微不足道，但也许您可以将他们的创作添加到您的答案中，以使其成为一个不错的完整规范；）

【解决方案3】：

使用lubridate，您可以：

library(lubridate)
do.call(rbind, apply(key,1, FUN=function(k) 
      df[df$id == k['id'] &
      df$datetimeUTC >= ymd_hms( k['datetimeUTC']) -hours(2) &
      df$datetimeUTC <= ymd_hms(k['datetimeUTC']) +hours(2),]))

 1: 2013-05-01 07:00:00 153  0.53
 2: 2013-05-01 08:00:00 153  0.46
 3: 2013-05-01 09:00:00 153  0.44
 4: 2013-05-01 10:00:00 153  0.48
 5: 2013-05-01 11:00:00 153  0.49
 6: 2013-11-24 12:00:00 154  0.55
 7: 2013-11-24 13:00:00 154  0.61
 8: 2013-11-24 14:00:00 154  0.70
 9: 2013-11-24 15:00:00 154  0.74
10: 2013-11-24 16:00:00 154  0.78
11: 2015-08-02 03:00:00 240  0.20
12: 2015-08-02 04:00:00 240  0.22
13: 2015-08-02 05:00:00 240  0.22
14: 2015-08-02 06:00:00 240  0.27
15: 2015-08-02 07:00:00 240  0.23
16: 2015-08-02 13:00:00 240  0.21
17: 2015-08-02 14:00:00 240  0.22
18: 2015-08-02 15:00:00 240  0.24
19: 2015-08-02 16:00:00 240  0.25
20: 2015-08-02 17:00:00 240  0.12

【讨论】：

感谢 HubertL，这似乎运作良好，明天我将在完整的数据集上试一试。