【发布时间】:2018-09-28 19:06:34
【问题描述】:
我在 R 中遇到了一些非常奇怪的行为。我认为它甚至可能是一个错误,但我在这里要求检查是否有人熟悉它或知道解决方案。
我想要做的是:我有一个数据框,其中包含分配给组的日期。我正在对这些组执行 for 循环,在其中计算该组中日期的最大值。如果这个最大日期是NA,我想跳过循环的其余部分 (next)。但是,这不会正确发生。
考虑以下代码:
library(dplyr)
library(lubridate)
a <- data.frame(group = c(1,1,1,1,1, 2,2,2,2, 3),
ds = as_datetime(dmy('01-01-2018', NA, '03-01-2018', NA, '05-01-2018',
'02-01-2018', '04-01-2018', '06-01-2018', '08-01-2018',
NA)))
for (i in 1:3) {
max_ds <- a %>% filter(group == i) %>% .$ds %>% max(na.rm = T)
if (is.na(max_ds)) { next }
print(max_ds)
}
预期的输出是:
# [1] "2018-01-05 UTC"
# [1] "2018-01-08 UTC"
但是,得到的输出是:
# [1] "2018-01-05 UTC"
# [1] "2018-01-08 UTC"
# [1] NA
这个谜团的症结似乎在于na.rm 子句。如果将其删除,则会发生以下情况:
for (i in 1:nr_groups) {
max_ds <- a %>% filter(group == i) %>% .$ds %>% max()
if (is.na(max_ds)) { next }
print(max_ds)
}
# [1] "2018-01-08 UTC"
这正是预期的结果。
有什么想法吗?
【问题讨论】:
-
看
max(NA, na.rm = TRUE)的输出。 -
所以你说
max_ds等于-Inf,这就解释了为什么is.na返回FALSE。但是,为什么它打印为 NA? -
因为它是一个日期时间类:见
max(as.POSIXct(NA), na.rm = TRUE)和as.POSIXct(-Inf, origin = "1900-01-01")。 -
这就解释了。奇怪这如何评估为 NA,打印为 NA,但
is.na返回FALSE。但是,is.na(as_date(NA))返回TRUE。 -
它不会评估为
NA。
标签: r date dplyr lubridate posixct