dplyr mutate()：如果组为 NA，则忽略值答案

【问题标题】：dplyr mutate(): ignore values if group is NAdplyr mutate()：如果组为 NA，则忽略值
【发布时间】：2016-03-18 19:38:56
【问题描述】：

我是dplyr 的新手，有以下问题。我有data.frame 一列用作分组变量。有些行不属于一个组，分组列是NA。

我需要使用dplyr 函数mutate 向data.frame 添加一些列。我希望dplyr 忽略分组列等于NA 的所有行。我用一个例子来说明：

library(dplyr)

set.seed(2)

# Setting up some dummy data
df <- data.frame(
  Group = factor(c(rep("A",3),rep(NA,3),rep("B",5),rep(NA,2))),
  Value = abs(as.integer(rnorm(13)*10))
)

# Using mutate to calculate differences between values within the rows of a group
df <- df %>%
  group_by(Group) %>%
  mutate(Diff = Value-lead(Value))

df
# Source: local data frame [13 x 3]
# Groups: Group [3]
# 
#     Group Value  Diff
#    (fctr) (int) (int)
# 1       A     8     7
# 2       A     1   -14
# 3       A    15    NA
# 4      NA    11    11
# 5      NA     0    -1
# 6      NA     1    -8
# 7       B     7     5
# 8       B     2   -17
# 9       B    19    18
# 10      B     1    -3
# 11      B     4    NA
# 12     NA     9     6
# 13     NA     3    NA

在没有分组的情况下计算行之间的差异是没有意义的，并且会破坏数据。我需要删除这些行并这样做：

df$Diff[is.na(df$Group)]  <- NA

有没有办法使用 %>% 将上述命令包含到 dplyr 链中？在某处：

df <- df %>%
  group_by(Group) %>%
  mutate(Diff = Value-lead(Value)) %>%
  filter(!is.na(Group))

但是没有组的行没有一起被删除？或者更好的是，有没有办法让dplyr 忽略没有组的行？

期望的结果是：

# Source: local data frame [13 x 3]
# Groups: Group [3]
# 
#     Group Value  Diff
#    (fctr) (int) (int)
# 1       A     8     7
# 2       A     1   -14
# 3       A    15    NA
# 4      NA    11    NA
# 5      NA     0    NA
# 6      NA     1    NA
# 7       B     7     5
# 8       B     2   -17
# 9       B    19    18
# 10      B     1    -3
# 11      B     4    NA
# 12     NA     9    NA
# 13     NA     3    NA

【问题讨论】：

标签： r dplyr

【解决方案1】：

只需为您尝试创建的变量使用iflelse 条件：

library(dplyr)
set.seed(2)

df = data.frame(
  Group = factor(c(rep("A",3), rep(NA,3), rep("B",5), rep(NA,2))),
  Value = abs(as.integer(rnorm(13)*10))
) %>% 
  group_by(Group) %>%
  mutate(Diff = ifelse(is.na(Group), as.integer(NA), Value-lead(Value)))

【讨论】：

通常的用法是 NA_integer_ 一个内置常量，仅供参考。
@Frank 解决了完全相同的问题：identical(as.integer(NA), NA_integer_)，我不太确定“通常”。
很公平。 “通常”是指我见过的唯一方法。