【发布时间】:2023-07-17 03:05:01
【问题描述】:
我有两个函数:date_diff 和 group_stat。所以我已经阅读了这篇文章tidyverse 并尝试创建简单的函数并使用管道。
第一个函数创建一个difftime 并将它们命名为timex_minus_timey,但是当我将此结果传递到下一个函数时,我必须查看名称以便填写summary_var。有一个更好的方法吗?
library(tidyverse)
#
set.seed(42)
data <- dplyr::bind_rows(
tibble::tibble(Hosp = rep("A", 1000),
drg = sample(letters[1:5], 1000, replace = TRUE),
time1 = as.POSIXlt("2018-02-03 08:00:00", tz = "UTC") + rnorm(1000, 0, 60*60*60),
time2 = time1 + runif(1000, min = 10*60, max = 20*60)),
tibble::tibble(Hosp = rep("B", 1000),
drg = sample(letters[1:5], 1000, replace = TRUE),
time1 = as.POSIXlt("2018-02-03 08:00:00", tz = "UTC") + rnorm(1000, 0, 60*60*60),
time2 = time1 + runif(1000, min = 10*60, max = 20*60))
)
date_diff <- function(df, stamp1, stamp2, units = "mins"){
stamp1 <- rlang::enquo(stamp1)
stamp2 <- rlang::enquo(stamp2)
name <- paste0(rlang::quo_name(stamp1), "_minus_", rlang::quo_name(stamp2))
out <- df %>%
dplyr::mutate(!!name := as.numeric(difftime(!!stamp1, !!stamp2, units=units)))
out
}
group_stat <- function(df, group_var, summary_var, .f) {
func <- rlang::as_function(.f)
group_var <- rlang::enquo(group_var)
summary_var <-rlang::enquo(summary_var)
name <- paste0(rlang::quo_name(summary_var), "_", deparse(substitute(.f)))
df %>%
dplyr::group_by(!!group_var) %>%
dplyr::summarise(!!name := func(!!summary_var, na.rm = TRUE))
}
data %>%
date_diff(time2, time1) %>%
group_stat(Hosp, summary_var = time2_minus_time1, mean)
#> # A tibble: 2 x 2
#> Hosp time2_minus_time1_mean
#> <chr> <dbl>
#> 1 A 15.1
#> 2 B 14.9
由reprex package (v0.2.1) 于 2019 年 5 月 2 日创建
【问题讨论】:
-
有点不清楚你所说的“更好”是什么意思。由于
group_stat可以独立于date_diff使用,因此需要知道要汇总哪一列。另一种方法是在group_stat中引入一个假设,以便它需要一个特定的列名。然后你可以删除summary_var,因为它可以自动推断。总的来说,我认为需要更多详细信息来说明您要完成的工作才能有效地提供答案。 -
@ArtemSokolov:不,我不想硬编码名称。所以也许没有任何问题......
标签: r dplyr purrr rlang tidyeval