【问题标题】:dplyr-friendly user function to use with join functionsdplyr 友好的用户函数与连接函数一起使用
【发布时间】:2025-12-30 22:15:06
【问题描述】:

我所做的工作涉及在一个关键查找变量上合并来自不同来源的多个数据库。该变量是一个字符串变量,通常根据数据的来源(即“纽约市”、“纽约市”)以多种不同的方式拼写。

我编写了一个简单的函数来清理每个数据集中的查找变量,并以这种方式使用它:

clean.names <- function(x){
  x %>% 
    str_remove_all('[:punct:]') %>% 
    str_to_lower() %>% 
    str_squish() %>% 
    str_trim()
}

#df_1 and df_2 are dataframes, with variables key that I use to merge. 
df_1 %>% 
  mutate(clean_name = clean.names(key1)) %>% 
  left_join(df_2 %>% 
              mutate(clean_name = clean.names(key2)), 
            by = 'clean_name')

这个函数可以很好地完成它的预期用途。但是,代码有点冗长。我的问题是:如何创建一个与 dplyr 一起使用的函数(即没有引号等),它产生与上述相同的效果?我希望它采用真正的 dplyr 形式并作为连接函数中的包装器工作。我已经尝试过,但没有成功,请参见此处:

clean.names <- function(x =df, y = merge.vary){ # function adds
  x$merge.vary <- y %>%                         # a new variable
    str_remove_all('[:punct:]') %>%             # to existing dataframe
    str_to_lower() %>% 
    str_squish() %>% 
    str_trim()
}


clean.names(df_1, key1) %>%         # then use the function as a wrapper
  left_join(clean.names(df_2, key2))# for the dplyr join functions 

有没有办法做到这一点?我想要的是一个类似于 dplyr 的代理函数,它看起来像:函数(数据帧,变量)。谢谢。

【问题讨论】:

  • 也许值得探索:fuzzyjoin package
  • 谢谢,我对此进行了调查,但无法完全弄清楚如何让事情联合起来。我再看看。
  • “我如何创建一个与 dplyr 一起使用的函数” - 任何将数据框作为第一个参数并返回数据框的函数都可以很好地使用 @987654326 @。 "(即没有引号等)" 这更难。 Programming with dplyr vignette 是一个很好的起点。

标签: r function dplyr


【解决方案1】:

您可以使用rlang::ensym() 来捕获变量名并直接将其传递给mutate_at

library(tidyverse)
clean.names2 <- function( .df, .var ) {
  f <- compose( partial(str_remove_all, pattern='[:punct:]'), 
                 str_to_lower, str_squish, str_trim )
  .df %>% mutate_at( vars(!!ensym(.var)), f )
}

该函数适用于带引号和不带引号的变量名:

X <- tibble( Cities = c("  New York City, NY", "Denver, CO;;") )
clean.names2( X, Cities )
# # A tibble: 2 x 1
#   Cities          
#   <chr>           
# 1 new york city ny
# 2 denver co       

clean.names2( X, "Cities" )  ## equivalent

简要说明:

第一行通过将str_remove_allstr_to_lowerstr_squishstr_trim 串在一起并使用partial()str_remove_allpattern 参数分配一个预先指定的值来创建一个复合函数。生成的函数f 与原始clean.names 相同。 (我只是试图让clean.names2 独立。)

第二行使用mutate_at 将新的复合函数f(或等效的原始clean.names)应用于.df 中的单个列。该列使用两种 tidyverse 机制指定。第一个是vars(),它允许用户指定带引号和不带引号的列名。例如下面两行是等价的:

mydf %>% mutate_at( vars("mycolumn"), myfunction )  # vars can be dropped here
mydf %>% mutate_at( vars(mycolumn), myfunction )

第二种机制属于处理quasiquoatation 的函数类,允许程序员直接处理未计算的表达式,包括函数用户提供的表达式。特别是,我们使用ensym 来捕获调用环境提供给函数的符号并将该符号传递给vars!! 很重要,因为它告诉vars 继续计算表达式ensym(.var) 并将结果用作列名。如果没有!!vars 将尝试查找名称为“ensym(.var)”的列。

【讨论】: