根据另一个分组变量以不同的方式切割一个变量答案

【问题标题】：Cut a variable differently based on another grouping variable根据另一个分组变量以不同的方式切割一个变量
【发布时间】：2016-09-15 15:42:39
【问题描述】：

示例：我有一个按性别划分的身高数据集。我想将高度分成低和高，其中切割点被定义为平均值 - 每个性别内的 2sd。

示例数据集：

set.seed(8)
df = data.frame(sex = c(rep("M",100), rep("F",100)), 
                ht = c(rnorm(100, mean=1.7, sd=.17), rnorm(100, mean=1.6, sd=.16)))

我想在一行矢量化代码中做一些事情，因为我很确定这是可能的，但是我不知道如何编写它。我想可能有一种方法可以使用cut()、apply() 和/或dplyr 来实现这一点。

【问题讨论】：

我的问题是什么导致人们投反对票？

标签： r dplyr aggregate tapply split-apply-combine

【解决方案1】：

使用来自 base R 的cut 怎么样：

sapply(c("F", "M"), function(s){
    dfF <- df[df$sex==s,] # filter out per gender
    cut(dfF$ht, breaks = c(0, mean(dfF$ht)-2*sd(dfF$ht), Inf), labels = c("low", "high"))
})
# dfF$ht heights per gender
# mean(dfF$ht)-2*sd(dfF$ht) cut point

【讨论】：

【解决方案2】：

在下面的代码中，我创建了 2 个新变量。两者都是通过对sex 变量进行分组并过滤ht 的不同范围而创建的。

 library(dplyr)
 df_low <- df %>% group_by(sex) %>% filter(ht<(mean(ht)-2*sd(ht)))
 df_high<- df %>% group_by(sex) %>% filter(ht>(mean(ht)+2*sd(ht)))

【讨论】：

【解决方案3】：

刚刚使用base r 发现了以下解决方案：

df$ht_grp <- ave(x = df$ht, df$sex, 
                 FUN = function(x) 
                       cut(x, breaks = c(0, (mean(x, na.rm=T) - 2*sd(x, na.rm=T)), Inf)))

这是可行的，因为我知道 0 和 Inf 是合理的界限，但我也可以使用 min(x) 和 max(x) 作为我的上限和下限。这导致一个因子变量被分为低、高和 NA。

我之前的解决方案：我想出了以下两步过程，这还不错：

df = merge(df, 
           setNames( aggregate(ht ~ sex, df, FUN = function(x) mean(x)-2*sd(x)), 
                     c("sex", "ht_cutoff")), 
           by = "sex")

df$ht_is_low = ifelse(df$ht <= df$ht_cutoff, 1, 0)

【讨论】：

df %>% group_by(sex) %>% mutate(ht_is_low = as.integer(ht < mean(ht) - 2*sd(ht)))