根据数据子集的汇总统计重新排序因子答案

【问题标题】：Reordering a factor based on a summary statistic of a subset of the data根据数据子集的汇总统计重新排序因子
【发布时间】：2023-03-15 16:47:01
【问题描述】：

我正在尝试从我的数据框子集中重新排序一个因子，该因子由另一个使用 forcats::fct_reorder() 的因子定义。

考虑以下数据框df：

set.seed(12)
df <- data.frame(fct1 = as.factor(rep(c("A", "B", 'C'), each = 200)),
             fct2 = as.factor(rep(c("j", "k"), each = 100)), 
             val = c(rnorm(100, 2), # A - j
                     rnorm(100, 1), # A - k
                     rnorm(100, 1), # B - j
                     rnorm(100, 6), # B - k
                     rnorm(100, 8), # C - j
                     rnorm(100, 4)))# C - k

我想使用 ggridges 包绘制多面组密度。例如：

ggplot(data = df, aes(y = fct2, x = val)) +
    stat_density_ridges(geom = "density_ridges_gradient",
                        calc_ecdf = T, 
                        quantile_fun = median, 
                        quantile_lines = T) +
    facet_wrap(~fct1, ncol = 1)

我现在想按每个方面的上密度值的中位数（默认为 fct_reorder()）排序fct1，即fct2 == "k"。因此，此示例中的目标是分面按 B - C - A 的顺序出现。这似乎与this question here 非常相似，不同之处在于我不想先汇总数据，因为我需要原始数据来绘制密度。

我已尝试在链接问题的答案中调整代码：

df <- df %>% mutate(fct1 = forcats::fct_reorder(fct1, filter(., fct2 == 'k') %>% pull(val)))

但它返回以下错误：

forcats::fct_reorder(fct1, filter(., fct2 == "k") %>% pull(val)) 中的错误：

length(f) == length(.x) 不正确

很明显它们的长度不同，但我不太明白为什么这个错误是必要的。我的猜测是，通常不能保证所有级别的fct1 都存在于子集中，这肯定会有问题。但是，在我的示例中并非如此。有没有办法解决这个错误，或者我做错了什么？

我知道我可以通过几行额外的代码来解决这个问题，例如创建子集数据的辅助变量，对其重新排序，然后将级别顺序用于原始数据集中的我的因素。我仍然想要一个更漂亮的解决方案，因为我经常面临同样的任务。

【问题讨论】：

标签： r dplyr forcats ridgeline-plot

【解决方案1】：

你可以用一个小辅助函数来做到这一点：

f <- function(i) -median(df$val[df$fct2 == "k" & df$fct1 == df$fct1[i]])

这允许您像这样重新排序：

df$fct1 <- forcats::fct_reorder(df$fct1, sapply(seq(nrow(df)), f))

这给了你这个情节：

ggplot(data = df, aes(y = fct2, x = val)) +
    stat_density_ridges(geom = "density_ridges_gradient",
                        calc_ecdf = T, 
                        quantile_fun = median, 
                        quantile_lines = T) +
    facet_wrap(~fct1, ncol = 1)

【讨论】：

谢谢。绝对有效，但我认为您提供的解决方案是在您希望它工作时即时提出的解决方案。我觉得应该有一种更优雅的方式来解决这样一个常见的问题。也许我错了:)。
@PinotTiger 也许有更好的方法，但我不认为这是一个常见的问题。当你大声说出来 - “我想要一种机制，我可以根据不同变量的中位数对变量的因子水平进行重新排序，但只有当第三个变量具有特定的因子水平时”，很容易理解为什么包编写者可能忽略了它。我认为我以前没有遇到过这个特定的要求，并且我已经做了很多的数据争论。如果您可以用比描述所需更少的字符进行数据操作（如这里），那么您通常做得很好。
同意，我知道这已经是解决问题的一个非常简短的方法。然而，我首先提出这个问题的原因是因为我想摆脱过去提出的更长的解决方案（请参阅我的问题的最后一段）。我仍然认为在绘制数据时这很常见。 ggridges 只是一个例子，但它总是出现在闪避的条形图、箱形图等方面。还有题外话：代码之美，它通常需要比解释你的内容更少的字符，这难道不是代码之美吗？重新在做什么？ :)