【问题标题】:Averaging rows by multiple column variables in RR中的多列变量平均行
【发布时间】:2015-04-26 14:21:28
【问题描述】:

我正在尝试为我的数据创建一个多条形图,使用 ggplot2 用误差线描绘每个区域的 avgct 平均值。

这是我的数据示例:

gregion lregion   avgct
1          e      1.146
1          e      0.947
2          e      0.908    
3          e      1.167
1          t      1.225   
2          t      1.058
2          t      2.436
3          t      0.679

到目前为止,我已经设法创建了这个图表,但它似乎绘制的是 avgct 的最大值而不是平均值,因此我无法创建误差线。

我想我需要通过 gregion 和 lregion 计算 avgct 的平均值,这样我就可以得到每个区域的 avgct 平均值,如下所示:

gregion lregion   mean(avgct)   
1          e      1.047 
2          e      0.908 
3          e      1.167
1          t      1.225 
2          t      1.747
3          t      0.679

如果有人可以帮助我,以便我可以为我的数据绘制带有误差线的平均值条形图,我将不胜感激!

【问题讨论】:

  • 这确实有点像 stackoverflow.com/questions/25198442/… 的副本,它本身已经被标记为副本。
  • @MarkMiller 这是许多副本的副本。更不用说它出现在许多其他网站上。甚至交叉验证。还有很多版本用sum代替mean等等。

标签: r ggplot2 average bar-chart multiple-columns


【解决方案1】:

这是一个基本的聚合问题,所以典型的起点应该是aggregate

> aggregate(avgct ~ gregion + lregion, mydf, mean)
  gregion lregion  avgct
1       1       e 1.0465
2       2       e 0.9080
3       3       e 1.1670
4       1       t 1.2250
5       2       t 1.7470
6       3       t 0.6790

不过,还有其他几种替代方案,包括“dplyr”和“data.table”,从长远来看,它们可能更吸引人,因为它们便于语法和整体效率。

library(data.table)
as.data.table(mydf)[, mean(avgct), by = .(gregion, lregion)]


library(dplyr)
mydf %>% group_by(gregion, lregion) %>% summarise(avgct = mean(avgct))

【讨论】:

  • 谢谢!是否也可以计算这些均值的标准差?
  • @opalfruits,当然。标准差的函数是sd。使用“data.table”和“dplyr”版本添加其他列非常容易。
猜你喜欢
  • 2022-01-13
  • 2014-04-30
  • 1970-01-01
  • 1970-01-01
  • 2013-07-22
  • 2020-12-10
  • 2017-10-04
  • 2018-11-24
  • 1970-01-01
相关资源
最近更新 更多