如何在 R ggplot 中制作此行列表的直方图？答案

【问题标题】：How to do histograms of this row-column table in R ggplot?如何在 R ggplot 中制作此行列表的直方图？
【发布时间】：2017-10-17 05:46:12
【问题描述】：

我正在尝试通过以下过程在第一行中绘制描述性变量。我也尝试过引用列/行名称，但没有成功

旋转 CSV 数据中的行和列，以获得线程A very simple histogram with R? 和ggplot 中所需的对应数据结构（高表）
将事件的直方图绘制为Absolute 变量异或（Average、Min、Max）
- 如果只有绝对值，只画直方图中的绝对值。
- 如果（平均值、最小值和最大值），只需将它们绘制在带有胡须的直方图中（= 胡须图），胡须的限制由最小值和最大值决定。

数据

最初，data.csv

"Vars"    , "Sleep", "Awake", "REM", "Deep"
"Absolute",        ,       , 5     , 7
"Average" , 7      , 12    ,       ,
"Min"     , 4      , 5     ,       , 
"Max"     , 10     , 15    ,       ,

视觉重塑后的数据

            V1       V2       V3       V4
Vars  Absolute Average  Min      Max     
Sleep     <NA>        7        4       10
Awake     <NA>       12        5       15
REM          5     <NA>     <NA>     <NA>
Deep         7     <NA>     <NA>     <NA>

R 整形后的数据

 data <- structure(list(V1 = structure(c(3L, NA, NA, 1L, 2L), .Names = c("Vars", 
 "Sleep", "Awake", "REM", "Deep"), .Label = c(" 5", " 7", "Absolute"
 ), class = "factor"), V2 = structure(c(3L, 2L, 1L, NA, NA), .Names = c("Vars", 
 "Sleep", "Awake", "REM", "Deep"), .Label = c("12", " 7", "Average "
 ), class = "factor"), V3 = structure(c(3L, 1L, 2L, NA, NA), .Names = c("Vars", 
"Sleep", "Awake", "REM", "Deep"), .Label = c(" 4", " 5", "Min     "
 ), class = "factor"), V4 = structure(c(3L, 1L, 2L, NA, NA), .Names = c("Vars", 
"Sleep", "Awake", "REM", "Deep"), .Label = c("10", "15", "Max     "
 ), class = "factor")), .Names = c("V1", "V2", "V3", "V4"), row.names = c("Vars", 
"Sleep", "Awake", "REM", "Deep"), class = "data.frame")

带有调试代码的R代码

dat.m <- read.csv("data.csv")

# rotate rows and columns
dat.m <- as.data.frame(t(dat.m)) # https://stackoverflow.com/a/7342329/54964 Comment 42-

library("reshape2")
dat.m <- melt(dat.m, id.vars="Vars")

## Just plot values existing there correspondingly    
library("ggplot2")
# https://stackoverflow.com/a/25584792/54964
# TODO following
#ggplot(dat.m, aes(x = "Vars", y = value,fill=variable))

错误

Error: id variables not found in data: Vars
Execution halted

R：3.3.3、3.4.0（向后移植）
操作系统：Debian 8.7
R reshape2, ggplot2, ... with sessionInfo() 加载两个包后

Platform: x86_64-pc-linux-gnu (64-bit)

locale:
 [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C              
 [3] LC_TIME=en_US.UTF-8        LC_COLLATE=en_US.UTF-8    
 [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8   
 [7] LC_PAPER=en_US.UTF-8       LC_NAME=C                 
 [9] LC_ADDRESS=C               LC_TELEPHONE=C            
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C   

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] ggplot2_2.1.0  reshape2_1.4.2

loaded via a namespace (and not attached):
 [1] colorspace_1.3-2 scales_0.4.1     magrittr_1.5     plyr_1.8.4      
 [5] tools_3.3.3      gtable_0.2.0     Rcpp_0.12.10     stringi_1.1.5   
 [9] grid_3.3.3       stringr_1.2.0    munsell_0.4.3

测试 HaberdashPI 的 proposal

图 1 中的输出，其中 Sleep 和 Awake 中的绝对值错误。如果NA，只需将值设置为零。

图。 1 HaberdashPI 的提案输出不如预期

转置前dat.m的数据结构

'data.frame':   4 obs. of  5 variables:
 $ Absolute: Factor w/ 2 levels " 5"," 7": NA NA 1 2
  ..- attr(*, "names")= chr  "Sleep" "Awake" "REM" "Deep"
 $ Average : Factor w/ 2 levels "12"," 7": 2 1 NA NA
  ..- attr(*, "names")= chr  "Sleep" "Awake" "REM" "Deep"
 $ Min     : Factor w/ 2 levels " 4"," 5": 1 2 NA NA
  ..- attr(*, "names")= chr  "Sleep" "Awake" "REM" "Deep"
 $ Max     : Factor w/ 2 levels "10","15": 1 2 NA NA
  ..- attr(*, "names")= chr  "Sleep" "Awake" "REM" "Deep"
 $ Vars    : chr  "Sleep" "Awake" "REM" "Deep"
      Absolute Average  Min      Max       Vars
Sleep     <NA>        7        4       10 Sleep
Awake     <NA>       12        5       15 Awake
REM          5     <NA>     <NA>     <NA>   REM
Deep         7     <NA>     <NA>     <NA>  Deep

转置后dat.m的数据结构

'data.frame':   16 obs. of  3 variables:
 $ Vars    : chr  "Sleep" "Awake" "REM" "Deep" ...
 $ variable: Factor w/ 4 levels "Absolute","Average ",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ value   : chr  NA NA " 5" " 7" ...

    Vars variable value
1  Sleep Absolute  <NA>
2  Awake Absolute  <NA>
3    REM Absolute     5
4   Deep Absolute     7
5  Sleep Average      7
6  Awake Average     12
7    REM Average   <NA>
8   Deep Average   <NA>
9  Sleep Min          4
10 Awake Min          5
11   REM Min       <NA>
12  Deep Min       <NA>
13 Sleep Max         10
14 Awake Max         15
15   REM Max       <NA>
16  Deep Max       <NA>

测试 akash87 的 proposal

代码

ds <- dat.m
str(ds)
ds
ds$variable
ds$variable %in% c("Min","Max")

输出错误，因为最后都是False

 $ Vars    : chr  "Sleep" "Awake" "REM" "Deep" ...
 $ variable: Factor w/ 4 levels "Absolute","Average ",..: 1 1 1 1 2 2 2 2 3 3 ...
 $ value   : chr  NA NA " 5" " 7" ...
    Vars variable value
1  Sleep Absolute  <NA>
2  Awake Absolute  <NA>
3    REM Absolute     5
4   Deep Absolute     7
5  Sleep Average      7
6  Awake Average     12
7    REM Average   <NA>
8   Deep Average   <NA>
9  Sleep Min          4
10 Awake Min          5
11   REM Min       <NA>
12  Deep Min       <NA>
13 Sleep Max         10
14 Awake Max         15
15   REM Max       <NA>
16  Deep Max       <NA>
[1] "hello 3"
 [1] Absolute Absolute Absolute Absolute Average  Average  Average  Average 
 [9] Min      Min      Min      Min      Max      Max      Max      Max     
Levels: Absolute Average  Min      Max     
 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[13] FALSE FALSE FALSE FALSE

这样做ds[ds$variable %in% c("Min","Max"), ] 将给出False 输出，因为错误结转。

测试 Uwe 的 proposal

带有显式data.table::dcast 和两次data.table::melt 的代码。在molten <- ... 之前打印出sessionInfo()。注意library(ggplot2) 尚未加载，因为错误来自molten <- ... 行。

$ Rscript test111.r 
    Vars "Average" "Max" "Min" Absolute
1: Sleep         7    10     4       NA
2: Awake        12    15     5       NA
3:   REM        NA    NA    NA        5
4:  Deep        NA    NA    NA        7
R version 3.4.0 (2017-04-21)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Debian GNU/Linux 8 (jessie)

Matrix products: default
BLAS: /usr/lib/openblas-base/libblas.so.3
LAPACK: /usr/lib/libopenblasp-r0.2.12.so

locale:
 [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C              
 [3] LC_TIME=en_US.UTF-8        LC_COLLATE=en_US.UTF-8    
 [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8   
 [7] LC_PAPER=en_US.UTF-8       LC_NAME=C                 
 [9] LC_ADDRESS=C               LC_TELEPHONE=C            
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C       

attached base packages:
[1] stats     graphics  grDevices utils     datasets  base     

other attached packages:
[1] data.table_1.10.4

loaded via a namespace (and not attached):
[1] compiler_3.4.0 methods_3.4.0 
Error in melt.data.table(transposed, measure.vars = c("Absolute", "Average")) : 
  One or more values in 'measure.vars' is invalid.
Calls: <Anonymous> -> melt.data.table
Execution halted

用测试代码 2 测试 Uwe 的提案

代码

molten <- structure(list(Vars = structure(c(1L, 2L, 1L, 2L, 1L, 2L), class = "factor", .Label = c("V1", "V2")), variable = structure(c(1L, 1L, 2L, 2L, 3L, 3L), class = "factor", .Label = c("ave", "ave_max", "lepo")), value = c(7L, 8L, 10L, 10L, 4L, 4L)), .Names = c("Vars", "variable", "value"), row.names = c(NA, -6L), class = c("data.table", "data.frame"))

print(molten)

library(ggplot2)
ggplot(molten, aes(x = Vars, y = value, fill = variable, ymin = lepo, ymax = ave_max)) + 
  geom_col() + geom_errorbar(width = 0.2)

输出

  Vars variable value
1   V1      ave     7
2   V2      ave     8
3   V1  ave_max    10
4   V2  ave_max    10
5   V1     lepo     4
6   V2     lepo     4
Error in FUN(X[[i]], ...) : object 'lepo' not found
Calls: <Anonymous> ... by_layer -> f -> <Anonymous> -> f -> lapply -> FUN -> FUN
Execution halted

【问题讨论】：

你能发布你想要的输出吗？
@TheBiro 我在正文中更仔细地定义了所需的输出。
我试图找出我所做的对于您正在寻找的解释来说是错误的。你在期待什么？
@akash87 没有错。我正在测试你的提议。这是迄今为止最好的。
可以做哪些改进？

标签： r csv ggplot2 statistics

【解决方案1】：

您的基本问题是，当您调用dat.m <- as.data.frame(t(dat.m)) 时，您的列名和行名已经搞砸了。这并不是重新排列数据的正确方法。

您的术语有点混乱（您的意思是 histogram 吗？），所以我不确定这是否是您想要的，但我相信要解决您遇到的直接问题，您可以这样做：

library(ggplot2)
library(reshape2)

dat.m <- read.csv("data.csv")

m <- t(dat.m)
dat.m <- data.frame(m[2:nrow(m),])
names(dat.m) <- m[1,]
dat.m$Vars <- rownames(m)[2:nrow(m)]

dat.m <- melt(dat.m, id.vars="Vars")
ggplot(dat.m, aes(x = Vars, y = value,fill=variable)) + geom_bar(stat='identity')

这是我得到的输出：

我在这里所做的是手动重命名列名 (names(data.m) <- etc...) 并插入一个名为 Vars 的新列，因为您需要将这些名称作为 dat.m 的列，而不是一组行名，在melt 中引用它们（这就是为什么你会收到关于无法找到Vars 的错误）。它并不优雅，但可以完成工作。

看起来你为自己做的工作比你需要的要多得多。看来您已经在其他程序（Excel？）中收集了您的数据摘要，这让我认为如果您只是将原始数据加载到 R 中并计算平均值，则可能有一个更简单的解决方案。 R 中的 min 等等，或者如果您在该外部程序中以对 R 更规范的格式总结您的数据。不确切知道原始数据是什么样的，我无法给您更好的答案。

大部分 ggplot 都是围绕应该如何组织数据的一组原则进行组织的：我建议通读 this blog post on dplyr 和 this one on tidyr。

【讨论】：

嗯....我得到了不同的输出。你想要的输出是什么？你能画出来吗？我正在显示的内容使用了我正在向您展示的确切代码，其中包含一个名为 data.csv 的文件，其中包含从您的问题中复制的确切文本。
我不确定您的评论是什么意思。无论原始数据大小如何，代码都应该可以工作（至少有 2 行，因为第一行是列名，因为t 搞砸了数据框的格式）。错误检查是什么意思？你能重现我的输出吗？
我无法重现您的输出。能否请您展示转置前后的数据结构？

【解决方案2】：

我的处理方式有点不同。如果我将原始数据作为

> data
  Vars variable value
 Sleep Absolute  <NA>
 Awake Absolute  <NA>
   REM Absolute     5
  Deep Absolute     7
 Sleep  Average     7
 Awake  Average    12
   REM  Average  <NA>
  Deep  Average  <NA>
 Sleep      Min     4
 Awake      Min     5
   REM      Min  <NA>
  Deep      Min  <NA>
 Sleep      Max    10
 Awake      Max    15
   REM      Max  <NA>
  Deep      Max  <NA>

并将数据转换为

minmax <- ds[ds$variable %in% c("Min","Max"), ]
absol  <- ds[ds$variable %in% c("Average", "Absolute"), ]
minm   <- dcast(minmax, Vars ~ variable)
absol <- merge(absol, minm, by = "Vars", all.x = T)
>absol

      Vars variable value Max Min
     Awake  Average    12  15   5
      Deep Absolute     7  NA  NA
       REM Absolute     5  NA  NA
     Sleep  Average     7  10   4

那我可以用ggplot2，那我就可以用了

ggplot(absol, aes(x = Vars, y = value, fill = variable)) +
       geom_bar(stat = "identity") +
       geom_errorbar(aes(ymin = Min, ymax = Max), width = .25)

导致

【讨论】：

我在此处添加了一个 wiki 答案，以明确显示您的答案的数据转换：stackoverflow.com/a/44097150/54964
我要问为什么？数据的含义是什么？为什么会有差距？在这个问题中解释的差距似乎与数据类型有关，而不是完全随机缺失。
我正在考虑如何在这里使用这个dat.m <- melt(as.data.table(dat.m, keep.rownames = "Vars"), id.vars = "Vars") # https://stackoverflow.com/a/44128640/54964，而不是在这里手动转换为长表。你怎么看？我认为这一行在这里也很有用。
绝对可以。而且会提高效率。

【解决方案3】：

完成 akash87 的代码，因为他的原始数据集的答案中没有明确的数据转换

library("ggplot2")

dat.m <- read.csv("data.csv", strip.white=TRUE)

m <- t(dat.m)
dat.m <- data.frame(m[2:nrow(m),])
names(dat.m) <- m[1,]
dat.m$Vars <- rownames(m)[2:nrow(m)]

library("reshape2")
dat.m <- melt(dat.m, id.vars="Vars")

ds <- dat.m
# http://stackoverflow.com/a/44090815/54964
minmax <- ds[ds$variable %in% c("Min","Max"), ]
absol  <- ds[ds$variable %in% c("Average", "Absolute"), ]
minm   <- dcast(minmax, Vars ~ variable)
absol <- merge(absol, minm, by = "Vars", all.x = T)

absol

ggplot(absol, aes(x = Vars, y = value, fill = variable)) +
       geom_bar(stat = "identity") +
       geom_errorbar(aes(ymin = Min, ymax = Max), width = .25)

输出：与 akash87 的 aswer 相同。

【讨论】：

我认为转换为长表时也应该在这里应用以下答案：stackoverflow.com/a/44128640/54964

【解决方案4】：

这是使用data.table的非常简洁的版本：

library(data.table)

# read data and transpose
transposed <- data.table::dcast(data.table::melt(fread("data2.csv"), id.vars = "Vars"), 
                                variable ~ ...)
setnames(transposed, "variable", "Vars")
# reshape to long for plotting
molten <- data.table::melt(transposed, measure.vars = c("Absolute", "Average"))

编辑：我已经修改了上面的代码以使用双冒号运算符来明确说明应该从中获取melt() 和dcast() 的命名空间。通常，这不是必需的，因为 data.table 已经加载。但是，OP 报告的问题可能是由于在 data.table 之后加载包 reshape2 引起的。 data.table 包有自己更快的 reshape2::dcast() 和 reshape2::melt() 实现。当由于某种原因加载了两个包时，可能会发生名称冲突。

library(ggplot2)
ggplot(molten, aes(Vars, value, fill = variable, ymin = Min, ymax = Max)) + 
  geom_col() + geom_errorbar(width = 0.2)

数据

我不得不从 csv 文件中删除 "。这是摆脱来自fread() 抱怨标题格式的错误消息的最快方法。所以，data2.csv 看起来像：

Vars    ,   Sleep,  Awake,    REM, Deep 
Absolute,        ,       , 5     , 7
Average , 7      , 12    ,       , 
Min     , 4      , 5     ,       , 
Max     , 10     , 15    ,       ,

【讨论】：

请尝试更新代码。你的环境中的某些东西似乎混在一起了。对我来说，代码工作正常。也许，您需要使用干净的 R 会话重新启动？
感谢您提供来自sessionInfo() 的输出。正如我编辑的答案中所怀疑的那样，您已经加载了reshape2，这可以解释这些问题。所以，要么试试我编辑的代码（它明确地调用了melt()和dcast()的data.tableversions）或者尽量避免加载reshape2。
请同时显示输入文件test111.csv的内容。
我相信，我已经解开了谜团：这些都是由数据中的"引起的。作为一种解决方法，请从输入文件中删除这些并再次测试。稍后我会适当地更新我的答案中的代码。
让我们continue this discussion in chat.

【解决方案5】：

您的代码的问题是您在 ggplot aes 函数中使用带引号的“Vars”而不是简单的 Vars。此外，您的数据集的标题是混乱的。 Absolute, Average, ... 应该是数据集的列名，而不是值本身。这就是为什么你会从 melt 函数中得到错误。

鉴于您的数据集，这是我的尝试：

#Data
data = cbind.data.frame(c("Sleep", "Awake", "REM", "Deep"),
                        c(NA, NA, 5, 7),
                        c(7, 12, NA, NA),
                        c(4, 5, NA, NA),
                        c(10, 15, NA, NA))
colnames(data) = c("Vars", "Absolute", "Average", "Min", "Max")

#reshape
dat.m <- melt(data, id.vars="Vars")
#Stacked plot
ggplot(dat.m, aes(x = Vars, y = value)) + geom_bar(aes(fill=variable), stat = "identity")

这将产生：

#Or multiple bars
ggplot(dat.m, aes(x = Vars, y = value)) + 
  geom_bar(aes(fill=variable), stat = "identity", position="dodge")

#Or separated by Vars
ggplot(dat.m, aes(x = Vars, y = value)) + geom_bar(aes(fill=variable), stat = "identity", position="dodge") + facet_wrap( ~ Vars, scales="free")

我正在为答案添加另一个图表。这与@Uwe 的回答合作。

#data
data <- structure(list(Vars = structure(1:2, class = "factor", .Label = c("V1", "V2")), ave = c(7L, 8L), ave_max = c(10L, 10L), lepo = c(4L, 4L)), .Names = c("Vars", "ave", "ave_max", "lepo"), row.names = c(NA, -2L), class = c("data.table", "data.frame"), sorted = "Vars")
#Melt
library(data.table)
mo = data.table::melt(data, measure.vars = c("ave"))
ggplot(mo, aes(x = Vars, y = value, fill = variable, ymin = lepo, ymax = ave_max)) + geom_col() + geom_errorbar(width = 0.2)

这将产生：

【讨论】：

@LéoLéopoldHertz준영 这里不能加图片，不过很简单。只需将 dat.m 替换为 ggplot 中的熔体即可。例如，ggplot(molten, aes(x = Vars, y = value)) + geom_bar(aes(fill=variable), stat = "identity", position="dodge")。
太好了，很高兴我能帮上忙。
mo = data.table::melt(data, measure.vars = c("Absolute", "Average"))ggplot(mo, aes(Vars, value, fill = variable, ymin = Min, ymax = Max)) + geom_col() + geom_errorbar(width = 0.2)
这是你想要的吗？ mo = data.table::melt(data, measure.vars = c("ave"))ggplot(mo, aes(x = Vars, y = value, ymin = lepo, ymax = ave_max, fill = Vars)) + geom_col() + geom_errorbar(width = 0.2)
在最后一张图中，我会添加ggplot(mo, aes(x = Vars, y = value, fill = variable, ymin = lepo, ymax = ave_max)) + geom_col() + geom_errorbar(width = 0.2)，因为这些值是平均值。