【问题标题】:Understanding of ggplot for histograms in RR中直方图的ggplot的理解
【发布时间】:2016-07-19 09:31:21
【问题描述】:

我正在使用 ggplot2 包在 R 中创建一些直方图。我只是想检查一下我是否正确理解了语法/参数。代码如下。

ggplot(data=q2_table, aes(q2_table$some_column)) + 
geom_histogram(breaks=seq(0, 500, by = 2), 
col="black", 
fill="grey", 
alpha = .2) + 
labs(title="Histogram for Distribution of Some Column") +
labs(x="Days Binned", y="Count") + 
xlim(c(0,300)) + 
ylim(c(0,100000))

据我了解:

  • 我正在从表“q2_table”中选择一个名为“some_column”的列
  • 此列中的最小值/最大值分别为 0 和 500
  • 条形为灰色,轮廓为黑色
  • 标题为“某列分布的直方图”
  • x 和 y 标签分别为“Days Binned”和“Count”
  • x 轴限制为 300
  • y 轴限制为 100,000

假设以上是正确的,我的问题如下;

  • “by = 2”参数在做什么?
    geom_histogram(breaks=seq(0, 500, by = 2),
  • “alpha =.2”与什么有关?
    alpha = .2)+
  • geom_histogram(breaks=seq(0, 500, by = 2)xlim(c(0,300)) 之间是否存在关系,使得最后一个 bin 的大小基本上是 300+? 换句话说,xlim(c(0,300)) 是一种根据geom_histogram(breaks=seq(0, 500, by = 2), 中定义的最小/最大值确定 bin 大小的方法

下面的直方图用于说明。

【问题讨论】:

  • do ?seq ,当您使用 seq 时,您给出一个值,在您的情况下为 0 到 500 ,间隔 2 个。我猜 alpha 是透明点,xlim 是设置 x -轴。他们之间当然有关系。如果你有 100 个值并将你的 xlim 设置为 20,那么它只会显示 20 个值
  • 如果你不喜欢使用?或帮助了解 ggplot 的作用,请查看此页面 statmethods.net/advgraphs/ggplot2.html 您的大部分疑问都在这里解决
  • 谢谢@Learner,我想我很难理解实际的分箱是如何工作的。我习惯于在 Excel 中执行此操作,我将自己的 bin 定义为 0-5、6-10、11-15、16-20 等。
  • 我了解,如果您想以不同方式设置垃圾箱,则可以使用 breaks= c(0:5,6:10,11:15, 16:20)

标签: r math ggplot2 histogram


【解决方案1】:

问题 1:“by = 2”参数在做什么?

答案1:“By = 2”表示柱线是在2的区间内创建的

问题 2:“alpha =.2”与什么有关?

答案2:这与图形的不透明度有关,alpha = 1 表示纯色,alpha = 0 表示绝对透明。所以 alpha = 0.2 已被用于减轻条形阴影。

问题 3: geom_histogram(breaks=seq(0, 500, by = 2) 和 xlim(c(0,300)) 之间是否存在关系,使得最后一个 bin 的大小基本上会是 300+ 吗?换句话说,xlim(c(0,300)) 是一种确定 bin 大小的方法,基于 geom_histogram(breaks=seq(0, 500, by = 2) 中定义的最小/最大值?

答案 3: 是的,两者之间存在关系。它只是第一个设置范围,第二个必须在该范围内定义。

如果您有任何不明白的地方,请告诉我。我很乐意提供帮助:)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-12-17
    • 2018-12-16
    • 1970-01-01
    • 2021-08-04
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多