【发布时间】:2016-07-19 09:31:21
【问题描述】:
我正在使用 ggplot2 包在 R 中创建一些直方图。我只是想检查一下我是否正确理解了语法/参数。代码如下。
ggplot(data=q2_table, aes(q2_table$some_column)) +
geom_histogram(breaks=seq(0, 500, by = 2),
col="black",
fill="grey",
alpha = .2) +
labs(title="Histogram for Distribution of Some Column") +
labs(x="Days Binned", y="Count") +
xlim(c(0,300)) +
ylim(c(0,100000))
据我了解:
- 我正在从表“q2_table”中选择一个名为“some_column”的列
- 此列中的最小值/最大值分别为 0 和 500
- 条形为灰色,轮廓为黑色
- 标题为“某列分布的直方图”
- x 和 y 标签分别为“Days Binned”和“Count”
- x 轴限制为 300
- y 轴限制为 100,000
假设以上是正确的,我的问题如下;
- “by = 2”参数在做什么?
geom_histogram(breaks=seq(0, 500, by = 2), - “alpha =.2”与什么有关?
alpha = .2)+ -
geom_histogram(breaks=seq(0, 500, by = 2)和xlim(c(0,300))之间是否存在关系,使得最后一个 bin 的大小基本上是 300+? 换句话说,xlim(c(0,300))是一种根据geom_histogram(breaks=seq(0, 500, by = 2),中定义的最小/最大值确定 bin 大小的方法
下面的直方图用于说明。
【问题讨论】:
-
do ?seq ,当您使用 seq 时,您给出一个值,在您的情况下为 0 到 500 ,间隔 2 个。我猜 alpha 是透明点,xlim 是设置 x -轴。他们之间当然有关系。如果你有 100 个值并将你的 xlim 设置为 20,那么它只会显示 20 个值
-
如果你不喜欢使用?或帮助了解 ggplot 的作用,请查看此页面 statmethods.net/advgraphs/ggplot2.html 您的大部分疑问都在这里解决
-
谢谢@Learner,我想我很难理解实际的分箱是如何工作的。我习惯于在 Excel 中执行此操作,我将自己的 bin 定义为 0-5、6-10、11-15、16-20 等。
-
我了解,如果您想以不同方式设置垃圾箱,则可以使用 breaks= c(0:5,6:10,11:15, 16:20)