【发布时间】:2015-09-11 02:28:01
【问题描述】:
我有一个只有数字的大型数据集(25,00 条记录),我想知道它的 80% 阈值。每当我尝试在其上运行boxplot(data) 时,结果并不清楚,因为我有很多值:
我试图绕过它并想出了boxplot(data, outline = FALSE),结果如下:
所以基本上我想知道两件事:
1) 第二张图上面的线代表75%正确吗?如果是这样,那么我如何将 75% 更改为 80%。
2) 我不显示异常值的方式是否正确?或者也许有更简单的方法来显示 80% 的阈值?
很抱歉没有提供可重现的示例,但如果有必要,我会进行编辑。
【问题讨论】:
-
上一行是哪一行?你的意思是虚线末端的胡须还是盒子顶部的胡须?将上须线绘制到 i) 1.5*IQR 或 ii) 数据限制的最小值。盒子的上边缘是上铰链。它几乎但并不总是数据的上四分位数。
-
@GavinSimpson 我指的是盒子的上边缘。在这种情况下是 40。这是否意味着整个数据集的 75% 低于 40?
-
几乎;正如我所说,它不是上四分位数,而是上铰链。阅读
?boxplot.stats,了解区别是什么,哪里不是上四分位数。 -
如果您不确定显示的内容,请运行
quantile(yourdata, probs=0.8)以获取 80% 分位数 -
假设您只有一列数据:
quantile(data[,1], probs=0.8)应该可以解决问题