平均值的 3 个标准差答案

【问题标题】：3 standard deviations of the mean平均值的 3 个标准差
【发布时间】：2018-01-21 01:20:00
【问题描述】：

我有一个数据集。是生物材料。我已经输入了标准偏差，我可以看到我所有的数据条 2 数据点都在平均值的 3sd 以内。是否接受落在平均值 3sd 以内的数据点在正常变化范围内？还是取决于数据的范围和分散？我不是数学家。如果我有一个控制过程，只是有人试图解决。我一直认为 3sd 代表 95% 的数据，因此其中的数据属于正态分布，不值得研究。然而，我经常被要求根据图表的外观调查 2sd 以内的数据！

当使用标准差时，应该在什么时候调查数据异常？

非常感谢您的任何帮助

【问题讨论】：

95% 代表 2 个标准差； 3sd 为 99.7%。也许消除这种困惑已经回答了你的问题，我不确定。
异常值可能很少见，但这并不意味着您应该忽略它们。
这是一道编程题？
我正在使用该应用程序。不太清楚你在哪里发帖。
我投票结束这个问题，因为它是关于统计和Mathematics，而不是编程或软件开发。

标签： math statistics standard-deviation

【解决方案1】：

你应该看看68–95–99.7 rule。

如果您的数据服从正态分布，则大约 95% (95.45%) 的数据将落在平均值的两个标准差范围内。如果数据遵循另一种分布，您可以通过Chebyshev's inequality 说，至少 75% 的数据必然落在两个标准差内。假设一个正态分布，大约 99.7% (99.73%) 的数据将落在平均值的三个标准差内。如果不是正态分布，至少有 89% (88.8888%) 会落在那里。

请注意，即使您的数据服从正态分布，机会（抽样误差）也会使这些百分比并非完全如此。

所以数字确实取决于您的数据，尤其是数据的分布类型和数据点的数量。如果你有 1000 个数据点，你仍然会得到 3 个标准差之外的大约 3 个点。

【讨论】：

我已阅读您的链接。从阅读中我的理解是，如果我的数据集遵循正态分布（我相信我正在查看的材料会），那么预计我的 99.7% 的数据应该会落在 3SD 范围内。对于样本量/误差，0.3% 将发挥更大的作用，我应该期望找到异常值。我们使用 ST DEV 来监控工艺步骤或操作中的变化，我的理解是，如果它在 3SD 范围内发生变化，我不必过分担心，尤其是当它恢复时。
+1 用于仔细区分正态分布和其他分布（尤其是与切比雪夫不等式的联系）。每次我读到 3 sigma rule 被解释为适用于每个发行版时，我都可以离开。