【问题标题】:3 standard deviations of the mean平均值的 3 个标准差
【发布时间】:2018-01-21 01:20:00
【问题描述】:

我有一个数据集。是生物材料。我已经输入了标准偏差,我可以看到我所有的数据条 2 数据点都在平均值的 3sd 以内。 是否接受落在平均值 3sd 以内的数据点在正常变化范围内? 还是取决于数据的范围和分散?我不是数学家。如果我有一个控制过程,只是有人试图解决。我一直认为 3sd 代表 95% 的数据,因此其中的数据属于正态分布,不值得研究。然而,我经常被要求根据图表的外观调查 2sd 以内的数据!

当使用标准差时,应该在什么时候调查数据异常?

非常感谢您的任何帮助

【问题讨论】:

  • 95% 代表 2 个标准差; 3sd 为 99.7%。也许消除这种困惑已经回答了你的问题,我不确定。
  • 异常值可能很少见,但这并不意味着您应该忽略它们。
  • 这是一道编程题?
  • 我正在使用该应用程序。不太清楚你在哪里发帖。
  • 我投票结束这个问题,因为它是关于统计和Mathematics,而不是编程或软件开发。

标签: math statistics standard-deviation


【解决方案1】:

你应该看看68–95–99.7 rule

如果您的数据服从正态分布,则大约 95% (95.45%) 的数据将落在平均值的两个标准差范围内。如果数据遵循另一种分布,您可以通过Chebyshev's inequality 说,至少 75% 的数据必然落在两个标准差内。假设一个正态分布,大约 99.7% (99.73%) 的数据将落在平均值的三个标准差内。如果不是正态分布,至少有 89% (88.8888%) 会落在那里。

请注意,即使您的数据服从正态分布,机会(抽样误差)也会使这些百分比并非完全如此。

所以数字确实取决于您的数据,尤其是数据的分布类型和数据点的数量。如果你有 1000 个数据点,你仍然会得到 3 个标准差之外的大约 3 个点。

【讨论】:

  • 我已阅读您的链接。从阅读中我的理解是,如果我的数据集遵循正态分布(我相信我正在查看的材料会),那么预计我的 99.7% 的数据应该会落在 3SD 范围内。对于样本量/误差,0.3% 将发挥更大的作用,我应该期望找到异常值。我们使用 ST DEV 来监控工艺步骤或操作中的变化,我的理解是,如果它在 3SD 范围内发生变化,我不必过分担心,尤其是当它恢复时。
  • +1 用于仔细区分正态分布和其他分布(尤其是与切比雪夫不等式的联系)。每次我读到 3 sigma rule 被解释为适用于每个发行版时,我都可以离开。
猜你喜欢
  • 2020-12-26
  • 2014-03-21
  • 1970-01-01
  • 2016-03-11
  • 1970-01-01
  • 2014-09-28
  • 1970-01-01
相关资源
最近更新 更多