为什么标准偏差是观测值与平均值之差的平方？答案

【问题标题】：Why is Standard Deviation the square of difference of an obsevation from the mean?为什么标准偏差是观测值与平均值之差的平方？
【发布时间】：2021-10-21 07:55:14
【问题描述】：

我正在学习统计学，并且有一些关于 SD 的基本但核心的问题：

s = 样本量

n = 观察总数

xi = 第 i 次观察

μ = 所有观测值的算术平均值

σ = SD 的通常定义，即 Python 术语中的((1/(n-1))*sum([(xi-μ)**2 for xi in s])**(1/2)

f = 观察值的频率

我知道(1/n)*sum([xi-μ for xi in s]) 是无用的（= 0），但(1/n)*sum([abs(xi-μ) for xi in s]) 不是衡量变化的标准吗？
为什么停在 1 或 2 的幂？ ((1/(n-1))*sum([abs((xi-μ)**3) for xi in s])**(1/3) 或 ((1/(n-1))*sum([(xi-μ)**4 for xi in s])**(1/4) 等等有什么意义吗？
我的平方概念是，它“放大”了算术平均值的变化量度，而简单的绝对差在概念上有点线性比例。如果我将它立方（当然是绝对值）或四倍，它会不会放大它？
我同意计算立方体和四边形会更昂贵。但使用相同的论点，绝对值会更便宜……那为什么要平方呢？
为什么正态分布是这样的，即f = (1/(σ*math.sqrt(2*pi)))*e**((-1/2)*((xi-μ)/σ))？
如果我按照上面（1）和（2）的方式计算 SD，对上面的正态分布公式会有什么影响？
这仅仅是我们“习惯了正方形”的问题吗？它很可能是线性的、立方体的或四边形的，我们也会同样训练我们的思维？

（我上面的开括号和右括号的数量可能不是 100% 准确，但你会明白的。）

【问题讨论】：

1) 在同一篇文章中提出 7 个问题太多了。 2）本主题不属于“堆栈溢出”。而是将其发布在“数学”中。 3）请尝试更好地格式化文本，因为这看起来很乱。
这7个问题都是相关的，所以我把它们放在一起。在混乱中，它是一个降价表，当我处于编辑/预览模式时看起来还不错。将尝试使其成为纯文本。另外，我意识到这个问题可能更适合 stats.stackexchange.com，应该这样做。我不确定我是否应该在这里删除这个问题。
是的，stats 可能是最适合它的地方。重新发布后，您可能可以将其删除:)
我得到了一个绝妙的答案，所以把这个问题留在这里。 :)
在阅读上面 Arshiya 的出色答案时，只是一个快速评论。关于中心极限定理的一个令人惊奇的事情是，您可以推断样本意味着它始终遵循正态分布，无论样本如何分布（在某些条件下）。

标签： statistics standard-deviation

【解决方案1】：

因此，如果您正在寻找分散指数，您实际上并没有必须使用标准差。您确实可以报告平均绝对偏差，即您建议的汇总统计数据。您只需要了解每个汇总统计数据的行为方式，例如 SD 将更多权重分配给离群变量。您还应该考虑如何解释每一个。例如，对于正态分布，我们知道有多少分布位于平均值±2SD 之间。有关平均绝对偏差（以及平均绝对偏差的其他度量，例如中值平均偏差）及其用途的一些讨论，请参阅here。

除了用作衡量传播的方法之外，SD 还与方差有关，这与它受欢迎的其他一些原因有关，因为方差具有一些很好的数学特性。数学家或统计学家将能够在这里提供更明智的答案，但平方差是一个平滑函数，并且在任何地方都是可微的，允许人们通过分析确定最小值，这有助于使用最小二乘估计将函数拟合到数据。有关更多详细信息以及与最小绝对偏差的比较，请参阅here。方差发光的另一个主要领域是它可以很容易地分解和求和，这在例如 ANOVA 和回归模型中通常很有用。请参阅here 进行讨论。

关于你关于提升到更高权力的问题，它们实际上确实在统计中有用！一般来说，均值（与平均绝对均值有关）、方差（与标准差有关）、偏度（与三次方有关）和峰度（与三次方有关）都与 @ 987654324@ 的分布。对这些权力提出的差异并将它们标准化可以提供有关分布形状的有用信息。我链接的视频提供了一些简单的直觉。

有关 SD 为何如此受欢迎的其他答案和更广泛的讨论，请参阅here。

关于sigma和正态分布的关系，sigma只是一个拉伸标准正态分布的参数，就像平均值改变它的位置一样。这只是标准正态分布（均值 = 0 且 SD = 方差 = 1 的正态分布）在数学上定义的方式的结果，请注意，所有正态分布都可以从标准正态分布导出。 This answer 说明了这一点。现在，您也可以参数化正态分布in other ways，但我相信您确实需要提供 sigma，无论是使用 SD 还是精度。我认为您甚至不能仅使用均值和均值绝对差对正态分布进行参数化。现在，一个更深层次的问题是为什么正态分布在表示广泛不同的现象方面如此有用，并且无处不在。我认为这是中心极限定理的related，但我不太了解该定理的proofs，无法进一步评论。

【讨论】：

这很有帮助！感谢您抽出宝贵的时间！我将浏览您粘贴的链接，以便我对该领域有更好的“直觉”。而且我也确实尝过中心极限定理，不知道为什么会这样！目前，我已经接受了它的表面价值。
不客气！ CLT 有一段非常有趣的历史和一些我链接的证明，但正如我所说，我自己并不熟悉它们！