【发布时间】:2021-10-21 07:55:14
【问题描述】:
我正在学习统计学,并且有一些关于 SD 的基本但核心的问题:
s = 样本量
n = 观察总数
xi = 第 i 次观察
μ = 所有观测值的算术平均值
σ = SD 的通常定义,即 Python 术语中的
((1/(n-1))*sum([(xi-μ)**2 for xi in s])**(1/2)f = 观察值的频率
- 我知道
(1/n)*sum([xi-μ for xi in s])是无用的(= 0),但(1/n)*sum([abs(xi-μ) for xi in s])不是衡量变化的标准吗? - 为什么停在 1 或 2 的幂?
((1/(n-1))*sum([abs((xi-μ)**3) for xi in s])**(1/3)或((1/(n-1))*sum([(xi-μ)**4 for xi in s])**(1/4)等等有什么意义吗? - 我的平方概念是,它“放大”了算术平均值的变化量度,而简单的绝对差在概念上有点线性比例。如果我将它立方(当然是绝对值)或四倍,它会不会放大它?
- 我同意计算立方体和四边形会更昂贵。但使用相同的论点,绝对值会更便宜……那为什么要平方呢?
- 为什么正态分布是这样的,即
f = (1/(σ*math.sqrt(2*pi)))*e**((-1/2)*((xi-μ)/σ))? - 如果我按照上面(1)和(2)的方式计算 SD,对上面的正态分布公式会有什么影响?
- 这仅仅是我们“习惯了正方形”的问题吗?它很可能是线性的、立方体的或四边形的,我们也会同样训练我们的思维?
(我上面的开括号和右括号的数量可能不是 100% 准确,但你会明白的。)
【问题讨论】:
-
1) 在同一篇文章中提出 7 个问题太多了。 2)本主题不属于“堆栈溢出”。而是将其发布在“数学”中。 3)请尝试更好地格式化文本,因为这看起来很乱。
-
这7个问题都是相关的,所以我把它们放在一起。在混乱中,它是一个降价表,当我处于编辑/预览模式时看起来还不错。将尝试使其成为纯文本。另外,我意识到这个问题可能更适合 stats.stackexchange.com,应该这样做。我不确定我是否应该在这里删除这个问题。
-
是的,stats 可能是最适合它的地方。重新发布后,您可能可以将其删除:)
-
我得到了一个绝妙的答案,所以把这个问题留在这里。 :)
-
在阅读上面 Arshiya 的出色答案时,只是一个快速评论。关于中心极限定理的一个令人惊奇的事情是,您可以推断样本意味着它始终遵循正态分布,无论样本如何分布(在某些条件下)。
标签: statistics standard-deviation