本文取自美国统计学家David Salsburg的作品《女士品茶-统计学如何变革了科学和生活》

未经允许请勿转载!

关于统计模型概念融入科学的确切时刻,很难得到准确的回答。比如,拉普拉斯发明了误差函数,用于解决天文学中的统计问题。但很多人认同,统计革命始于19世纪90年代的卡尔·皮尔逊,其革命性思想开启了用统计模型描述数学本质中的随机性的时代实验结果不再被看作是仔细测量的精确数字,相反的,他们只是一堆数字,更常用的说法是,数字的分布

女士品茶——统计学如何变革了科学和生活1

卡尔·皮尔逊(1857年3月27日-1936年4月27

1.科学即是测量的旧时代——决定论

在高中物理课上,我们常被教导,物体自由落下的距离和时间的关系可以用一个公式表示,公式中包含一个符号g,表示公里加速度,我们可以通过实验确定g的值。但当我们为此进行一系列实验——让小型物体滚下斜坡、测量到达不同位置需要的时间时,试验次数越多,我们就越困惑,因为不同实验的除了不同的g值。老师安慰我们,即使是最仔细的科学家也很少测出准确的数字,因为干扰的是难以避免的,可能一只蝴蝶扇动了翅膀、空气过于温暖...我们真正从实验中得到的只是一堆数字,而没有一个数字是正确的,但我们可以用这些数字对准确值做出近似的估计。

决定论认为,面搜狐事物落向地球的中立常熟是一个固定的数字。

18,19世纪,人们普遍接受了天文学家和物理学家提出的数学公式,用来对观测物体进行预测。人们认为,观测值和预测值之间的偏差是观测仪器本身的不精确造成的,而不是大自然造成的。

2. 大自然固有的随机性?

但随着测量仪器精度的不断提高,大自然固有的随机性开始显现。拉普拉斯在1820年创造性的描述了首个概率分布:误差函数,用来描述这些测量值和预测值之间的偏差(微小误差)。这种分布被普通民众称为“钟形曲线”,或者正态分布、高斯分布。这里顺便提下有趣的误称定律:数学上一些以人名命名的概念都不是以发现者的名字命名的。人们曾以为高斯是第一个写出正态分布公式的人,而实际上是比他更早的亚伯拉罕·棣莫弗。

女士品茶——统计学如何变革了科学和生活1

拉普拉斯 (1749 - 1827)

皮尔逊在误差分布的基础上,又向前迈进了一步。在研究生物学积累的数据时,他想到,具有概率分布的可能不是测量值的误差,而是测量值本身。我们测量的数据只是随机分布的一部分,而随机分布的概率是由分布函数这个数学函数描述的。他提出了偏斜分布可以描述数学上的任何一种分布,并且每个分布都可以用四个数值来确定。这四个数值分别是:均值、标准差、对称度、峰度。在皮尔逊之前,科学的处理对象是看得见摸得着的真实存在。而皮尔逊提出,这些观测到的现象只是一些随机的映像,概率分布才是真实的东西。科学研究的真正对象不是我们可以触摸观测到的物体,而是描述我们观测的事物随机性的数学函数。在科学研究中,我们真正需要确定的,是分布的四个参数。

从某种程度上说,我们永远无法真正确定这四个参数,只能通过数据对他们进行估计。但皮尔逊在最后这一点上认识不够。他认为只要我们收集到了足够多的数据,就能获得参数的真实值。

3. 混沌理论?决定论的复辟尝试

20世纪80年代,出现了一种新的数学模型,引起了大众的无穷想象,这主要归功于她的名字:“混沌理论”。这个名字暗示了它是一种随机性极强的统计模型。1963年混沌理论学家爱德华·洛伦兹发表了题为《煽动翅膀的巴西蝴蝶会引起德克萨斯的龙卷风吗?》的研究。她的主要观点在于:混沌的数学函数对初始条件非常敏感,初始条件的微小差异在经过多次迭代后可能导致完全不同的结果。洛伦兹的演讲以决定论为基本假设,他认为每个初始条件在理论上都能找到一个最终答案。

4.概率中的频数学派和贝叶斯学派

大数定律:如果一个事件拥有固定的概率(比如抛掷一枚筛子,落地时6点朝上的概率),如果我们不断进行相同的实验,该事件发生的比例将越来越接近于该概率。

频数学派对概率的定义:某一事件的概率是从长期来看该事件发生次数的占比。

贝叶斯学派:从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。

频率学派试图描述的是事物本体,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新

更详尽的区分,可参考知乎:https://www.zhihu.com/question/20587681

5.拟合优度的检验(Goodness of Fit

卡尔·皮尔逊通过比较预测值和观测值之间的差异,获得了一个检验拟合优度的统计量,他称之为“卡方拟合优度检验”。并引起了现代统计分析中的一个重要组成部分,即“假设检验”或“显著性分析”。卡方拟合优度只有一个参数,费希尔称之为:自由度。


相关文章:

  • 2021-08-03
  • 2022-02-18
  • 2021-06-28
  • 2021-07-10
  • 2021-11-30
  • 2022-02-02
  • 2021-07-22
  • 2021-10-24
猜你喜欢
  • 2022-12-23
  • 2021-08-15
  • 2022-12-23
  • 2021-10-20
  • 2021-11-12
  • 2021-06-18
  • 2021-05-31
相关资源
相似解决方案