发现对概率论的基本概念理解不是很深入,导致看后面的东西时常有些莫名其妙的疑惑,回头来看看概率论与统计
1. 累积分布函数(CDF – Cumulative distribution function 或直接就叫 distribution function)
CDF其定义为
)
正如统计学完全教程里说的,这个CDF函数是很有迷惑性的,有必要仔细理解它。我以前每次看这个表达式都是一闪而过,没有好好理解,而它的真正的意义应该是表示随机变量小于或等于其某一个取值x的概率。设一个例子,抛一枚均匀的硬币两次,设随机变量X表示出现正面的次数,那么2,所以这个函数的曲线如下图:
对于这个图,要想清楚清楚如下两个问题:
1)为什么函数始终是右连续的? 因为根据CDF的表达式中的小于等于号,当X=x时,P(X=x)的那部分应该被加到X上,因此在X=x处有一个值的跃升。如X=1时,P(X=1)已经是1/2了
2)为什么)可不是1/2,而是3/4 !!
因此F函数始终是非降的,右连续的,且1
2. 概率密度函数(PDF – Probability density function)
对于离散随机变量的PDF为:
)
对于连续随机变量,若存在一个函数1,并且有
x
则)
表面看起来这个定义简单,但是要深入理解这些式子的含义,这个定义对后面整个机器学习的内容都是最基础最重要的。
其实后面所谓的 density estimation(EM algorithm和Sampling Methods)都是要估计出一个PDF来。
最简单的PDF就是比如翻硬币的例子,假如翻正面概率0.4,反面0.6,则这个模型的PDF就是{0.4, 0.6}
稍微复杂点的PDF就是univariate Gaussian啦,其实也不复杂,高中就见过
3. 伯努利、二项分布、多项分布
伯努利分布就是对单次抛硬币的建模,X~Bernoulli(p)的PDF为x,随机变量X只能取{0, 1}。对于所有的pdf,都要归一化!而这里对于伯努利分布,已经天然归一化了,因此归一化参数就是1。
很多次抛硬币的建模就是二项分布了。注意二项分布有两个参数,n和p,要考虑抛的次数。
二项分布的取值X一般是出现正面的次数,其PDF为:
x
n换成beta函数分之一即可,这样可以从整数情况推广为实数情况。所以beta分布是二项分布的实数推广!
多项分布则更进一层,抛硬币时X只能有两种取值,当X有多种取值时,就应该用多项分布建模。
这时参数p变成了一个向量)表示每一个取值被选中的概率,那么X~Multinomial(n,p)的PDF为:
x