信息图形化
利用图形可以对数据进行直观的阐释
- 频数是一种统计方法,用于描述一个类别中有多少个项
- 标度会产生误解(从0开始和从10开始)
- 条形图可以用来展示类别数据(展示每一项占总体的频数)
- 直方图中,长方形面积表示频数
- 使用折线图表示频数累计
集中趋势的度量
通过平均值,我们可以找到最有代表性的数据
均值:在数据非常对称,且进显示出一种趋势时使用
中位数:数据出于异常值发生偏斜时使用
众数:遇到类别数据(唯一能用于类别的平均值类型),当数据可以分为两个或更多组时使用
分散性与变异性的度量
通过各种距和差,我们可以更好地认知数据
全距:度量数据离散程度的方法 (上界- 下界),很容易受到异常值的影响
四分位距不太受异常值影响,这些距离可以很好的度量数据的分散性
数据的变异性:数据的稳定程度,用方差来衡量
使用标准分可以对不同数集进行比较,对这些不同的方差和均值做标准化(将数据转化为一个均值为0,方差为0的标准分布) :Z = (X - 均值)/ 方差
概率的计算
事件:有概率可言的一个结果和一件事
发生A事件的概率 = 发生A事件的可能数目/所有可能的结果数目(S:样本空间)
概率只是对某事件发生可能性的一种表达,并非担保。
条件概率:在B已经发生的情况下A发生的概率,我们可以利用概率树来表示条件概率
- P(A|B) = P(A∩B)/P(B)
全概率公式:根据条件概率计算一个特定事件的概率
- P(B) = P(A)P(B|A)+P(A)P(B|A)
贝叶斯定理:提供了计算逆条件概率的方法,当你无法预知每种概率的情况下很有用
-
P(A|B) = P(A)P(B|A) / (P(A)P(B|A)+P(A)P(B|A))
-
例子:80%人玩A游戏,20%人玩B游戏,在玩A游戏的玩家中,60%人觉得好玩,40%觉得不好玩,而玩B的游戏玩家中,70%觉得好玩,30%觉得不好玩,如果一个人说好玩,那么他玩游戏2的概率有多大?
- P(GAME2 | GOOD) = 游戏2满意的概率/游戏1满意+游戏2满意
-
就是我们想知道P(A|B),我们只需要知道P(B|A),我们可以反推出来他
相关和独立:P(A|B) = P(A) ,两个事件独立,独立也就是不相关的事件,相关是一个动态的过程,有了这个事件我会改变另一个事件是相关的,不要和交集弄混了,维恩图是无法表现出相关的(想象一下,相关是一个改变你概率的过程,比如加入相关事件你的概率就会变大变小,交集只是代表我们有相同的事件)
离散概率分布的运用
我们可以利用期望来预测长期结果,利用期望的方差来预测结果的确定性
概略分布描述了一个给定变量的所有可能结果的概率
期望:指出一个变量的典型值或平均值,也就是所期望的长期平均结果
- 当变量X 按照aX+b 的形式进行变换,E(AX+B) = AE(X) + B
- 方差为 a2var(X)
期望的方差:度量得到这个结果的确定性
两个随机变量进行加减,方差都会增大
排列与组合
除法可以消除排列!
n个对象的排列为n!
那么从n个对象中取m个进行排列就是n!/ (n-m)! ,我们利用除法消除了n-m个项的排列
那么组合是从一个群体中抽取几个对象,不考虑对象之间的排列顺序,所以我们还可以继续利用除法消除
因为从n个对象中取m个进行排列就是n!/ (n-m)!,一共有m个对象,m个对象的排列时m!,所以从n个对象中取m个的组合为n!/ (n-m)!m!
几何分布、二项分布、泊松分布
有一些特定的概率分布模式,可以让我们更快速的计算期望,方差
几何分布:取得第一次成功所需要的实验次数的概率,失败是q,成功是p,那么P(X = R) = p*q^(r-1),x~geo(p)
- 独立实验
- 每一次实验都存在失败和成功的可能
- 你感兴趣的是取得第一次成功需要多少次
- ex = 1/p,var = q/p^2
- 是一种特殊情况下的二项分布
- (C(n,1)/ n) *pq^(r-1),x~B(p)
二项分布:n次实验中成功r次的概率,P(X = R) = C(n,r) *pq^(r-1),x~B(p)
- 独立实验
- 每一次实验都存在失败和成功的可能
- 试验次数有限
- p小于0.5,图形向右偏斜
- ex = np, var =npq
泊松分布:单独事件在给定区间内随机,独立的发生,并且已知该区间内的事件平均发生次数,则在该区间内发生r次时间的概率分布我们称为泊松分布
- 期望和方差是一样的
- 我们知道,概率 = 发生的事件/ 总事件,在泊松分布中,发生的事件就是该区间内取某个值,而总事件是给定区间内的所有可能,是趋向于无穷的,那么取到该点的概率也就趋向于0,带入到二项分布中,也就是n趋向于无穷大,p趋向与0,而我们又得到了平均发生次数,也是是二项分布的期望np(Lambda),所以可以推导出泊松分布的公式
- 泊松分布是二项分布的极限情况,也就是有无穷个事件,在知道平均发生次数的情况下,发生r次的概率是多少,
正态分布的运用
正态分布是一种连续性的概率分布,连续数据包含一个数据范围,这个范围的任何一个数值都有可能发生
-
连续概率分布可以用概率密度函数进行描述
-
概率密度指出各个范围内概率的大小
-
在概率密度函数中,面积等于概率,总面积的等于1
-
考虑在二项分布中,n非常非常大,以至于达到了连续的状态,那么就会呈现为正态分布
-
正态概率计算的三个步骤
- 确定分布范围
- 使其标准化(均值为0,方差为1)
- 查找概率
超越正态
两个正态分布的方差和均值可以相加
当np和nq双双大大于5时,我们可以用正态分布来代替二项分布
进行代替时,我们要对数据做连续性修正一般是P(a-0.5<x<b+0.5)
当lambda很大的时候,泊松分布趋向于正态分布
抽样统计的应用
当事件的数量十分庞大的时候,我们如何收集数据?
- 总体:研究的所有对象
- 样本:总体中的部分对象
- 无偏样本:代表目标总体,样本与总体样本有相似性
选择样本的方法:
-
简单随机抽样
-
重复抽样
-
不重复抽样
-
分层抽样:将总体分割为几个相似的组
-
整群抽样:将目标划分为几个群,对群进行简单随机抽样
-
系统抽样:每k个单位进行一次调查
总体和样本的估计
如何通过样本了解总体?如何通过总体参数估计样本?
- 可以用样本均值去估计整体均值(点估计量)
- 利用n-1进行方差估计,而不是n,这样样本方差会和总体方差更接近
- 利用样本的成功比例,估计总体的成功比例
当我们知道了总体的参数,可以来预估样本的参数
- 从一个总体中取得所有大小为n的可能样本,这些样本的比例形成一个分布,也就是比例抽样分布,我们用ps代表样本比例随机变量
- E(ps) = EX/N = NP/N = P
- var(ps) = pq/n
- 如果n大于30,则ps符合正态分布,于是ps~N(p,pq/n),需要进行连续性修正
如果考虑从同一个总体中所有大小为n的可能样本,然后用这些样本的均值形成分布,则该分布为均值的抽样分布,我们用 x-表示样本均值的随机变量
- 期望= 总体均值
- 方差 = 总体方差/n
- 中心极限定理:不管你的总体是不是正态分布,你对总体进行(随机)取多个样本,每个样本的均值的分布是正态分布的,比如工资数据不是正态分布的(有多个峰),那我们可以取100个样本,每个样本有10个人的工资,那么每个样本的均值呈现的是正态分布,利用它对整体进行估计
- x~N(u,simga^2/n)
- 样本中的个数越多,总体均值对其估计越可靠(方差越小)
置信区间的构建
仅靠一个样本的点估计量代表总体,万一样本出现了问题怎么办?
我们可以利用一个区间去代替点估计量,比如我们可以说总体均值介于a和b之间,而不用说总体均值就是多少,这一结果具有的可信程度P(b<X<b) = 0.95,我们说(a,b)是一个置信区间
- 中心极限定理告诉我们,样本均值的分布是符合正态分布的,我么可以利用这个特性来构建均值的区间
如何求置信区间?
- 选择总体统计量
- 求出其抽样分布(u,s^2/n)
- 决定置信水平(比如0.95)
- 求出置信上下限
- 化为标准分
- 1.96 <x-u/(根号s^2/n) <1.96
当样本很小时,s^2/n很大,无法用正态分布,转而使用t分布
- t分布只有一个参数,自由度v = n-1
假设检验
- 确定要进行检验的假设
- 我们假设原假设为真,如果我们有足够多的证据取反驳原假设,则拒绝原假设,接受备择假设(我们想证明原假设到底是不是真的,是一种质疑)
- 选择检验统计量
- 确定用于做决策的拒绝域
- 这组数值给出反驳原假设的最极端证据
- 求出检验统计量的p值
- 查看样本结果是否处于拒绝域内
- 比如单尾检测,p值小于0.05,则位于拒绝域中
- 做出决策
卡方分布
期望与事实存在差别的时候,如何判断?是正常波动,还是概率模型出现了差别
卡方分布用来判断观察频数和期望频数之间的差别(比如中奖1000元我们认为概率是1%,那么100人中我们期望有一个人中了,但是我们却发现实际上100人中有5个人中奖了)
- 卡方值小,表示观察频数和期望之间差别不大,大则说明区别大
- 卡方分布只有一个参数“纽(v)”,当等于1或2时,是一条先高后低的曲线(长尾),观察频数接近期望频数
- v = 组数 - 限制数
- 大于2则开始趋向正态分布
对频数进行观察,根据特定的概率分布算出期望频数,然后算出自由度和检验统计量卡方,利用假设检验,查看两者是否有差别(拟合优度检测)
- 你想看看你手上的数据符不符合你期望的分布
卡方分布还可以检验独立性:两者是否有联系?
-
将列和行进行联立
-
自由度是(行-1)*(列-1)
相关与回归
发现事物之间的关系
- 相关系数
- 最小二乘法
附录
切比雪夫定理:适用于任何分布
对于任意数据集,至少75%的数值位于2个标准差的范围内,至少89%的数值位于3个标准差的范围内
如何设计实验?
- 控制(对照组)
- 随机分配
- 完全随机
- 随机化区组 ,男/女
- 配对:两个相似的样本划分为对子
- 需要重复实验