深入浅出统计学

信息图形化

利用图形可以对数据进行直观的阐释

频数是一种统计方法，用于描述一个类别中有多少个项
标度会产生误解（从0开始和从10开始）
条形图可以用来展示类别数据（展示每一项占总体的频数）
直方图中，长方形面积表示频数
使用折线图表示频数累计

集中趋势的度量

通过平均值，我们可以找到最有代表性的数据

均值：在数据非常对称，且进显示出一种趋势时使用

中位数：数据出于异常值发生偏斜时使用

众数：遇到类别数据（唯一能用于类别的平均值类型），当数据可以分为两个或更多组时使用

分散性与变异性的度量

通过各种距和差，我们可以更好地认知数据

全距：度量数据离散程度的方法（上界- 下界），很容易受到异常值的影响

四分位距不太受异常值影响，这些距离可以很好的度量数据的分散性

数据的变异性：数据的稳定程度，用方差来衡量

使用标准分可以对不同数集进行比较，对这些不同的方差和均值做标准化（将数据转化为一个均值为0，方差为0的标准分布）：Z = （X - 均值）/ 方差

概率的计算

事件：有概率可言的一个结果和一件事

发生A事件的概率 = 发生A事件的可能数目/所有可能的结果数目（S：样本空间）

概率只是对某事件发生可能性的一种表达，并非担保。

条件概率：在B已经发生的情况下A发生的概率，我们可以利用概率树来表示条件概率

P(A|B) = P(A∩B)/P(B)

全概率公式：根据条件概率计算一个特定事件的概率

P(B) = P(A)P(B|A)+P(A^)P(B|A)

贝叶斯定理：提供了计算逆条件概率的方法，当你无法预知每种概率的情况下很有用

P(A|B) = P(A)P(B|A) / (P(A)P(B|A)+P(A^)P(B|A))
例子：80%人玩A游戏，20%人玩B游戏，在玩A游戏的玩家中，60%人觉得好玩，40%觉得不好玩，而玩B的游戏玩家中，70%觉得好玩，30%觉得不好玩，如果一个人说好玩，那么他玩游戏2的概率有多大？
- P(GAME2 | GOOD) = 游戏2满意的概率/游戏1满意+游戏2满意
就是我们想知道P(A|B)，我们只需要知道P(B|A)，我们可以反推出来他

相关和独立：P(A|B) = P(A) ,两个事件独立，独立也就是不相关的事件，相关是一个动态的过程，有了这个事件我会改变另一个事件是相关的，不要和交集弄混了，维恩图是无法表现出相关的（想象一下，相关是一个改变你概率的过程，比如加入相关事件你的概率就会变大变小，交集只是代表我们有相同的事件）

离散概率分布的运用

我们可以利用期望来预测长期结果，利用期望的方差来预测结果的确定性

概略分布描述了一个给定变量的所有可能结果的概率

期望：指出一个变量的典型值或平均值，也就是所期望的长期平均结果

当变量X 按照aX+b 的形式进行变换，E(AX+B) = AE(X) + B
方差为 a2var(X)

期望的方差：度量得到这个结果的确定性

两个随机变量进行加减，方差都会增大

排列与组合

除法可以消除排列！

n个对象的排列为n！

那么从n个对象中取m个进行排列就是n!/ (n-m)! ，我们利用除法消除了n-m个项的排列

那么组合是从一个群体中抽取几个对象，不考虑对象之间的排列顺序，所以我们还可以继续利用除法消除

因为从n个对象中取m个进行排列就是n!/ (n-m)!，一共有m个对象，m个对象的排列时m!,所以从n个对象中取m个的组合为n!/ (n-m)!m!

几何分布、二项分布、泊松分布

有一些特定的概率分布模式，可以让我们更快速的计算期望，方差

几何分布：取得第一次成功所需要的实验次数的概率，失败是q，成功是p，那么P(X = R) = p*q^(r-1)，x~geo(p)

独立实验
每一次实验都存在失败和成功的可能
你感兴趣的是取得第一次成功需要多少次
ex = 1/p，var = q/p^2
是一种特殊情况下的二项分布
- (C(n,1)/ n) *pq^(r-1),x~B(p)

二项分布：n次实验中成功r次的概率，P(X = R) = C(n,r) *pq^(r-1),x~B(p)

独立实验
每一次实验都存在失败和成功的可能
试验次数有限
p小于0.5，图形向右偏斜
ex = np, var =npq

泊松分布：单独事件在给定区间内随机，独立的发生，并且已知该区间内的事件平均发生次数，则在该区间内发生r次时间的概率分布我们称为泊松分布

期望和方差是一样的
我们知道，概率 = 发生的事件/ 总事件，在泊松分布中，发生的事件就是该区间内取某个值，而总事件是给定区间内的所有可能，是趋向于无穷的，那么取到该点的概率也就趋向于0，带入到二项分布中，也就是n趋向于无穷大，p趋向与0，而我们又得到了平均发生次数，也是是二项分布的期望np（Lambda），所以可以推导出泊松分布的公式
泊松分布是二项分布的极限情况，也就是有无穷个事件，在知道平均发生次数的情况下，发生r次的概率是多少，

正态分布的运用

正态分布是一种连续性的概率分布，连续数据包含一个数据范围，这个范围的任何一个数值都有可能发生

连续概率分布可以用概率密度函数进行描述
概率密度指出各个范围内概率的大小
在概率密度函数中，面积等于概率，总面积的等于1
考虑在二项分布中，n非常非常大，以至于达到了连续的状态，那么就会呈现为正态分布
正态概率计算的三个步骤
- 确定分布范围
- 使其标准化（均值为0，方差为1）
- 查找概率

超越正态

两个正态分布的方差和均值可以相加

当np和nq双双大大于5时，我们可以用正态分布来代替二项分布

进行代替时，我们要对数据做连续性修正一般是P（a-0.5<x<b+0.5）

当lambda很大的时候，泊松分布趋向于正态分布

抽样统计的应用

当事件的数量十分庞大的时候，我们如何收集数据？

总体：研究的所有对象
样本：总体中的部分对象
- 无偏样本：代表目标总体，样本与总体样本有相似性

选择样本的方法：

简单随机抽样
重复抽样
不重复抽样
分层抽样：将总体分割为几个相似的组
整群抽样：将目标划分为几个群，对群进行简单随机抽样
系统抽样：每k个单位进行一次调查

总体和样本的估计

如何通过样本了解总体？如何通过总体参数估计样本？

可以用样本均值去估计整体均值（点估计量）
利用n-1进行方差估计，而不是n，这样样本方差会和总体方差更接近
利用样本的成功比例，估计总体的成功比例

当我们知道了总体的参数，可以来预估样本的参数

从一个总体中取得所有大小为n的可能样本，这些样本的比例形成一个分布，也就是比例抽样分布，我们用ps代表样本比例随机变量
E（ps） = EX/N = NP/N = P
var(ps) = pq/n
如果n大于30,则ps符合正态分布，于是ps~N(p,pq/n),需要进行连续性修正

如果考虑从同一个总体中所有大小为n的可能样本，然后用这些样本的均值形成分布，则该分布为均值的抽样分布，我们用 x-表示样本均值的随机变量

期望= 总体均值
方差 = 总体方差/n
中心极限定理：不管你的总体是不是正态分布，你对总体进行（随机）取多个样本，每个样本的均值的分布是正态分布的，比如工资数据不是正态分布的（有多个峰），那我们可以取100个样本，每个样本有10个人的工资，那么每个样本的均值呈现的是正态分布，利用它对整体进行估计
- x~N（u，simga^2/n）
- 样本中的个数越多，总体均值对其估计越可靠(方差越小)

置信区间的构建

仅靠一个样本的点估计量代表总体,万一样本出现了问题怎么办？

我们可以利用一个区间去代替点估计量，比如我们可以说总体均值介于a和b之间，而不用说总体均值就是多少，这一结果具有的可信程度P(b<X<b) = 0.95，我们说（a,b）是一个置信区间

中心极限定理告诉我们，样本均值的分布是符合正态分布的，我么可以利用这个特性来构建均值的区间

如何求置信区间？

选择总体统计量
求出其抽样分布（u，s^2/n）
决定置信水平（比如0.95）
求出置信上下限
- 化为标准分
- 1.96 <x-u/（根号s^2/n） <1.96

当样本很小时，s^2/n很大，无法用正态分布，转而使用t分布

t分布只有一个参数，自由度v = n-1

假设检验

确定要进行检验的假设
- 我们假设原假设为真，如果我们有足够多的证据取反驳原假设，则拒绝原假设，接受备择假设（我们想证明原假设到底是不是真的，是一种质疑）
选择检验统计量
确定用于做决策的拒绝域
- 这组数值给出反驳原假设的最极端证据
求出检验统计量的p值
查看样本结果是否处于拒绝域内
- 比如单尾检测，p值小于0.05，则位于拒绝域中
做出决策

卡方分布

期望与事实存在差别的时候，如何判断？是正常波动,还是概率模型出现了差别

卡方分布用来判断观察频数和期望频数之间的差别（比如中奖1000元我们认为概率是1%,那么100人中我们期望有一个人中了，但是我们却发现实际上100人中有5个人中奖了）

卡方值小，表示观察频数和期望之间差别不大，大则说明区别大
卡方分布只有一个参数“纽(v)”,当等于1或2时，是一条先高后低的曲线（长尾），观察频数接近期望频数
- v = 组数 - 限制数
大于2则开始趋向正态分布

对频数进行观察，根据特定的概率分布算出期望频数，然后算出自由度和检验统计量卡方，利用假设检验，查看两者是否有差别（拟合优度检测）

你想看看你手上的数据符不符合你期望的分布

卡方分布还可以检验独立性：两者是否有联系？

将列和行进行联立
自由度是（行-1）*（列-1）

附录

切比雪夫定理：适用于任何分布
对于任意数据集，至少75%的数值位于2个标准差的范围内，至少89%的数值位于3个标准差的范围内

如何设计实验？

控制（对照组）
随机分配
- 完全随机
- 随机化区组，男/女
- 配对：两个相似的样本划分为对子
需要重复实验