lingxueqian

信息图形化

利用图形可以对数据进行直观的阐释

  • 频数是一种统计方法,用于描述一个类别中有多少个项
  • 标度会产生误解(从0开始和从10开始)
  • 条形图可以用来展示类别数据(展示每一项占总体的频数)
  • 直方图中,长方形面积表示频数
  • 使用折线图表示频数累计

集中趋势的度量

通过平均值,我们可以找到最有代表性的数据

均值:在数据非常对称,且进显示出一种趋势时使用

中位数:数据出于异常值发生偏斜时使用

众数:遇到类别数据(唯一能用于类别的平均值类型),当数据可以分为两个或更多组时使用

分散性与变异性的度量

通过各种距和差,我们可以更好地认知数据

全距:度量数据离散程度的方法 (上界- 下界),很容易受到异常值的影响

四分位距不太受异常值影响,这些距离可以很好的度量数据的分散性

数据的变异性:数据的稳定程度,用方差来衡量

使用标准分可以对不同数集进行比较,对这些不同的方差和均值做标准化(将数据转化为一个均值为0,方差为0的标准分布) :Z = (X - 均值)/ 方差

概率的计算

事件:有概率可言的一个结果和一件事

发生A事件的概率 = 发生A事件的可能数目/所有可能的结果数目(S:样本空间)

概率只是对某事件发生可能性的一种表达,并非担保。

条件概率:在B已经发生的情况下A发生的概率,我们可以利用概率树来表示条件概率

  • P(A|B) = P(A∩B)/P(B)

全概率公式:根据条件概率计算一个特定事件的概率

  • P(B) = P(A)P(B|A)+P(A)P(B|A)

贝叶斯定理:提供了计算逆条件概率的方法,当你无法预知每种概率的情况下很有用

  • P(A|B) = P(A)P(B|A) / (P(A)P(B|A)+P(A)P(B|A))

  • 例子:80%人玩A游戏,20%人玩B游戏,在玩A游戏的玩家中,60%人觉得好玩,40%觉得不好玩,而玩B的游戏玩家中,70%觉得好玩,30%觉得不好玩,如果一个人说好玩,那么他玩游戏2的概率有多大?

    • P(GAME2 | GOOD) = 游戏2满意的概率/游戏1满意+游戏2满意
  • 就是我们想知道P(A|B),我们只需要知道P(B|A),我们可以反推出来他

相关和独立:P(A|B) = P(A) ,两个事件独立,独立也就是不相关的事件,相关是一个动态的过程,有了这个事件我会改变另一个事件是相关的,不要和交集弄混了,维恩图是无法表现出相关的(想象一下,相关是一个改变你概率的过程,比如加入相关事件你的概率就会变大变小,交集只是代表我们有相同的事件)

离散概率分布的运用

我们可以利用期望来预测长期结果,利用期望的方差来预测结果的确定性

概略分布描述了一个给定变量的所有可能结果的概率

期望:指出一个变量的典型值或平均值,也就是所期望的长期平均结果

  • 当变量X 按照aX+b 的形式进行变换,E(AX+B) = AE(X) + B
  • 方差为 a2var(X)

期望的方差:度量得到这个结果的确定性

两个随机变量进行加减,方差都会增大

排列与组合

除法可以消除排列!

n个对象的排列为n!

那么从n个对象中取m个进行排列就是n!/ (n-m)! ,我们利用除法消除了n-m个项的排列

那么组合是从一个群体中抽取几个对象,不考虑对象之间的排列顺序,所以我们还可以继续利用除法消除

因为从n个对象中取m个进行排列就是n!/ (n-m)!,一共有m个对象,m个对象的排列时m!,所以从n个对象中取m个的组合为n!/ (n-m)!m!

几何分布、二项分布、泊松分布

有一些特定的概率分布模式,可以让我们更快速的计算期望,方差

几何分布:取得第一次成功所需要的实验次数的概率,失败是q,成功是p,那么P(X = R) = p*q^(r-1),x~geo(p)

  • 独立实验
  • 每一次实验都存在失败和成功的可能
  • 你感兴趣的是取得第一次成功需要多少次
  • ex = 1/p,var = q/p^2
  • 是一种特殊情况下的二项分布
    • (C(n,1)/ n) *pq^(r-1),x~B(p)

二项分布:n次实验中成功r次的概率,P(X = R) = C(n,r) *pq^(r-1),x~B(p)

  • 独立实验
  • 每一次实验都存在失败和成功的可能
  • 试验次数有限
  • p小于0.5,图形向右偏斜
  • ex = np, var =npq

泊松分布:单独事件在给定区间内随机,独立的发生,并且已知该区间内的事件平均发生次数,则在该区间内发生r次时间的概率分布我们称为泊松分布

  • 期望和方差是一样的
  • 我们知道,概率 = 发生的事件/ 总事件,在泊松分布中,发生的事件就是该区间内取某个值,而总事件是给定区间内的所有可能,是趋向于无穷的,那么取到该点的概率也就趋向于0,带入到二项分布中,也就是n趋向于无穷大,p趋向与0,而我们又得到了平均发生次数,也是是二项分布的期望np(Lambda),所以可以推导出泊松分布的公式
  • 泊松分布是二项分布的极限情况,也就是有无穷个事件,在知道平均发生次数的情况下,发生r次的概率是多少,

正态分布的运用

正态分布是一种连续性的概率分布,连续数据包含一个数据范围,这个范围的任何一个数值都有可能发生

  • 连续概率分布可以用概率密度函数进行描述

  • 概率密度指出各个范围内概率的大小

  • 在概率密度函数中,面积等于概率,总面积的等于1

  • 考虑在二项分布中,n非常非常大,以至于达到了连续的状态,那么就会呈现为正态分布

  • 正态概率计算的三个步骤

    • 确定分布范围
    • 使其标准化(均值为0,方差为1)
    • 查找概率

超越正态

两个正态分布的方差和均值可以相加

当np和nq双双大大于5时,我们可以用正态分布来代替二项分布

进行代替时,我们要对数据做连续性修正一般是P(a-0.5<x<b+0.5)

当lambda很大的时候,泊松分布趋向于正态分布

抽样统计的应用

当事件的数量十分庞大的时候,我们如何收集数据?

  • 总体:研究的所有对象
  • 样本:总体中的部分对象
    • 无偏样本:代表目标总体,样本与总体样本有相似性

选择样本的方法:

  • 简单随机抽样

  • 重复抽样

  • 不重复抽样

  • 分层抽样:将总体分割为几个相似的组

  • 整群抽样:将目标划分为几个群,对群进行简单随机抽样

  • 系统抽样:每k个单位进行一次调查

总体和样本的估计

如何通过样本了解总体?如何通过总体参数估计样本?

  • 可以用样本均值去估计整体均值(点估计量)
  • 利用n-1进行方差估计,而不是n,这样样本方差会和总体方差更接近
  • 利用样本的成功比例,估计总体的成功比例

当我们知道了总体的参数,可以来预估样本的参数

  • 从一个总体中取得所有大小为n的可能样本,这些样本的比例形成一个分布,也就是比例抽样分布,我们用ps代表样本比例随机变量
  • E(ps) = EX/N = NP/N = P
  • var(ps) = pq/n
  • 如果n大于30,则ps符合正态分布,于是ps~N(p,pq/n),需要进行连续性修正

如果考虑从同一个总体中所有大小为n的可能样本,然后用这些样本的均值形成分布,则该分布为均值的抽样分布,我们用 x-表示样本均值的随机变量

  • 期望= 总体均值
  • 方差 = 总体方差/n
  • 中心极限定理:不管你的总体是不是正态分布,你对总体进行(随机)取多个样本,每个样本的均值的分布是正态分布的,比如工资数据不是正态分布的(有多个峰),那我们可以取100个样本,每个样本有10个人的工资,那么每个样本的均值呈现的是正态分布,利用它对整体进行估计
    • x~N(u,simga^2/n)
    • 样本中的个数越多,总体均值对其估计越可靠(方差越小)

置信区间的构建

仅靠一个样本的点估计量代表总体,万一样本出现了问题怎么办?

我们可以利用一个区间去代替点估计量,比如我们可以说总体均值介于a和b之间,而不用说总体均值就是多少,这一结果具有的可信程度P(b<X<b) = 0.95,我们说(a,b)是一个置信区间

  • 中心极限定理告诉我们,样本均值的分布是符合正态分布的,我么可以利用这个特性来构建均值的区间

如何求置信区间?

  • 选择总体统计量
  • 求出其抽样分布(u,s^2/n)
  • 决定置信水平(比如0.95)
  • 求出置信上下限
    • 化为标准分
    • 1.96 <x-u/(根号s^2/n) <1.96

当样本很小时,s^2/n很大,无法用正态分布,转而使用t分布

  • t分布只有一个参数,自由度v = n-1

假设检验

  • 确定要进行检验的假设
    • 我们假设原假设为真,如果我们有足够多的证据取反驳原假设,则拒绝原假设,接受备择假设(我们想证明原假设到底是不是真的,是一种质疑)
  • 选择检验统计量
  • 确定用于做决策的拒绝域
    • 这组数值给出反驳原假设的最极端证据
  • 求出检验统计量的p值
  • 查看样本结果是否处于拒绝域内
    • 比如单尾检测,p值小于0.05,则位于拒绝域中
  • 做出决策

卡方分布

期望与事实存在差别的时候,如何判断?是正常波动,还是概率模型出现了差别

卡方分布用来判断观察频数和期望频数之间的差别(比如中奖1000元我们认为概率是1%,那么100人中我们期望有一个人中了,但是我们却发现实际上100人中有5个人中奖了)

  • 卡方值小,表示观察频数和期望之间差别不大,大则说明区别大
  • 卡方分布只有一个参数“纽(v)”,当等于1或2时,是一条先高后低的曲线(长尾),观察频数接近期望频数
    • v = 组数 - 限制数
  • 大于2则开始趋向正态分布

对频数进行观察,根据特定的概率分布算出期望频数,然后算出自由度和检验统计量卡方,利用假设检验,查看两者是否有差别(拟合优度检测)

  • 你想看看你手上的数据符不符合你期望的分布

卡方分布还可以检验独立性:两者是否有联系?

  • 将列和行进行联立

  • 自由度是(行-1)*(列-1)

相关与回归

发现事物之间的关系

  • 相关系数
  • 最小二乘法

附录

切比雪夫定理:适用于任何分布
对于任意数据集,至少75%的数值位于2个标准差的范围内,至少89%的数值位于3个标准差的范围内

如何设计实验?

  • 控制(对照组)
  • 随机分配
    • 完全随机
    • 随机化区组 ,男/女
    • 配对:两个相似的样本划分为对子
  • 需要重复实验

分类:

技术点:

相关文章: