模式识别中的贝叶斯决策理论
理论路线

难点解析
话不多说,我们先梳理一下贝叶斯模式分类的基本流程:
- 收集训练样本
- 用每一类的样本估计类条件概率密度p(x∣wi)
- 估计类先验概率p(wi)
- 得到模型参数集 {p(x∣wi,θi),p(wi),i=1,...,M}
有这个比较确定的流程后,大家对贝叶斯决策就有了大致的印象。我们最终的目的是为了获取贝叶斯分类器,那么我们先从我们的最终目的讲起,然后再往前讲述如何获取分类器。
贝叶斯分类器
如本文开始的理论路线图,贝叶斯决策主要有两个路线,一个是根据最小错误率决策,另一个是根据最小风险决策,在风险决策的基础上,还有一个带拒识的最小风险决策。下面我们分别来讲解三个决策方法。
最小错误率决策
让我们先举一个简单例子,假如我们要做一个贝叶斯分类器,预测本文的下一个浏览者是男是女。假设我们没有使用任何信息获取的手段,单纯本人现有的背景知识(本文的背景是工科知识,而本人工科院校中男女比多为2:8),则应该有如下先验概率p(w1=woman)=0.2,p(w2=man)=0.8。有了这样的背景知识,我们可以分析如下:
p(error)={p(w2)p(w1)choosewomanchooseman
即在本例只有两个类别时,我们选择下一个访问者为女,那么错误概率就是另一个类别的先验概率p(w2=man)=0.8。那么很明显,我们在仅有先验概率情况下,为了减少错误率,我肯定猜测每一个访问者都为男,这样大量测试下,我正确率应该是0.8(假设我的背景知识是正确的)。
然后我们深入考虑一下。假如我技术突然进步,可以获取下一个来访者的资料,那么我选取资料中的头像来作为一个判别特征x,然后就有了如下公式
p(error∣x)={p(w2∣x)p(w1∣x)choosewomanchooseman
即在头像篇女性化时,我假设他性别为女,头像偏男性化时,判断性别为男。那么就有了如下判据Evicence如果p(w1∣x)p(w1)>p(w2∣x)p(w2),那么我们就选择w1,否则选择w2.即引出后验概率判据
p(wi∣x)=p(x)p(x∣wi)p(wi)我们来解释一下这个公式,分子是由似然估计p(x∣wi) 与先验概率p(wi)构成,结合我们之前考虑的先验概率,这里加上了似然估计。似然估计可以理解为我已知了进来的访客性别为女,那么我是由之前偏向女性的头像得出此结论的概率大小。而分母可以理解为是一种归一化操作,通过这种方式可以使后验概率的总和为1。p(x)=∑i=0np(x∣wi)p(wi)n为w的种类数,此处我们性别只有两个,男或者女。
在加入了特征矢量x后,分类器的性能会因为选取的特征好坏而有区别。
最小风险决策
先验概率、后验概率在最小错误率方法中使用过之后,我们在最小风险决策中引入了决策代价(loss),这个变量是说在实际生活中,我们分类环节过后,是具体的执行环节。但分类总不会是百分百正确的,那么在不同情景下,分类错误的代价是不同的,例如一批原材料很贵的产品线,你把产品的好坏判断错误会给工厂带来很大的经济损失。因此我们引入了决策代价λij=λ(αi∣wj)即正确类别是wj时,你错误的分类为i并采取了wi类别中的αi操作。
同时引入了条件风险R=∫R(α(x)∣x)p(x)dx。
此时,我们决策的依据变为
argiminR(αi∣x)
带拒识的决策
在引入决策代价后,有的人开始考虑是否我们每次一定要做出决策,是不是有的情况下我们不做决策会比做出错误率很大的决策好,所以有了带拒识的决策。
由于带拒识的决策是在风险决策的基础上,所以我们从决策代价函数写起:
λij=⎩⎨⎧0λsλri=ji̸=jreject