模式识别-从贝叶斯决策理论看模式分类

模式识别中的贝叶斯决策理论

理论路线

模式识别-从贝叶斯决策理论看模式分类

难点解析

话不多说，我们先梳理一下贝叶斯模式分类的基本流程：

收集训练样本
用每一类的样本估计类条件概率密度 $p(x|w_i)$
估计类先验概率 $p(w_i)$
得到模型参数集 { $p(x|w_i,\theta_i),p(w_i),i=1,...,M$ }

有这个比较确定的流程后，大家对贝叶斯决策就有了大致的印象。我们最终的目的是为了获取贝叶斯分类器，那么我们先从我们的最终目的讲起，然后再往前讲述如何获取分类器。

贝叶斯分类器

如本文开始的理论路线图，贝叶斯决策主要有两个路线，一个是根据最小错误率决策，另一个是根据最小风险决策，在风险决策的基础上，还有一个带拒识的最小风险决策。下面我们分别来讲解三个决策方法。

最小错误率决策

让我们先举一个简单例子，假如我们要做一个贝叶斯分类器，预测本文的下一个浏览者是男是女。假设我们没有使用任何信息获取的手段，单纯本人现有的背景知识（本文的背景是工科知识，而本人工科院校中男女比多为2:8），则应该有如下先验概率 ${p(w_1=woman)=0.2}$ , ${p(w_2=man)=0.8}$ 。有了这样的背景知识，我们可以分析如下：
$p(error)=\left\{ \begin{array}{rcl} p(w_2) & & {choose woman}\\ p(w_1) & & {choose man}\\ \end{array} \right.$
即在本例只有两个类别时，我们选择下一个访问者为女，那么错误概率就是另一个类别的先验概率 ${p(w_2=man)=0.8}$ 。那么很明显，我们在仅有先验概率情况下，为了减少错误率，我肯定猜测每一个访问者都为男，这样大量测试下，我正确率应该是0.8（假设我的背景知识是正确的）。
然后我们深入考虑一下。假如我技术突然进步，可以获取下一个来访者的资料，那么我选取资料中的头像来作为一个判别特征x，然后就有了如下公式
$p(error|x) =\left\{ \begin{array}{rcl} p(w_2|x) & & {choose woman}\\ p(w_1|x)& & {choose man}\\ \end{array} \right.$
即在头像篇女性化时，我假设他性别为女，头像偏男性化时，判断性别为男。那么就有了如下判据Evicence如果 $p(w_1|x)p(w_1)>p(w_2|x)p(w_2)$ ,那么我们就选择 $w_1$ ,否则选择 $w_2$ .即引出后验概率判据
$p(w_i|x)=\frac{p(x|w_i)p(w_i)} {p(x)}$ 我们来解释一下这个公式，分子是由似然估计 $p(x|w_i)$ 与先验概率 $p(w_i)$ 构成，结合我们之前考虑的先验概率，这里加上了似然估计。似然估计可以理解为我已知了进来的访客性别为女，那么我是由之前偏向女性的头像得出此结论的概率大小。而分母可以理解为是一种归一化操作，通过这种方式可以使后验概率的总和为1。 $p(x)=\sum_{i=0}^np(x|w_i)p(w_i)$ n为w的种类数，此处我们性别只有两个，男或者女。
在加入了特征矢量x后，分类器的性能会因为选取的特征好坏而有区别。

最小风险决策

先验概率、后验概率在最小错误率方法中使用过之后，我们在最小风险决策中引入了决策代价（loss），这个变量是说在实际生活中，我们分类环节过后，是具体的执行环节。但分类总不会是百分百正确的，那么在不同情景下，分类错误的代价是不同的，例如一批原材料很贵的产品线，你把产品的好坏判断错误会给工厂带来很大的经济损失。因此我们引入了决策代价 $\lambda_{ij}=\lambda(\alpha_i|w_j)$ 即正确类别是 $w_j$ 时，你错误的分类为i并采取了 $w_i$ 类别中的 $\alpha_i$ 操作。
同时引入了条件风险 $R=\int R(\alpha(x)|x)p(x)dx$ 。
此时，我们决策的依据变为
$arg\min_{i}R(\alpha_i|x)$

带拒识的决策

在引入决策代价后，有的人开始考虑是否我们每次一定要做出决策，是不是有的情况下我们不做决策会比做出错误率很大的决策好，所以有了带拒识的决策。
由于带拒识的决策是在风险决策的基础上，所以我们从决策代价函数写起：
$\lambda_{ij}=\left\{ \begin{array}{rcl} 0 & & {i=j}\\ \lambda_s & & {i\neq j}\\ \lambda_r & & {reject} \end{array} \right.$