最小错误率贝叶斯决策的基本思想_理一理贝叶斯

从一个经典的例子说起

假设某流行病的感染率为1% ，则未被感染者（健康人）的概率为99% ，记事件A为患病，记事件B为不患病，则有：

P(A) = 1% P(B) = 99%

病人去医院检测为阳性的概率为99%，健康人检测为阳性（误诊）的概率为1%，记X为事件检测为阳性，则有：

P(X|A)=99% P(X|B)=1%

现在有位同学去医院检测结果为阳性，那么问这位同学患病的概率是多少？

当我们不知道P(A) P(B)的情况下，直觉上会感觉大概率是患病了；反过来，如果这位同学没有去检测的话，即只知道P(A) P(B)，我们会根据经验判断他大概率没有患病。

这里我们称P(A) P(B)为先验概率，P(X|A) P(X|B)为条件概率，X为观测值。则我们要求的结果为P(A|X)，即观测为阳性的条件下患病的概率，P(A|X)称为后验概率。贝叶斯定理巧妙的结合了先验知识和观测值，得到最优的结果：

根据全概率公式：

带入则可得：P(A|X)=0.5，即该同学患病的概率实际为50%。

最小错误率贝叶斯决策

根据上述贝叶斯公式，我们可以设计出一个分类器：

其中

代表第

类，

是先验概率，

成为类条件概率密度，这样就可以通过先验概率和条件密度的乘积得到后验概率。

再举个例子说明这个贝叶斯公式是如何进行分类的：假如我们的任务是区分学校里的男生和女生，观测值为身高（即通过身高判断性别），那么给出一个样本的观测值

之后（比如160cm），我们需要知道

和

从而计算出

，其中

表示类别为男生，

表示类别为女生。先验概率

很容易获得，统计一部分抽样样本的男女比重即可，

的含义是类别为

时身高为

的概率，可以由概率密度函数得到（身高应遵循正态分布），而这个

概率密度的函数形式可以通过统计量去近似，这样我们就可以得到后验概率。

所谓最小错误率就是求解一种决策规则，使得分类的错误率最大，那么在给定观测值

时，直观的

选择后验概率最大的那一类作为分类结果即可：

最小风险贝叶斯决策

回到检测流行病的例子，假如我们设计了一个贝叶斯分类器，根据先验和观测值判断是否病，现在我们考虑错判的损失：如果我们将一个健康的人判断为患病，那么这个人会受到精神上不必要的压力，这可以理解为一种损失；但是，如果我们把一个病人错判为健康，继而错失了治疗的好时机，这个损失则更为严重。因此在上述贝叶斯公式计算得到的50%患病概率基础上，考虑使风险最小化，应当分为患病的类别。

引入损失函数

表示实际类别为

，决策为

时带来的损失量，那么给定观测值

，对其采取决策

的期望损失为：

那么：

若

，则

，即决策为第

类。

上面已经提到，贝叶斯决策需要用到先验概率
和类条件概率密度
。其中，先验概率的估计比较简单，只需要根据大量的样本统计每个类别所占的比例，或者直接根据领域的先验知识直接确定。因此，
对概率密度函数
的估计
是贝叶斯决策的核心，一般都是通过训练数据去估计。在流行病的例子中，
表示患病与否的检测结果，是个二值的观测结果，符合0-1分布，比较容易估计；但是在身高测量的例子中，身高
是个连续的变量，遵循高斯分布，而高斯分布有两个参数：
和
，估计起来就相对麻烦；还有观测值概率密度函数分布形式未知的情况，这个时候就没有显式的参数去估计，需要用到非参数估计的方法。

极大似然估计

适用于概率密度函数形式已知，参数未知且是一个固定值的情况，如概率密度函数为正态分布，但是
和
未知，记
此时可以将类条件概率密度记作
。
在有一定量的训练样本的前提下，我们可以通过这些样本去估计
的值。

对于N个训练样本的观测值

，出现各个样本的

联合概率

这个式子的含义是：在参数取值为

时，得到

这组样本的概率，如果我们充分相信这组样本，即假定

这组样本很好的反应了该类下样本观测值的整体分布情况，那么应该取使得

尽可能大的参数值

，记作：

求解方法：带入样本观测值
，对待估计参数求偏导，使得
。

贝叶斯估计

极大似然估计有什么不足？

上面提到，在训练样本很好的反应了该类的概率分布函数的前提下用最大似然估计去估计参数，但是这个前提一定可以保证么？比如我们抽样了五个女生测量身高，但是这五个女生身高都偏高（假设都是170cm），那么用这一组样本估计的

和

都是很不准确的。

极大似然估计在训练样本量少的情况，对待估参数值的拟合效果不理想。

参数一定是固定形式的未知值吗？

极大似然估计假设待估计参数是一个固定且未知的值，是否可以将这个参数看也成一个遵循某种分布的随机变量？

回到测量身高判断性别的例子，男女生身高的概率密度函数都遵循正态分布，但是这个正态分布的均值参数还要受到地域、年级等因素的影响，考虑将参数看成遵循某种分布（如正态分布）的随机变量，比如对于女生而言，将其身高的正态分布参数

看作服从均值为

（如160cm）的正态分布。

将参数看成随机变量的意义？

将

看作变量，在训练样本量少时，可以有效减少噪音带来的误差。参考正态分布的曲线，将

看作固定值其实是一种将其看作变量的极端情况（方差为0）。众所周知，概率密度函数的积分为1，所以我们可以将参数的概率密度分布看作参数在不同取值时的权重分布，参数在不同的取值以不同的权重对决策结果进行贡献，且所有权重的和为1，有种提高泛化能力的感觉。

如果将参数看作随机变量，它的分布如何确定，如何理解？

如果认为待估计参数

本身服从正态分布，那么这个分布自身也有参数

和

，这两个参数由

先验知识确定（一定是确定的量，如果也看成随机变量，就是套娃的感觉了）。再看测量身高的例子，

和

可以由班主任给出，因为班主任比较熟悉班里的同学，如女生身高服从均值160cm的正态分布，方差也可以粗略给出，这样引入这个先验知识，可以有效避免极大似然估计在样本量少的时候的弊端。

引入先验之后怎么做？

参数

的先验分布为

，现已给出，观察等式：

看起来根据这个参数先验分布

可以直接得到类条件概率

，这样岂不是可以直接带入贝叶斯公式得到后验概率

了。是可以得到这个数值，但是这样的话就存在一个严重的问题：没有用到训练样本，这肯定是不行的，学习机怎么可以不学习！这个问题的本质是：参数的先验分布是不可靠的，它仅仅只能作为参考。班主任对学生身高的估计只是印象流，需要

用对训练数据真正的观测值对这个先验分布进行矫正，这一步的实现也是通过贝叶斯公式。

所以最后的结论是：贝叶斯估计的学习过程是根据训练样本对参数的先验分布的学习过程，使其不断的往真实的分布收敛，当样本量接近无穷时，可以无限逼近真实分布。

极大似然估计的计算复杂度比较低，在样本量充足的时候效果也非常好，但是在样本量不足时，由于贝叶斯估计引入了先验知识，并且采取对参数分布求期望的方式，效果更有保障。

贝叶斯估计的实现步骤

图片截自东南大学张敏灵老师PPT

根据训练样本D对参数的先验分布进一步学习，得到参数的后验分布

对参数的后验概率积分，得到类条件概率密度（此处
是
的缩写）

将类条件概率密度带入贝叶斯公式，得到后验概率，即决策结果

原文链接：https://blog.csdn.net/weixin_42416398/article/details/112160260