3.1引言

在之前介绍的贝叶斯决策时，我们进行了两项假设：

决策问题是以概率形式提出的
所有相关的概率值都是已知的

但在实际问题中我们往往只能根据样本来估计先验概率与类条件概率密度的值。
所以实际上基于样本的两步贝叶斯应该，首先根据训练样本估计概率密度函数，再根据估计的概率密度函数设计分类器。

概率密度函数的估计方法分为两大类：

参数估计：已知概率密度函数的形式，但其中部分参数未知，主要方法有最大似然估计和贝叶斯估计
非参数估计：概率密度函数的形式未知，需要用样本把概率密度函数数值化的估计出来，最基本的直方图法、 $k_N$ 近邻法和 Parzen 窗法。

3.2 最大似然估计

3.2.1 最大似然估计的基本原理

在2.4节中我们补充过关于似然性、似然函数的相关内容，最大似然估计在 $\theta$ 的所有可能取值中寻找一个值使得似然函数取到最大值。这个使可能性最大的 $\hat{\theta}$ 值即称为 $\theta$ 的最大似然估计。
即：
$\chi = \{ x_1，x_2，…，x_N\} \quad(3-1) \newline l(\theta) = p(\chi|\theta) = p(x_1，x_2，…，x_N|\theta) = \prod\limits_{i=1}^N p(x_i|\theta) \quad(3-2) \newline \hat{\theta} = \argmax l(\theta)$
有时，为了便于分析，还可以定义对数自然函数
$H(\theta) = \ln l(\theta) = \ln \prod\limits_{i=1}^N p(x_i|\theta) = \sum\limits_{i=1}^N \ln p(x_i|\theta) \quad(3-4)$

3.2.2 最大似然估计的求解

如果 $\theta$ 是一维变量，则是求微分方程的解
$\dfrac{dl(\theta)}{d\theta}=0 \quad(3-5) 或 \dfrac{dH(\theta)}{d\theta}=0 \quad(3-6)$
更一般的，当 $\theta$ 是由多个未知参数组成的向量时，需要对 $\theta$ 的每一维分别求偏导，即用梯度算子
$\nabla_{\theta}=[\frac{\partial}{\partial\theta_1}，…，\frac{\partial}{\partial\theta_s}]^T \quad(3-7)$
对似然函数或者对数似然函数求梯度
$\nabla_\theta l(\theta) = 0 \quad(3-8) \newline \nabla_\theta H(\theta) = \sum\limits_{i=1}^N \nabla_\theta \ln p(x_i|\theta) = 0 \quad(3-9)$
得到方程组的解。并不是所有的概率密度形式都可以用上面的方法求得最大似然估计，例如服从均匀分布而一维随机变量 $x$ 。
并且极大似然估计不一定存在，也不一定唯一。

3.2.3 正态分布下的最大似然估计

根据（3-9）以及正态分布概率密度函数
$\ln p(x_k|\theta) = -\dfrac{1}{2} \ln 2\pi \theta_2-\dfrac{1}{2\theta_2}(x_k-\theta_1)^2 \quad(3-19)$
分别求偏导
$\nabla_\theta \ln p(x_k|\theta) = \Bigg [ \begin{matrix} \dfrac{1}{\theta}(x_k-\theta_1) \\ -\frac{1}{2\theta_2}+\dfrac{1}{2\theta_2^2}(x_k-\theta_1)^2 \end{matrix} \Bigg ] \quad(3-20)$
得到方程组
$\begin{cases} \sum\limits_{k=1}^N \dfrac{1}{\hat{\theta_2}}(x_k-\hat{\theta_1}) = 0\\-\sum\limits_{k=1}^N \dfrac{1}{\hat{\theta_2}}+\sum\limits_{k=1}^N \dfrac{(x_k- \hat{ \theta_1 }) ^2}{\hat{\theta_2^2}} \end{cases} \quad(3-21)$
解得
$\hat{\mu}=\hat{\theta_1}=\frac{1}{N}\sum\limits_{k=1}^N x_k \quad(3-22) \newline \hat{\delta}^2=\hat{\theta}_2=\dfrac{1}{N}\sum\limits_{k=1}^N (x_k-\hat{\mu})^2 \quad(3-23)$
多元正态分布的结论也类似
$\hat{\mu}=\dfrac{1}{N}\sum\limits_{i=1}^N x_i \quad(3-24) \newline \hat{\Sigma}=\dfrac{1}{N}\sum\limits_{i=1}^N (x_i-\hat{\mu})(x_i-\hat{\mu})^T \quad(3-25)$

参考
张学工. 模式识别. 第三版. 北京：清华大学出版社，2010
张学工，汪小我. 模式识别与机器学习. 第四版. 北京：清华大学出版社，2021
部分图片来源于网络

原文链接：https://blog.csdn.net/laofoye99/article/details/126667999