最大似然参数估计的求解

前导知识：【最大似然参数估计的基本原理】

回顾一下似然函数公式：
$l(\theta)=\rho(X|\theta)=\rho(x_1,x_2,...,x_N|\theta)=\prod_{i=1}^{N} \rho(x_i|\theta) \tag 1$
其中的函数形式 $\rho(·)$ 是已知的，其中的 $x_i$ 也都是已知的，未知量只有 $\theta$ 。在似然函数满足连续、可微的条件下，如果 $\theta$ 是一维变量，即只有一个待估计参数，其最大似然估计量就是如下微分方程的解：
$\frac{dl(\theta)}{d\theta} =0 \tag 2$
或
$\frac{dH(\theta)}{d\theta}=0 \tag 3$
更一般地，当 $\theta=[\theta_1,...,\theta_s]^T$ 是由多个未知参数组成的向量时，求解似然函数的最大值就需要对 $\theta$ 的每一维分别求偏导，即用下面的梯度算子：
$\bigtriangledown_{\theta} = [\frac{\partial}{\partial \theta_1},...,\frac{\partial}{\partial \theta_n}]^T \tag 4$
来对似然函数或者对数似然函数求梯度并令其等于零：
$\bigtriangledown_{\theta} l(\theta) = 0 \tag 5$
或
$\bigtriangledown_{\theta} H(\theta) = \sum_{i=1}^{N} \bigtriangledown_{\theta} \ln \rho(x_i|\theta) = 0 \tag 6$
得到 $s$ 个方程，方程组的解就是对数似然函数的极值点。

在某些情况下，似然函数可能有多个极值，此时上述方程组可能有多个解，其中使得似然函数最大的那个解才是最大似然估计量。

注意：
并不是所有的概率密度形式都可以用上面的方法求得最大似然估计。比如，一维随机变量 $x$ 服从均匀分布：
$\rho(x|\theta) = \left\{ \begin{array}{cc} \frac{1}{\theta_2-\theta_1} & \theta_1 < x < \theta_2 \\ 0 & 其他 \end{array} \right . \tag 7$
其中分布的参数 $\theta_1$ 、 $\theta_2$ 未知。从总体分布中独立抽取了 $N$ 个样本 $x_1,x_2,...,x_N$ ，则似然函数为：
$l(\theta)=\rho(X|\theta)= \left\{ \begin{array}{cc} \rho(x_1,x_2,...,x_N|\theta_1,\theta_2)=\frac{1}{(\theta_2-\theta_1)^N} & \theta_1 < x < \theta_2 \\ 0 & 其他 \end{array} \right . \tag 8$
对数似然函数为：
$H(\theta)=-N \ln (\theta_2-\theta_1) \tag 9$
通过式 $(6)$ 求：
$\frac{\partial H}{\partial \theta_1} = N · \frac{1}{\theta_2-\theta_1} \\ \frac{\partial H}{\partial \theta_2} = -N · \frac{1}{\theta_2-\theta_1} \tag {10}$
从上式解出的参数 $\theta_1$ 和 $\theta_2$ 至少有一个无穷大，这是无意义的结果。
造成这种情况的原因是似然函数在最大值的地方没有零斜率，所以必须换一种方法来求最大值。从 $(7)$ 中可以看到，当 $\theta_2-\theta_1$ 越小时，则似然函数越大。而在给定一个有观测值 $x_1,x_2,...,x_N$ 的样本集中，如果用 $x_{min}$ 表示观察值中最小的一个，用 $x_{max}$ 表示观察值中最大的一个，显然 $\theta_1 \leq x_{min}$ ， $\theta_2 \geq x_{max}$ ，因此 $\theta_2-\theta_1$ 的最小可能值是 $x_{max}-x_{min}$ ，这时 $\theta$ 的最大似然估计量是：
$\hat{\theta_1} = x_{min} \\ \hat{\theta_2} = x_{max} \tag {11}$

原文链接：https://blog.csdn.net/linjing_zyq/article/details/120380136