最大似然参数估计的求解

最大似然参数估计的求解

前导知识:【最大似然参数估计的基本原理】

回顾一下似然函数公式:
l ( θ ) = ρ ( X ∣ θ ) = ρ ( x 1 , x 2 , . . . , x N ∣ θ ) = ∏ i = 1 N ρ ( x i ∣ θ ) (1) l(\theta)=\rho(X|\theta)=\rho(x_1,x_2,...,x_N|\theta)=\prod_{i=1}^{N} \rho(x_i|\theta) \tag 1l(θ)=ρ(Xθ)=ρ(x1,x2,...,xNθ)=i=1Nρ(xiθ)(1)
其中的函数形式ρ ( ⋅ ) \rho(·)ρ()是已知的,其中的x i x_ixi也都是已知的,未知量只有θ \thetaθ。在似然函数满足连续、可微的条件下,如果θ \thetaθ是一维变量,即只有一个待估计参数,其最大似然估计量就是如下微分方程的解:
d l ( θ ) d θ = 0 (2) \frac{dl(\theta)}{d\theta} =0 \tag 2dθdl(θ)=0(2)

d H ( θ ) d θ = 0 (3) \frac{dH(\theta)}{d\theta}=0 \tag 3dθdH(θ)=0(3)
更一般地,当θ = [ θ 1 , . . . , θ s ] T \theta=[\theta_1,...,\theta_s]^Tθ=[θ1,...,θs]T是由多个未知参数组成的向量时,求解似然函数的最大值就需要对θ \thetaθ的每一维分别求偏导,即用下面的梯度算子:
▽ θ = [ ∂ ∂ θ 1 , . . . , ∂ ∂ θ n ] T (4) \bigtriangledown_{\theta} = [\frac{\partial}{\partial \theta_1},...,\frac{\partial}{\partial \theta_n}]^T \tag 4θ=[θ1,...,θn]T(4)
来对似然函数或者对数似然函数求梯度并令其等于零:
▽ θ l ( θ ) = 0 (5) \bigtriangledown_{\theta} l(\theta) = 0 \tag 5θl(θ)=0(5)

▽ θ H ( θ ) = ∑ i = 1 N ▽ θ ln ⁡ ρ ( x i ∣ θ ) = 0 (6) \bigtriangledown_{\theta} H(\theta) = \sum_{i=1}^{N} \bigtriangledown_{\theta} \ln \rho(x_i|\theta) = 0 \tag 6θH(θ)=i=1Nθlnρ(xiθ)=0(6)
得到s ss个方程,方程组的解就是对数似然函数的极值点。

在某些情况下,似然函数可能有多个极值,此时上述方程组可能有多个解,其中使得似然函数最大的那个解才是最大似然估计量。

注意
并不是所有的概率密度形式都可以用上面的方法求得最大似然估计。比如,一维随机变量x xx服从均匀分布:
ρ ( x ∣ θ ) = { 1 θ 2 − θ 1 θ 1 < x < θ 2 0 其 他 (7) \rho(x|\theta) = \left\{ \begin{array}{cc} \frac{1}{\theta_2-\theta_1} & \theta_1 < x < \theta_2 \\ 0 & 其他 \end{array} \right . \tag 7ρ(xθ)={θ2θ110θ1<x<θ2(7)
其中分布的参数θ 1 \theta_1θ1θ 2 \theta_2θ2未知。从总体分布中独立抽取了N NN个样本x 1 , x 2 , . . . , x N x_1,x_2,...,x_Nx1,x2,...,xN,则似然函数为:
l ( θ ) = ρ ( X ∣ θ ) = { ρ ( x 1 , x 2 , . . . , x N ∣ θ 1 , θ 2 ) = 1 ( θ 2 − θ 1 ) N θ 1 < x < θ 2 0 其 他 (8) l(\theta)=\rho(X|\theta)= \left\{ \begin{array}{cc} \rho(x_1,x_2,...,x_N|\theta_1,\theta_2)=\frac{1}{(\theta_2-\theta_1)^N} & \theta_1 < x < \theta_2 \\ 0 & 其他 \end{array} \right . \tag 8l(θ)=ρ(Xθ)={ρ(x1,x2,...,xNθ1,θ2)=(θ2θ1)N10θ1<x<θ2(8)
对数似然函数为:
H ( θ ) = − N ln ⁡ ( θ 2 − θ 1 ) (9) H(\theta)=-N \ln (\theta_2-\theta_1) \tag 9H(θ)=Nln(θ2θ1)(9)
通过式( 6 ) (6)(6)求:
∂ H ∂ θ 1 = N ⋅ 1 θ 2 − θ 1 ∂ H ∂ θ 2 = − N ⋅ 1 θ 2 − θ 1 (10) \frac{\partial H}{\partial \theta_1} = N · \frac{1}{\theta_2-\theta_1} \\ \frac{\partial H}{\partial \theta_2} = -N · \frac{1}{\theta_2-\theta_1} \tag {10}θ1H=Nθ2θ11θ2H=Nθ2θ11(10)
从上式解出的参数θ 1 \theta_1θ1θ 2 \theta_2θ2至少有一个无穷大,这是无意义的结果。
造成这种情况的原因是似然函数在最大值的地方没有零斜率,所以必须换一种方法来求最大值。从( 7 ) (7)(7)中可以看到,当θ 2 − θ 1 \theta_2-\theta_1θ2θ1越小时,则似然函数越大。而在给定一个有观测值x 1 , x 2 , . . . , x N x_1,x_2,...,x_Nx1,x2,...,xN的样本集中,如果用x m i n x_{min}xmin表示观察值中最小的一个,用x m a x x_{max}xmax表示观察值中最大的一个,显然θ 1 ≤ x m i n \theta_1 \leq x_{min}θ1xminθ 2 ≥ x m a x \theta_2 \geq x_{max}θ2xmax,因此θ 2 − θ 1 \theta_2-\theta_1θ2θ1的最小可能值是x m a x − x m i n x_{max}-x_{min}xmaxxmin,这时θ \thetaθ的最大似然估计量是:
θ 1 ^ = x m i n θ 2 ^ = x m a x (11) \hat{\theta_1} = x_{min} \\ \hat{\theta_2} = x_{max} \tag {11}θ1^=xminθ2^=xmax(11)


版权声明:本文为linjing_zyq原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。