最大似然参数估计的求解
前导知识:【最大似然参数估计的基本原理】
回顾一下似然函数公式:
l ( θ ) = ρ ( X ∣ θ ) = ρ ( x 1 , x 2 , . . . , x N ∣ θ ) = ∏ i = 1 N ρ ( x i ∣ θ ) (1) l(\theta)=\rho(X|\theta)=\rho(x_1,x_2,...,x_N|\theta)=\prod_{i=1}^{N} \rho(x_i|\theta) \tag 1l(θ)=ρ(X∣θ)=ρ(x1,x2,...,xN∣θ)=i=1∏Nρ(xi∣θ)(1)
其中的函数形式ρ ( ⋅ ) \rho(·)ρ(⋅)是已知的,其中的x i x_ixi也都是已知的,未知量只有θ \thetaθ。在似然函数满足连续、可微的条件下,如果θ \thetaθ是一维变量,即只有一个待估计参数,其最大似然估计量就是如下微分方程的解:
d l ( θ ) d θ = 0 (2) \frac{dl(\theta)}{d\theta} =0 \tag 2dθdl(θ)=0(2)
或
d H ( θ ) d θ = 0 (3) \frac{dH(\theta)}{d\theta}=0 \tag 3dθdH(θ)=0(3)
更一般地,当θ = [ θ 1 , . . . , θ s ] T \theta=[\theta_1,...,\theta_s]^Tθ=[θ1,...,θs]T是由多个未知参数组成的向量时,求解似然函数的最大值就需要对θ \thetaθ的每一维分别求偏导,即用下面的梯度算子:
▽ θ = [ ∂ ∂ θ 1 , . . . , ∂ ∂ θ n ] T (4) \bigtriangledown_{\theta} = [\frac{\partial}{\partial \theta_1},...,\frac{\partial}{\partial \theta_n}]^T \tag 4▽θ=[∂θ1∂,...,∂θn∂]T(4)
来对似然函数或者对数似然函数求梯度并令其等于零:
▽ θ l ( θ ) = 0 (5) \bigtriangledown_{\theta} l(\theta) = 0 \tag 5▽θl(θ)=0(5)
或
▽ θ H ( θ ) = ∑ i = 1 N ▽ θ ln ρ ( x i ∣ θ ) = 0 (6) \bigtriangledown_{\theta} H(\theta) = \sum_{i=1}^{N} \bigtriangledown_{\theta} \ln \rho(x_i|\theta) = 0 \tag 6▽θH(θ)=i=1∑N▽θlnρ(xi∣θ)=0(6)
得到s ss个方程,方程组的解就是对数似然函数的极值点。
在某些情况下,似然函数可能有多个极值,此时上述方程组可能有多个解,其中使得似然函数最大的那个解才是最大似然估计量。
注意:
并不是所有的概率密度形式都可以用上面的方法求得最大似然估计。比如,一维随机变量x xx服从均匀分布:
ρ ( x ∣ θ ) = { 1 θ 2 − θ 1 θ 1 < x < θ 2 0 其 他 (7) \rho(x|\theta) = \left\{ \begin{array}{cc} \frac{1}{\theta_2-\theta_1} & \theta_1 < x < \theta_2 \\ 0 & 其他 \end{array} \right . \tag 7ρ(x∣θ)={θ2−θ110θ1<x<θ2其他(7)
其中分布的参数θ 1 \theta_1θ1、θ 2 \theta_2θ2未知。从总体分布中独立抽取了N NN个样本x 1 , x 2 , . . . , x N x_1,x_2,...,x_Nx1,x2,...,xN,则似然函数为:
l ( θ ) = ρ ( X ∣ θ ) = { ρ ( x 1 , x 2 , . . . , x N ∣ θ 1 , θ 2 ) = 1 ( θ 2 − θ 1 ) N θ 1 < x < θ 2 0 其 他 (8) l(\theta)=\rho(X|\theta)= \left\{ \begin{array}{cc} \rho(x_1,x_2,...,x_N|\theta_1,\theta_2)=\frac{1}{(\theta_2-\theta_1)^N} & \theta_1 < x < \theta_2 \\ 0 & 其他 \end{array} \right . \tag 8l(θ)=ρ(X∣θ)={ρ(x1,x2,...,xN∣θ1,θ2)=(θ2−θ1)N10θ1<x<θ2其他(8)
对数似然函数为:
H ( θ ) = − N ln ( θ 2 − θ 1 ) (9) H(\theta)=-N \ln (\theta_2-\theta_1) \tag 9H(θ)=−Nln(θ2−θ1)(9)
通过式( 6 ) (6)(6)求:
∂ H ∂ θ 1 = N ⋅ 1 θ 2 − θ 1 ∂ H ∂ θ 2 = − N ⋅ 1 θ 2 − θ 1 (10) \frac{\partial H}{\partial \theta_1} = N · \frac{1}{\theta_2-\theta_1} \\ \frac{\partial H}{\partial \theta_2} = -N · \frac{1}{\theta_2-\theta_1} \tag {10}∂θ1∂H=N⋅θ2−θ11∂θ2∂H=−N⋅θ2−θ11(10)
从上式解出的参数θ 1 \theta_1θ1和θ 2 \theta_2θ2至少有一个无穷大,这是无意义的结果。
造成这种情况的原因是似然函数在最大值的地方没有零斜率,所以必须换一种方法来求最大值。从( 7 ) (7)(7)中可以看到,当θ 2 − θ 1 \theta_2-\theta_1θ2−θ1越小时,则似然函数越大。而在给定一个有观测值x 1 , x 2 , . . . , x N x_1,x_2,...,x_Nx1,x2,...,xN的样本集中,如果用x m i n x_{min}xmin表示观察值中最小的一个,用x m a x x_{max}xmax表示观察值中最大的一个,显然θ 1 ≤ x m i n \theta_1 \leq x_{min}θ1≤xmin,θ 2 ≥ x m a x \theta_2 \geq x_{max}θ2≥xmax,因此θ 2 − θ 1 \theta_2-\theta_1θ2−θ1的最小可能值是x m a x − x m i n x_{max}-x_{min}xmax−xmin,这时θ \thetaθ的最大似然估计量是:
θ 1 ^ = x m i n θ 2 ^ = x m a x (11) \hat{\theta_1} = x_{min} \\ \hat{\theta_2} = x_{max} \tag {11}θ1^=xminθ2^=xmax(11)