最大似然估计(MLE)与最小二乘估计(LSE)的区别

最大似然估计与最小二乘估计的区别

标签(空格分隔): 概率论与数理统计


最小二乘估计

对于最小二乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平方和最小。

设Q表示平方误差,Yi表示估计值,Ŷ i表示观测值,即Q=ni=1(YiŶ i)2

最大似然估计

对于最大似然估计来说,最合理的参数估计量应该使得从模型中抽取该n组样本的观测值的概率最大,也就是概率分布函数或者似然函数最大。

显然,最大似然估计需要已知这个概率分布函数,一般假设其满足正态分布函数的特性,在这种情况下,最大似然估计与最小二乘估计是等价的,也就是估计的结果是相同的。
最大似然估计原理:
1. 当给定样本x1,x2,...,xn时,定义似然函数为L(θ)=f(x1,x2,...,xn;θ);
2. L(θ)看做是θ的函数,最大似然估计就是用使L(θ)达到最大值的θ̂ 去估计θ,这时称θ̂ θ的最大似然估计;

MLE的步骤:
1. 由总体分布导出样本的联合概率函数(或联合密度);
2. 把样本联合概率函数的自变量看成是已知常数,而把θ看做是自变量,得到似然函数L(θ);
3. 求似然函数的最大值(常常取对数,然后求驻点);
4. 用样本值带入得到参数的最大似然估计。

例题

设一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?

LSE

设使用LSE估计,出现人头的概率为θ, 则出现字的概率为1θ
已知观测量为:(观测到的)出现人头的概率为1100, (观测到的)出现字的概率为99100,则由最小二乘估计:
Q(θ)=argminθ1001(θθ̂ )2 =argminθ(1100θ)2+[99100(1θ)]299
Q(θ)θ=0,解得θ=1100;

ML

设使用ML估计,所以x服从伯努利分布,xB(,θ),
则概率密度函数为:

P(x|θ)={θ,1θ,if x if x

则连续100次试验的似然函数为:
P(x1,x2,..x100|θ)=C1100θ1(1θ)99=100θ1(1θ)99
最大化似然函数,则 θ至少为驻点,对似然函数取对数并求偏导:
lnP(x1,x2,..x100|θ)=ln100+lnθ+99ln(1θ)
θ求偏导为0,得到:
lnP(x1,x2,..x100|θ)θ=1θ991θ=0, 解得 θ=1100.

两者虽然得到的估计值是一样的,但是原理完全不同,要对他们的推导过程非常清楚。


版权声明:本文为u010161630原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。