极大似然估计与极大后验估计

  1. 极大似然估计(频率学派)
    在极大似然估计中,假设数据服从某个参数未知的概率分布,求解目标是求一个参数使得数据似然概率最大。这里参数是固定的值,反映数据的本质属性。
    θ M L = arg ⁡ max ⁡ θ P ( X ; θ ) = arg ⁡ max ⁡ θ l o g P ( X ; θ ) \theta _{ML}=\arg \max \limits_{\theta} P(X;\theta) \\=\arg \max \limits_{\theta} logP(X;\theta)θML=argθmaxP(X;θ)=argθmaxlogP(X;θ)
    条件最大似然估计:
    θ M L = arg ⁡ max ⁡ θ P ( Y ∣ X ; θ ) \theta _{ML}=\arg \max \limits_{\theta} P(Y|X;\theta)θML=argθmaxP(YX;θ)
    当样本小到可能会发生过拟合时,可以考虑加入正则项或者考虑贝叶斯统计。
  2. 最大后验估计(贝叶斯学派)
    在最大后验估计中,概率分布的参数也被当成了随机变量,其值决定于观察者看到的数据,随着观察的变化而变化。最大后验估计目标是,根据参数的概率分布得到概率最大的参数值。
    θ M A P = arg ⁡ max ⁡ θ P ( θ ∣ X ) = arg ⁡ max ⁡ θ P ( θ , X ) / P ( X ) = arg ⁡ max ⁡ θ P ( X ∣ θ ) ∗ P ( θ ) / P ( X ) = arg ⁡ max ⁡ θ l o g ( P ( X ∣ θ ) ∗ P ( θ ) / P ( X ) ) = arg ⁡ max ⁡ θ l o g P ( X ∣ θ ) + l o g P ( θ ) − l o g P ( X ) = arg ⁡ max ⁡ θ l o g P ( X ∣ θ ) + l o g P ( θ ) \theta _{MAP}=\arg \max \limits_{\theta} P(\theta|X) \\=\arg \max \limits_{\theta} P(\theta,X)/P(X) \\=\arg \max \limits_{\theta} P(X|\theta)*P(\theta)/P(X) \\=\arg \max \limits_{\theta} log(P(X|\theta)*P(\theta)/P(X)) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)-logP(X) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)θMAP=argθmaxP(θX)=argθmaxP(θ,X)/P(X)=argθmaxP(Xθ)P(θ)/P(X)=argθmaxlog(P(Xθ)P(θ)/P(X))=argθmaxlogP(Xθ)+logP(θ)logP(X)=argθmaxlogP(Xθ)+logP(θ)

注意在极大似然估计中,“;”表示θ \thetaθ被当做了概率分布的参数,而在最大后验估计中,“|”表示θ \thetaθ被当做了随机变量。优化过程实际是一样的。所以最大后验估计相当于带有正则项约束的极大似然估计。而先验分布P ( θ ) P(\theta)P(θ)中的超参数对应着正则项的系数。
比如,当P ( θ ) P(\theta)P(θ)是拉普拉斯分布时,相当于加上L 1 L_1L1正则项;当P ( θ ) P(\theta)P(θ)是高斯分布时,相当于加上L 2 L_2L2正则项。当P ( θ ) P(\theta)P(θ)是均匀分布时,最大后验估计退化为极大似然估计。
然而并不是所有的正则项都对应着贝叶斯估计。

  1. 贝叶斯估计(贝叶斯学派)
    贝叶斯估计和最大后验估计有密切联系。可以认为最大后验估计是贝叶斯估计的一种特例。最大后验估计是在参数分布中得到一个最佳参数值(概率最大),而贝叶斯估计是,求该参数在参数分布上的期望,作为参数的估计(1)式。更广义的贝叶斯估计不仅估计参数,还可以估计实例x xx的概率值(2)式。
    θ B E = E θ [ θ ] = ∫ θ P ( θ ∣ X ) d θ           ( 1 ) \theta_{BE}=E_{\theta}[\theta]=\int \theta P(\theta|X)d\theta ~~~~~~~~~(1)θBE=Eθ[θ]=θP(θX)dθ         (1)
    P ( x ∣ X ) B E = E θ [ x ∣ X ] = ∫ P ( x ∣ θ ) θ P ( θ ∣ X ) d θ           ( 2 ) P(x|X)_{BE}=E_{\theta}[x|X]=\int P(x|\theta)\theta P(\theta|X)d\theta ~~~~~~~~~(2)P(xX)BE=Eθ[xX]=P(xθ)θP(θX)dθ         (2)
    [1]. 深度学习,p82-88

版权声明:本文为P081513083原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。