- 极大似然估计(频率学派)
在极大似然估计中,假设数据服从某个参数未知的概率分布,求解目标是求一个参数使得数据似然概率最大。这里参数是固定的值,反映数据的本质属性。
θ M L = arg max θ P ( X ; θ ) = arg max θ l o g P ( X ; θ ) \theta _{ML}=\arg \max \limits_{\theta} P(X;\theta) \\=\arg \max \limits_{\theta} logP(X;\theta)θML=argθmaxP(X;θ)=argθmaxlogP(X;θ)
条件最大似然估计:
θ M L = arg max θ P ( Y ∣ X ; θ ) \theta _{ML}=\arg \max \limits_{\theta} P(Y|X;\theta)θML=argθmaxP(Y∣X;θ)
当样本小到可能会发生过拟合时,可以考虑加入正则项或者考虑贝叶斯统计。 - 最大后验估计(贝叶斯学派)
在最大后验估计中,概率分布的参数也被当成了随机变量,其值决定于观察者看到的数据,随着观察的变化而变化。最大后验估计目标是,根据参数的概率分布得到概率最大的参数值。
θ M A P = arg max θ P ( θ ∣ X ) = arg max θ P ( θ , X ) / P ( X ) = arg max θ P ( X ∣ θ ) ∗ P ( θ ) / P ( X ) = arg max θ l o g ( P ( X ∣ θ ) ∗ P ( θ ) / P ( X ) ) = arg max θ l o g P ( X ∣ θ ) + l o g P ( θ ) − l o g P ( X ) = arg max θ l o g P ( X ∣ θ ) + l o g P ( θ ) \theta _{MAP}=\arg \max \limits_{\theta} P(\theta|X) \\=\arg \max \limits_{\theta} P(\theta,X)/P(X) \\=\arg \max \limits_{\theta} P(X|\theta)*P(\theta)/P(X) \\=\arg \max \limits_{\theta} log(P(X|\theta)*P(\theta)/P(X)) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)-logP(X) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)θMAP=argθmaxP(θ∣X)=argθmaxP(θ,X)/P(X)=argθmaxP(X∣θ)∗P(θ)/P(X)=argθmaxlog(P(X∣θ)∗P(θ)/P(X))=argθmaxlogP(X∣θ)+logP(θ)−logP(X)=argθmaxlogP(X∣θ)+logP(θ)
注意在极大似然估计中,“;”表示θ \thetaθ被当做了概率分布的参数,而在最大后验估计中,“|”表示θ \thetaθ被当做了随机变量。优化过程实际是一样的。所以最大后验估计相当于带有正则项约束的极大似然估计。而先验分布P ( θ ) P(\theta)P(θ)中的超参数对应着正则项的系数。
比如,当P ( θ ) P(\theta)P(θ)是拉普拉斯分布时,相当于加上L 1 L_1L1正则项;当P ( θ ) P(\theta)P(θ)是高斯分布时,相当于加上L 2 L_2L2正则项。当P ( θ ) P(\theta)P(θ)是均匀分布时,最大后验估计退化为极大似然估计。
然而并不是所有的正则项都对应着贝叶斯估计。
- 贝叶斯估计(贝叶斯学派)
贝叶斯估计和最大后验估计有密切联系。可以认为最大后验估计是贝叶斯估计的一种特例。最大后验估计是在参数分布中得到一个最佳参数值(概率最大),而贝叶斯估计是,求该参数在参数分布上的期望,作为参数的估计(1)式。更广义的贝叶斯估计不仅估计参数,还可以估计实例x xx的概率值(2)式。
θ B E = E θ [ θ ] = ∫ θ P ( θ ∣ X ) d θ ( 1 ) \theta_{BE}=E_{\theta}[\theta]=\int \theta P(\theta|X)d\theta ~~~~~~~~~(1)θBE=Eθ[θ]=∫θP(θ∣X)dθ (1)
P ( x ∣ X ) B E = E θ [ x ∣ X ] = ∫ P ( x ∣ θ ) θ P ( θ ∣ X ) d θ ( 2 ) P(x|X)_{BE}=E_{\theta}[x|X]=\int P(x|\theta)\theta P(\theta|X)d\theta ~~~~~~~~~(2)P(x∣X)BE=Eθ[x∣X]=∫P(x∣θ)θP(θ∣X)dθ (2)
[1]. 深度学习,p82-88
版权声明:本文为P081513083原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。