极大似然估计与极大后验估计

极大似然估计（频率学派）
在极大似然估计中，假设数据服从某个参数未知的概率分布，求解目标是求一个参数使得数据似然概率最大。这里参数是固定的值，反映数据的本质属性。
$\theta _{ML}=\arg \max \limits_{\theta} P(X;\theta) \\=\arg \max \limits_{\theta} logP(X;\theta)$
条件最大似然估计：
$\theta _{ML}=\arg \max \limits_{\theta} P(Y|X;\theta)$
当样本小到可能会发生过拟合时，可以考虑加入正则项或者考虑贝叶斯统计。
最大后验估计（贝叶斯学派）
在最大后验估计中，概率分布的参数也被当成了随机变量，其值决定于观察者看到的数据，随着观察的变化而变化。最大后验估计目标是，根据参数的概率分布得到概率最大的参数值。
$\theta _{MAP}=\arg \max \limits_{\theta} P(\theta|X) \\=\arg \max \limits_{\theta} P(\theta,X)/P(X) \\=\arg \max \limits_{\theta} P(X|\theta)*P(\theta)/P(X) \\=\arg \max \limits_{\theta} log(P(X|\theta)*P(\theta)/P(X)) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)-logP(X) \\=\arg \max \limits_{\theta} logP(X|\theta)+logP(\theta)$

注意在极大似然估计中，“；”表示 $\theta$ 被当做了概率分布的参数，而在最大后验估计中，“|”表示 $\theta$ 被当做了随机变量。优化过程实际是一样的。所以最大后验估计相当于带有正则项约束的极大似然估计。而先验分布 $P(\theta)$ 中的超参数对应着正则项的系数。
比如，当 $P(\theta)$ 是拉普拉斯分布时，相当于加上 $L_1$ 正则项；当 $P(\theta)$ 是高斯分布时，相当于加上 $L_2$ 正则项。当 $P(\theta)$ 是均匀分布时，最大后验估计退化为极大似然估计。
然而并不是所有的正则项都对应着贝叶斯估计。

贝叶斯估计（贝叶斯学派）
贝叶斯估计和最大后验估计有密切联系。可以认为最大后验估计是贝叶斯估计的一种特例。最大后验估计是在参数分布中得到一个最佳参数值（概率最大），而贝叶斯估计是，求该参数在参数分布上的期望，作为参数的估计(1)式。更广义的贝叶斯估计不仅估计参数，还可以估计实例 $x$ 的概率值(2)式。
$\theta_{BE}=E_{\theta}[\theta]=\int \theta P(\theta|X)d\theta ~~~~~~~~~(1)$
$P(x|X)_{BE}=E_{\theta}[x|X]=\int P(x|\theta)\theta P(\theta|X)d\theta ~~~~~~~~~(2)$
[1]. 深度学习，p82-88

原文链接：https://blog.csdn.net/P081513083/article/details/96457621