概率与统计的区别
- 概率研究的问题是一个模型和它的参数已知的情况下,怎么去预测这个模型产生的结果的特性(如均值,方差,协方差等)
- 统计研究的问题是在已有的大量的数据的情况下,推断产生这堆数据的模型及其参数.
贝叶斯公式
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)}P(A∣B)=P(B)P(B∣A)P(A)
- P ( A ∣ B ) P(A|B)P(A∣B)在B发生的情况下,A发生的概率(后验概率).体现了某个事件发生后对于证据的确信度,即确实是由A导致B发生的概率;
- P ( A ) P(A)P(A)情况A AA发生的概率(先验概率),之所以称之为先验是因为这个概率通常是我们基于经验估计或者统计得出的一个概率;
- P ( B ∣ A ) P(B|A)P(B∣A)在A发生的情况下,B发生的概率;
值得一提的是,这里P ( B ∣ A ) P(B|A)P(B∣A)出现的概率大不一定导致P ( A ∣ B ) P(A|B)P(A∣B)就大,还需要P ( A ) P(A)P(A)也大.例如一个模型本身不太可能选择某组参数,那么即便这组参数很有可能会产出我们想要的结果,但是也不能说是由这套参数产生这个结果的可能性大,因为本身A的概率拉低了整体发生的概率(这是后续MAP的思想依据).
假定模型已定的情况下,其模型参数为某特定参数的事件为A AA,该模型参数某特定结果的事件为B BB,则P ( A ∣ B ) P(A|B)P(A∣B)表示在获得该组数据的情况下,模型是这一套参数的概率;P ( B ∣ A ) P(B|A)P(B∣A)表示基于经验,分析或者别的什么(扯淡的操作),我们认为这套参数下产生结果B的概率
似然函数(Likehood Function)
一菜两吃的P ( x ∣ θ ) P(x|\theta)P(x∣θ):
- 如果θ \thetaθ已知,x xx是变量,则它是概率函数(由因导果);
- 如果x xx已知,θ \thetaθ未知,那它是似然函数(由果导因);
最大似然估计(MLP)
假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为θ \thetaθ)各是多少?
- STEP1: 获取数据.显然,这是一个由因导果(求模型参数)的问题,为此我们投掷10次硬币,假设出现了结果x 0 x_0x0(“反正正正正反正正正反”);
- STEP2: 确定模型.根据经验,我们假定实验结果x xx服从二项分布,则f ( x 0 , θ ) = θ 7 ( 1 − θ ) 3 f(x_0,\theta)=\theta^7(1-\theta)^3f(x0,θ)=θ7(1−θ)3,这是一个关于θ \thetaθ的函数;
- STEP3: 似然估计.绘图求解知f ff在θ = 0.7 \theta=0.7θ=0.7处取得最大值.因此,我们认为θ = 0.7 \theta=0.7θ=0.7是最有可能导致x 0 x_0x0出现的.
最大后验概率估计(MAP)
与MLE不同的是,MAP是要使后验概率P ( A ∣ B ) P(A|B)P(A∣B)最大化,即确实是由A AA导致B BB发生的可能性最高.因为贝叶斯公式中的P ( B ) P(B)P(B)通常是可以从数据中统计得出,所以只需让P ( B ∣ A ) P ( A ) P(B|A)P(A)P(B∣A)P(A)这个整体,即P ( A B ) P(AB)P(AB)最大. 这个思路也是可以理解,毕竟谁也不能说产生结果B BB就一定是参数A AA导致的:-)因此,在该例中,按照贝叶斯的想法要使P ( x 0 ∣ θ ) P ( θ ) P(x_0|\theta)P(\theta)P(x0∣θ)P(θ)最大.
- STEP1:获取数据.如前所述.
- STEP2:确定模型.我们先验地知道θ = 0.5 \theta=0.5θ=0.5的概率很大,因此假定θ ∼ N ( 0.5 , 0.1 ) \theta\sim N(0.5,0.1)θ∼N(0.5,0.1);同理,假定实验结果x ∼ B ( 10 , θ ) x\sim B(10,\theta)x∼B(10,θ).
- STEP3:后验概率估计.计算得其后验概率P ( x 0 ∣ θ ) P ( θ ) = θ 7 ( 1 − θ ) 3 × 1 2 π × 0. 1 2 e − ( θ − 0.5 ) 2 2 × 0. 1 2 P(x_0|\theta)P(\theta)=\theta^7(1-\theta)^3 \times \frac{1}{\sqrt{2\pi\times 0.1^2}}e^{-\frac{(\theta-0.5)^2}{2\times 0.1^2}}P(x0∣θ)P(θ)=θ7(1−θ)3×2π×0.121e−2×0.12(θ−0.5)2,绘图可知在θ = 0.558 \theta=0.558θ=0.558处后验概率最大.
二者的区别与联系
通过观察MLE和MAP的式子,我们不难发现f ( x 0 , θ ) f(x_0,\theta)f(x0,θ)与P ( x 0 ∣ θ ) P ( θ ) P(x_0|\theta)P(\theta)P(x0∣θ)P(θ)主要的差别在于是否考虑了先验概率P ( θ ) P(\theta)P(θ)这个因子,或者说MLE简单得将先验概率视为了P ( θ ) = 1 P(\theta)=1P(θ)=1,即认为θ \thetaθ是均匀分布的.
所以,需要说服一个贝叶斯学派的相信一个经典统计学派的的论调,你只有做很多的实验来让他信服(即投的次数多了,自然而然就能说明这枚硬币有没有猫腻了).
以上便是自己拜读了参考资料后的一些感悟,不足之处恳请各位批评指正.