1、先验概率
假定B 1 , B 2 , … , B n B_1,B_2,\ldots ,B_nB1,B2,…,Bn是某个过程所有可能的前提条件,也就是B 1 , B 2 , … , B n B_1,B_2,\ldots ,B_nB1,B2,…,Bn为试验E EE样本空间 Ω \OmegaΩ的一个划分,或称为试验E EE的一个完备事件组。
由以上的假设,则P ( B i ) ( i = 1 , 2 , … , n ) P(B_i)(i=1,2,\ldots ,n)P(Bi)(i=1,2,…,n)是人们事先对各个前提条件出现的可能性大小的估计,称为先验概率。可以视为因果关系中的P ( 因 ) P(因)P(因),用公式表示为P ( θ ) P(\theta)P(θ)。
通俗来讲,先验概率就是通过历史经验来确定事件B i B_iBi发生的原因。小学课本里面学习过的看云识天气,就一种先验概率。通过观察天空中云朵和云层的状态,来推测今天是阴天、晴天还是雨天(即事件B i B_iBi)。“朝霞不出门,晚霞行千里”,讲的就是先验概率。
2、后验概率
如果通过先验概率得到了一个结果A AA,那么贝叶斯公式就为我们提供了根据A的出现评价各个前提条件作用的方法。P ( B i ∣ A ) ( i = 1 , 2 , … , n ) P(B_i | A)(i=1,2,\ldots ,n)P(Bi∣A)(i=1,2,…,n)即是B i B_iBi对A AA的出现发挥作用的可能性,称为后验概率。同理,可以视为P ( 因 ∣ 果 ) P(因|果)P(因∣果),用公式表示为P ( θ ∣ X ) P(\theta|X)P(θ∣X)。这里第一次出现X XX和θ \thetaθ两个变量,是相互独立的。
比方说,出门散步和不出门散步是事件A AA的两种状态。那么,现在已经知道我出门状态的结果,倒过来推测天气情况,就是后验概率。假如我今天不出门,极大可能是下雨,也有可能是阴天(看似很快就要下雨了);但如果我出门,极大可能是晴天,但也有可能是因为要紧的事要出门处理,不得不冒雨出去。通过结果来推测原因,这就是后验概率。这个例子很像决策树中的经典例子~
3、似然估计
Likelihood的中文是似然。已知原因来估计结果的概率分布就是似然估计。可以视为P ( 果 ∣ 因 ) P(果|因)P(果∣因),用公式表示为P ( X ∣ θ ) P(X|\theta)P(X∣θ)。
即已知天气的情况,决定是否出门散步的概率。
4、总结
首先我们需要知道条件概率公式:
假设A AA,B BB是两个事件,且P ( A ) > 0 P(A)>0P(A)>0,称 P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)}P(B∣A)=P(A)P(AB) 为在事件A发生条件下事件B发生的条件概率。
接着我们分析 贝叶斯公式: P ( B i ∣ A ) = P ( B i ) × P ( A ∣ B i ) P ( A ) P (B_i | A) = \frac{P (B_i) \times P (A | B_i)}{P (A)}P(Bi∣A)=P(A)P(Bi)×P(A∣Bi),规范化即 后 验 概 率 = P ( θ ∣ X ) = P ( θ ) × P ( X ∣ θ ) P ( X ) = 先 验 概 率 × 似 然 估 计 P ( X ) 后验概率=P (\theta | X) = \frac{P (\theta) \times P ( X| \theta)}{P (X)}=\frac{先验概率 \times 似然估计}{P (X)}后验概率=P(θ∣X)=P(X)P(θ)×P(X∣θ)=P(X)先验概率×似然估计。
其中,P ( X ) P (X)P(X)表示全概率公式为:P ( X ) = ∑ j = 1 n P ( θ j ) × P ( X ∣ θ j ) P (X) = \sum_{j=1}^{n} P ( \theta_j) \times P (X | \theta_j)P(X)=∑j=1nP(θj)×P(X∣θj)。还是这个看云识天气的情景,P ( X ) P (X)P(X)表示结果的概率分布,即365天里面每天出门或者宅在家里面的概率分布,即二项分布(X这个事件有两种可能状态)。当然可以是多项分布以及其它别的分布。
以上的理论引申出两大学派,大致为:频率派和贝叶斯派。频率派代表的理论是M L E MLEMLE(最大似然估计),而贝叶斯派的代表理论则是M A P MAPMAP(最大后验估计)。
频率派认为,用样本估计事件发生的概率分布是真实可信的。也就是,365天中每一天都有一种天气状况,往深的考虑,一天甚至有多种天气状况。这个问题就变为了,求在当前的天气状态下,我是出门还是不出门宅在家里的概率。所以以一年的数据为样本,样本总量n ≥ 365 n\geq365n≥365。最终可能得到的统计结果是晴天出门概率为0.8,阴天出门的概率为0.5,雨天出门的概率为0.2,雷暴大风天气出门概率为0.05等等。
上面这个问题可能有点复杂,我们以丢硬币为例子,是典型的二项分布。
分布律为P { X = K } = C n k × θ k × ( 1 − θ ) n − k P\{X=K\} =C^k_ {n}\times \theta^k \times (1-\theta)^{n-k}P{X=K}=Cnk×θk×(1−θ)n−k
频率派认为在K KK表示正面朝上时,求出使得P { X = K } P\{X=K\}P{X=K}最大的θ \thetaθ的值(求导后求极值即可),其中n实验的总次数和k正面朝上的次数由统计得出。显然极端情况100次硬币都是正面朝上的概率没有频率派没有考虑到。在缺乏样本数据的情况下,很容易得到错误的答案。
而贝叶斯派认为参数都是随机变量,都有分布。利用贝叶斯定理, P ( θ i ∣ X ) = P ( θ i ) × P ( X ∣ θ i ) P ( X ) P (\theta_i | X) = \frac{P (\theta_i) \times P ( X| \theta_i)}{P (X)}P(θi∣X)=P(X)P(θi)×P(X∣θi)。我们关心左式子最大值时候的θ \thetaθ,θ \thetaθ是有分布的。其中,θ i \theta_iθi分别代表晴天、阴天等天气情况或者是硬币正和反两种情况。
把这n次试验作为一组样本,那么在总样本里面P ( X ) P(X)P(X)与θ \thetaθ无关,由统计得出。最大后验估计即为已知一组实验结果的情况下求θ \thetaθ的最大值。换句话说,M A P MAPMAP即是假设参数θ \thetaθ的概率分布,然后通过样本数据去进行修正。所以式子就变为a r g m a x θ = a r g m a x P ( X i ∣ θ ) × P ( θ ) argmax \theta=argmaxP (X_i | \theta) \times P (\theta)argmaxθ=argmaxP(Xi∣θ)×P(θ),等式左右两边成正比。在样本比较小的情况下,我们计算出来的θ \thetaθ的值比M L E MLEMLE计算出来的更加好。比方说丢硬币正面朝上的概率会在50%附近波动,不会出现极端值。
但是,最大后验估计并不是完全的贝叶斯派,只不过用到了贝叶斯理论。完全的贝叶斯派应该将P ( X ) P(X)P(X)也计算出来,称为贝叶斯预测或者完整的后验概率计算。
5、参考
以上是我个人的观点和总结。参考了b站机器学习我到底在学什么、一个例子搞清楚(先验分布/后验分布/似然估计)以及频率派vs贝叶斯派
如果存在不足之处,欢迎指正,相互学习。觉得不错请点个赞吧,创作不易,谢谢!少年加油,但行好事,莫问前程~