理解Markov, Chebyshev, Chernoff概率不等式

Markov inequality

若Y是非负随机变量,对于所有y > 0 \displaystyle y >0y>0,都有

P r { Y ≥ y } ≤ E ⁡ [ Y ] y \mathrm{Pr}\{Y\geq y\} \leq \frac{\operatorname{E}[ Y]}{y}Pr{Yy}yE[Y]

在这里插入图片描述

如上图,y P r { Y ≥ y } \displaystyle y\mathrm{Pr}\{Y\geq y\}yPr{Yy}是阴影部分的面积,而整个曲线下的面积是均值,所以,显然y P r { Y ≥ y } ⩽ E [ Y ] \displaystyle y\mathrm{Pr}\{Y\geq y\} \leqslant E[ Y]yPr{Yy}E[Y]

事实上,这个曲线下面积是均值只有在Y是非负随机变量才能成立,我们可以来验证一下:

P r { Y ≥ y } = 1 − F ( y ) \mathrm{Pr}\{Y\geq y\} =1-F( y)Pr{Yy}=1F(y)

其中F ( y ) : = P ( Y ⩽ y ) \displaystyle F( y) :=P( Y\leqslant y)F(y):=P(Yy)是Y的累计分布函数,满足F ( + ∞ ) = 1 \displaystyle F( +\infty ) =1F(+)=1,于是

∫ 0 + ∞ P r { Y ≥ y } d y = ∫ 0 + ∞ ( 1 − F ( y ) ) d y = y ( 1 − F ( y ) ) ∣ 0 + ∞ + ∫ 0 + ∞ y f ( y ) d y = E [ y ] \int ^{+\infty }_{0}\mathrm{Pr}\{Y\geq y\} dy=\int ^{+\infty }_{0}( 1-F( y)) dy=y( 1-F( y)) |^{+\infty }_{0} +\int ^{+\infty }_{0} yf( y) dy=E[ y]0+Pr{Yy}dy=0+(1F(y))dy=y(1F(y))0++0+yf(y)dy=E[y]

显然,y不是非负的时候,积分可以取到− ∞ \displaystyle -\infty,这时候y ( 1 − F ( y ) ) \displaystyle y( 1-F( y))y(1F(y))就会发散,不再等于0了。

Chebyshev inequality

既然Markov inequality只能用于非负变量,那对于那些可以取负值的随机变量咋办?其实我们可以对随机变量取平方或者绝对值让他变成非负的,最典型的做法是,令Y = ( Z − E [ Z ] ) 2 \displaystyle Y=( Z-E[ Z])^{2}Y=(ZE[Z])2,这时候Y就是一个非负随机变量了,于是

P r { ( Z − E [ Z ] ) 2 ≥ y } ≤ E ⁡ [ ( Z − E [ Z ] ) 2 ] y = σ z 2 y \mathrm{Pr}\left\{( Z-E[ Z])^{2} \geq y\right\} \leq \frac{\operatorname{E}\left[( Z-E[ Z])^{2}\right]}{y} =\frac{\sigma ^{2}_{z}}{y}Pr{(ZE[Z])2y}yE[(ZE[Z])2]=yσz2

我们将y \displaystyle yy换成ϵ 2 \displaystyle \epsilon ^{2}ϵ2,于是( Z − E [ Z ] ) 2 ≥ ϵ 2 ⟹ ∣ Z − E [ Z ] ∣ ⩾ ϵ \displaystyle ( Z-E[ Z])^{2} \geq \epsilon ^{2} \Longrightarrow |Z-E[ Z] |\geqslant \epsilon(ZE[Z])2ϵ2ZE[Z]ϵ,于是

P r { ∣ Z − E [ Z ] ∣ ≥ ϵ } ≤ σ z 2 ϵ 2 \mathrm{Pr}\{|Z-E[ Z] |\geq \epsilon \} \leq \frac{\sigma ^{2}_{z}}{\epsilon ^{2}}Pr{ZE[Z]ϵ}ϵ2σz2

这就是Chebyshev inequality. 而且当Z = ( X 1 + . . . + X n ) / n \displaystyle Z=( X_{1} +...+X_{n}) /nZ=(X1+...+Xn)/n表示样本均值的时候,该不等式可以被用来证明weak law of large numbers.

Chernoff bounds

显然,除了平方和绝对值之外,指数函数也是一个非负函数,所以当Y = e Z r \displaystyle Y=e^{Zr}Y=eZr时,

P r { e Z r ≥ y } ≤ E ⁡ [ e Z r ] y \mathrm{Pr}\left\{e^{Zr} \geq y\right\} \leq \frac{\operatorname{E}\left[ e^{Zr}\right]}{y}Pr{eZry}yE[eZr]

如果我们用e r b \displaystyle e^{rb}erb来代替y \displaystyle yy会更有意义。注意到,当e Z r ⩾ e r b \displaystyle e^{Zr} \geqslant e^{rb}eZrerb时。若r > 0 \displaystyle r >0r>0则等价于Z ⩾ b \displaystyle Z\geqslant bZb,否则Z < b \displaystyle Z< bZ<b. 因此,对于任意的实数b,我们有

P r { Z ≥ b } ≤ E ⁡ [ e Z r ] e r b r > 0 P r { Z ≤ b } ≤ E ⁡ [ e Z r ] e r b r < 0 \begin{array}{ c c c } \mathrm{Pr}\{Z\geq b\} \leq \frac{\operatorname{E}\left[ e^{Zr}\right]}{e^{rb}} & & r >0\\ \mathrm{Pr}\{Z\leq b\} \leq \frac{\operatorname{E}\left[ e^{Zr}\right]}{e^{rb}} & & r< 0 \end{array}Pr{Zb}erbE[eZr]Pr{Zb}erbE[eZr]r>0r<0

它的最重要应用是当Z是S n = X 1 + . . . + X n \displaystyle S_{n} =X_{1} +...+X_{n}Sn=X1+...+Xn独立同分布样本的求和的时候,我们有

P r { S n ≥ n a } ≤ E ⁡ [ e S n r ] e r n a = E ⁡ [ e X r ] n e r n a r > 0 P r { S n ≤ n a } ≤ E ⁡ [ e S n r ] e r n a = E ⁡ [ e X r ] n e r n a r < 0 \begin{array}{ c c c } \mathrm{Pr}\{S_{n} \geq na\} \leq \frac{\operatorname{E}\left[ e^{S_{n} r}\right]}{e^{rna}} =\frac{\operatorname{E}\left[ e^{Xr}\right]^{n}}{e^{rna}} & & r >0\\ \mathrm{Pr}\{S_{n} \leq na\} \leq \frac{\operatorname{E}\left[ e^{S_{n} r}\right]}{e^{rna}} =\frac{\operatorname{E}\left[ e^{Xr}\right]^{n}}{e^{rna}} & & r< 0 \end{array}Pr{Snna}ernaE[eSnr]=ernaE[eXr]nPr{Snna}ernaE[eSnr]=ernaE[eXr]nr>0r<0

你会发现,在这个bound中,r的取值是任意的,我们可以去搜索所有的r可能的取值来找到一个最紧的bound,而显然r的最优取值是跟a有关的,那么这个最优值是多少呢?注意到g X ( r ) : = E ⁡ [ e X r ] \displaystyle g_{X}( r) :=\operatorname{E}\left[ e^{Xr}\right]gX(r):=E[eXr]其实是一个moment generating function(MGF),即,g X ′ ( r ) = E [ X ] , g X ′ ′ ( r ) = E [ X 2 ] \displaystyle g_{X} '( r) =E[ X] ,g_{X} ''( r) =E\left[ X^{2}\right]gX(r)=E[X],gX(r)=E[X2],进一步令γ X ( r ) : = ln ⁡ g X ( r ) \displaystyle \gamma _{X}( r) :=\ln g_{X}( r)γX(r):=lngX(r),于是

P r { S n ≥ n a } ≤ e n γ X ( r ) − r n a r > 0 P r { S n ≤ n a } ≤ e n γ X ( r ) − r n a r < 0 \begin{array}{ c c c } \mathrm{Pr}\{S_{n} \geq na\} \leq e^{n\gamma _{X}( r) -rna} & & r >0\\ \mathrm{Pr}\{S_{n} \leq na\} \leq e^{n\gamma _{X}( r) -rna} & & r< 0 \end{array}Pr{Snna}enγX(r)rnaPr{Snna}enγX(r)rnar>0r<0

于是,最紧的bound应该就是n γ X ( r ) − r n a \displaystyle n\gamma _{X}( r) -rnanγX(r)rna所能取得的最小值。这个取了log之后的MGF又称为cumulant-generating function,它跟MGF的不同在于,它r = 0 \displaystyle r=0r=0处的一阶跟二阶cumulant分别对应的是均值和方差。可以证明γ ′ ′ \displaystyle \gamma ''γ是大于0的,是凸函数,可以用方差总是大于0来直观理解。

那么如果γ X ( r ) \displaystyle \gamma _{X}( r)γX(r)是一个凸函数,整个函数也是凸的,最小值将在极值点上,且关于r的导数为0。那么关于γ X ( r ) \displaystyle \gamma _{X}( r)γX(r)长什么样呢?如下图

在这里插入图片描述

于是最紧的bound是

d ( n γ X ( r ) − r n a ) d r = n γ X ′ ( r ) − n a = 0 \frac{d( n\gamma _{X}( r) -rna)}{dr} =n\gamma '_{X}( r) -na=0drd(nγX(r)rna)=nγX(r)na=0

这个方程的解,即γ X ′ ( r ) = a \displaystyle \gamma '_{X}( r) =aγX(r)=a,于是,我们只要找到个合适的r,其对应位置的斜率为a就是最优的r值了:

在这里插入图片描述

参考资料

Gallager, Robert G. “Discrete stochastic processes.” OpenCourseWare: Massachusetts Institute of Technology (2011).

https://www.probabilitycourse.com/chapter6/6_1_3_moment_functions.php


版权声明:本文为a358463121原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。