1. 重要定义 & 定理
1. 数学期望(均值)
1. 定义
离散变量的数学期望
设随机变量X的取值范围为a 1 , . . . , a n a_1, ..., a_na1,...,an,其对应的概率分布为P ( X = a i ) = p i P(X = a_i) = p_iP(X=ai)=pi,则X的数学期望E ( X ) E(X)E(X)(或记为E X EXEX)定义为:
E ( X ) = ∑ i = 1 n a i p i E(X) = \sum_{i=1}^n a_i p_iE(X)=i=1∑naipi
无限级数的数学期望
设随机变量X的取值范围为a 1 , a 2 , . . . a_1, a_2, ...a1,a2,...,其对应的概率分布为P ( X = a i ) = p i P(X = a_i) = p_iP(X=ai)=pi,且满足∑ i = 1 ∞ ∣ a i ∣ p i < ∞ \sum_{i=1}^{\infty} |a_i|p_i < \infty∑i=1∞∣ai∣pi<∞,则变量X存在数学期望,且其数学期望表达式与上述离散分布相同,即:
E ( X ) = ∑ i = 1 ∞ a i p i E(X) = \sum_{i=1}^{\infty} a_i p_iE(X)=i=1∑∞aipi
连续变量的数学期望
设X有概率密度函数f ( x ) f(x)f(x),如果∫ − ∞ ∞ ∣ x ∣ f ( x ) d x < ∞ \int_{-\infty}^{\infty} |x|f(x)dx < \infty∫−∞∞∣x∣f(x)dx<∞,则X存在数学期望,其数学期望表达式为:
E ( X ) = ∫ − ∞ ∞ x f ( x ) d x E(X) = \int_{-\infty}^{\infty} xf(x)dxE(X)=∫−∞∞xf(x)dx
2. 性质
若干个随机变量之和的期望等于他们各自的期望之和,即:
E ( X 1 + . . . + X n ) = E ( X 1 ) + . . . + E ( X n ) E(X_1 + ... + X_n) = E(X_1) + ... + E(X_n)E(X1+...+Xn)=E(X1)+...+E(Xn)
若干个独立随机变量之积的期望等于他们各自的期望之积,即:
E ( X 1 X 2 . . . X n ) = E ( X 1 ) E ( X 2 ) . . . E ( X n ) E(X_1X_2...X_n) = E(X_1)E(X_2)...E(X_n)E(X1X2...Xn)=E(X1)E(X2)...E(Xn)
随机变量函数的期望可以表示为:
离散型
E ( g ( X ) ) = ∑ i g ( a i ) p i E(g(X)) = \sum_i g(a_i)p_iE(g(X))=i∑g(ai)pi
连续型
E ( g ( X ) ) = ∫ − ∞ ∞ g ( x ) f ( x ) d x E(g(X)) = \int_{-\infty}^{\infty} g(x) f(x) dxE(g(X))=∫−∞∞g(x)f(x)dx
如果c cc为一个常数,则:
E ( c ⋅ X ) = c ⋅ E ( X ) E(c\cdot X) = c \cdot E(X)E(c⋅X)=c⋅E(X)
2. 中位数
- 设连续型随机变量X的分布函数为F ( x ) F(x)F(x),则满足条件P ( X ≤ m ) = F ( m ) = 1 / 2 P(X \leq m) = F(m) = 1/2P(X≤m)=F(m)=1/2的数m成为X或者分布F的中位数。
3. 方差 & 标准差
1. 定义
- 设X XX为随机变量,分布为F FF,则定义
V a r ( X ) = E ( X − E X ) 2 = E ( X 2 ) − E X 2 Var(X) = E(X - EX)^2 = E(X^2) - EX^2Var(X)=E(X−EX)2=E(X2)−EX2
称为X XX(或者分布F)的方差,其平方根V a r ( X ) \sqrt{Var(X)}Var(X)称为X XX(或者分布F FF)的标准差。
推广:矩的定义
- 设X XX为随机变量,c cc为常数,k kk为正整数,则定义E [ ( X − c ) k ] E[(X-c)^k]E[(X−c)k]称为X XX关于c cc点的k kk阶矩。
- 若c = 0 c=0c=0,则称a k = E ( X k ) a_k = E(X^k)ak=E(Xk)为X XX的k kk阶原点矩,特别的,一阶原点矩就是期望;
- 若c = E X c=EXc=EX,这时μ k = E [ ( X − E X ) k ] \mu_k=E[(X-EX)^k]μk=E[(X−EX)k]称为X XX的k kk阶重心矩,特别的,一阶中心矩为常数0,二阶中心矩即为方差;
2. 性质
- 常数的方差为0;
- 若C为常数,则V a r ( X + C ) Var(X+C)Var(X+C) = Var(X);
- 若C为常数,则V a r ( C X ) = C 2 ⋅ V a r ( X ) Var(CX) = C^2 \cdot Var(X)Var(CX)=C2⋅Var(X);
- 独立随机变量之和的方差等于各变量方差之和:
V a r ( X 1 + . . . + X n ) = V a r ( X 1 ) + . . . + V a r ( X n ) Var(X_1 + ... + X_n) = Var(X_1) + ... + Var(X_n)Var(X1+...+Xn)=Var(X1)+...+Var(Xn)
4. 协方差 & 相关系数
1. 协方差
考察两个一维随机变量X , Y X, YX,Y,假设:
E X = m 1 , E Y = m 2 , V a r ( X ) = σ 1 2 , V a r ( Y ) = σ 2 2 EX = m_1, EY = m_2, Var(X) = \sigma_1^2, Var(Y) = \sigma_2^2EX=m1,EY=m2,Var(X)=σ12,Var(Y)=σ22
则我们有定义:
- 称E [ ( X − m 1 ) ( Y − m 2 ) ] E[(X-m_1)(Y-m_2)]E[(X−m1)(Y−m2)]为X和Y的协方差,记作C o v ( X , Y ) Cov(X, Y)Cov(X,Y)。
我们有性质:
- 若X和Y独立,则C o v ( X , Y ) = 0 Cov(X,Y)=0Cov(X,Y)=0;
- C o v ( X , Y ) 2 ≤ σ 1 2 σ 2 2 Cov(X, Y)^2 \leq \sigma_1^2 \sigma_2^2Cov(X,Y)2≤σ12σ22,等号当且仅当X和Y满足严格的线性关系(即Y = a X + b Y = aX+bY=aX+b)时成立;
2. 相关系数
在上述协方差的基础上,我们可以定义相关系数如下:
- 定义相关系数C o r r ( X , Y ) = C o v ( X , Y ) / ( σ 1 σ 2 ) Corr(X, Y) = Cov(X, Y) / (\sigma_1 \sigma_2)Corr(X,Y)=Cov(X,Y)/(σ1σ2).
同样的,有性质:
- 若X , Y X, YX,Y独立,则C o r r ( X , Y ) = 0 Corr(X,Y) = 0Corr(X,Y)=0;
- ∣ C o r r ( X , Y ) ∣ ≤ 1 |Corr(X, Y)| \leq 1∣Corr(X,Y)∣≤1,且等号当且仅当X和Y存在严格线性关系时取到。
5. 大数定理
1. 大数定理
- 设X 1 , X 2 , . . . , X n , . . . X_1, X_2, ..., X_n, ...X1,X2,...,Xn,...是独立同分布的随机变量,记它们的公共均值为a aa,方差为σ 2 \sigma^2σ2,则对任意给定的ϵ > 0 \epsilon > 0ϵ>0,有:
l i m n → ∞ P ( ∣ X n ˉ − a ∣ ≥ ϵ ) = 0 {lim}_{n \to \infty} P(|\bar{X_n} - a| \geq \epsilon) = 0limn→∞P(∣Xnˉ−a∣≥ϵ)=0
用直白的语言来说:
- 就是当重复实验足够多时,频率总能够无限趋近于概率。
2. 马尔可夫不等式
- 若Y为只取非负值的随机变量,则对于任意常数ϵ > 0 \epsilon > 0ϵ>0,有:
P ( Y ≥ ϵ ) ≤ E ( Y ) / ϵ P(Y \geq \epsilon) \leq E(Y) / \epsilonP(Y≥ϵ)≤E(Y)/ϵ
3. 切比雪夫不等式
- 若V a r ( X ) Var(X)Var(X)存在,则:
P ( ∣ Y − E Y ∣ ≥ ϵ ) ≤ V a r ( Y ) / ϵ 2 P(|Y-EY| \geq \epsilon) \leq Var(Y) / \epsilon^2P(∣Y−EY∣≥ϵ)≤Var(Y)/ϵ2
6. 中心极限定理
中心极限定理是一系列定理的集合,整体来说就是一系列独立同分布的变量之和满足正态分布。
1. 林德伯格-莱维定理
- 设X 1 , X 2 , . . . , X n , . . . X_1, X_2, ..., X_n, ...X1,X2,...,Xn,...为独立同分布的随机变量,E ( X i ) = a , V a r ( X i ) = σ 2 E(X_i) = a, Var(X_i) = \sigma^2E(Xi)=a,Var(Xi)=σ2,则对任意实数x xx有:
l i m n → ∞ P ( 1 n σ ( X 1 + . . . + X n − n a ) ≤ x ) = Φ ( x ) lim_{n\to \infty} P(\frac{1}{\sqrt{n}\sigma}(X_1 + ... + X_n - na) \leq x) = \Phi(x)limn→∞P(nσ1(X1+...+Xn−na)≤x)=Φ(x)
其中Φ ( x ) \Phi(x)Φ(x)是标准正态分布N ( 0 , 1 ) N(0, 1)N(0,1)的分布函数,即Φ ( x ) = 1 2 π ∫ − ∞ x e − t 2 / 2 d t \Phi(x) = \frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-t^2/2}dtΦ(x)=2π1∫−∞xe−t2/2dt
2. 棣莫弗-拉普拉斯定理
- 设X 1 , X 2 , . . . , X n , . . . X_1, X_2, ..., X_n, ...X1,X2,...,Xn,...独立同分布,X i X_iXi为二次分布,即P ( X i = 1 ) = p , P ( X i = 0 ) = 1 − p P(X_i=1) = p, P(X_i=0)=1-pP(Xi=1)=p,P(Xi=0)=1−p,则对于任意实数x xx,有:
l i m n → ∞ P ( 1 n p ( 1 − p ) ( X 1 + . . . + X n − n p ) ≤ x ) = Φ ( x ) lim_{n\to \infty} P(\frac{1}{\sqrt{np(1-p)}} (X_1 + ... + X_n - np) \leq x) = \Phi(x)limn→∞P(np(1−p)1(X1+...+Xn−np)≤x)=Φ(x)
本质上来说这个算是上方林德伯格-莱维定理的一个实例。
2. 几种典型分布
1. 二项分布
P ( x = i ; n , p ) = C n i ⋅ p i ⋅ ( 1 − p ) n − i P(x=i; n,p) = C_{n}^{i} \cdot p^i \cdot (1-p)^{n-i}P(x=i;n,p)=Cni⋅pi⋅(1−p)n−i
1. 均值
E ( X ) = n p E(X) = npE(X)=np
类似的,对于负二项分布P ( x = k ; r , p ) = C k + r − 1 r − 1 ⋅ p r ⋅ ( 1 − p ) k P(x=k; r,p) = C_{k+r-1}^{r-1} \cdot p^r \cdot (1-p)^{k}P(x=k;r,p)=Ck+r−1r−1⋅pr⋅(1−p)k,同样可以计算其均值为:
E ( X ) = r 1 − p p E(X) = r\frac{1-p}{p}E(X)=rp1−p
2. 方差
V a r ( x ) = n p ( 1 − p ) Var(x) = np(1-p)Var(x)=np(1−p)
2. 泊松分布
P ( x = i ) = e − λ ⋅ λ i / i ! P(x=i) = e^{-\lambda} \cdot \lambda^i / i!P(x=i)=e−λ⋅λi/i!
1. 均值
E ( X ) = λ E(X) = \lambdaE(X)=λ
2. 方差
V a r ( X ) = λ Var(X) = \lambdaVar(X)=λ
3. 均匀分布
f ( x ) = 1 / ( b − a ) f(x) = 1/(b-a)f(x)=1/(b−a)
1. 均值
E ( X ) = a + b 2 E(X) = \frac{a+b}{2}E(X)=2a+b
2. 方差
V a r ( X ) = ( b − a ) 2 / 12 Var(X) = (b-a)^2/12Var(X)=(b−a)2/12
3. 中位数
m = a + b 2 m = \frac{a+b}{2}m=2a+b
4. 指数分布
f ( x ) = λ ⋅ e − λ x f(x) = \lambda \cdot e^{-\lambda x}f(x)=λ⋅e−λx
1. 均值
E ( X ) = 1 / λ E(X) = 1/\lambdaE(X)=1/λ
2. 方差
V a r ( X ) = 1 / λ 2 Var(X) = 1/\lambda^2Var(X)=1/λ2
5, 正态分布
f ( x ) = 1 2 π ⋅ σ ⋅ e x p ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi} \cdot \sigma} \cdot exp(-\frac{(x-\mu)^2}{2\sigma^2})f(x)=2π⋅σ1⋅exp(−2σ2(x−μ)2)
1. 均值
E ( X ) = μ E(X) = \muE(X)=μ
2. 方差
V a r ( X ) = σ 2 Var(X) = \sigma^2Var(X)=σ2
3. 中位数
m = μ m=\mum=μ
6. 自由度为n的卡方分布χ n 2 \chi_n^2χn2
k n ( x ) = 1 Γ ( n / 2 ) 2 n / 2 e − x / 2 x ( n − 2 ) / 2 k_n(x) = \frac{1}{\Gamma(n/2) 2^{n/2}}e^{-x/2}x^{(n-2)/2}kn(x)=Γ(n/2)2n/21e−x/2x(n−2)/2
1. 均值
E ( X ) = n E(X) = nE(X)=n
2. 方差
V a r ( X ) = 2 n Var(X) = 2nVar(X)=2n
7. 自由度为n的学生分布t n ( x ) t_n(x)tn(x)
t n ( x ) = Γ ( ( n + 1 ) / 2 ) n π Γ ( n / 2 ) ( 1 + x 2 n ) − n + 1 2 t_n(x) = \frac{\Gamma((n+1)/2)}{\sqrt{n\pi} \Gamma(n/2)} (1+ \frac{x^2}{n})^{-\frac{n+1}{2}}tn(x)=nπΓ(n/2)Γ((n+1)/2)(1+nx2)−2n+1
1. 均值
E ( X ) = 0 E(X) = 0E(X)=0
2. 方差
V a r ( X ) = n n − 2 Var(X) = \frac{n}{n-2}Var(X)=n−2n
8. 自由度为m,n的F分布f m n ( x ) f_{mn}(x)fmn(x)
f m n ( x ) = m m / 2 n n / 2 Γ ( ( m + n ) / 2 ) Γ ( m / 2 ) Γ ( n / 2 ) x m / 2 − 1 ( m x + n ) − ( m + n ) / 2 f_{mn}(x) = m^{m/2} n^{n/2} \frac{\Gamma((m+n)/2)}{\Gamma(m/2)\Gamma(n/2)} x^{m/2-1}(mx+n)^{-(m+n)/2}fmn(x)=mm/2nn/2Γ(m/2)Γ(n/2)Γ((m+n)/2)xm/2−1(mx+n)−(m+n)/2
1. 均值
E ( X ) = n n − 2 E(X) = \frac{n}{n-2}E(X)=n−2n
2. 方差
V a r ( X ) = 2 n 2 ( n + m − 2 ) m ( n − 2 ) 2 ( n − 4 ) Var(X) = \frac{2n^2(n+m-2)}{m(n-2)^2(n-4)}Var(X)=m(n−2)2(n−4)2n2(n+m−2)