文章目录
离散型随机变量(Discrete Random Variable)的概率分布
- 二项分布(Binomial Distribution) X ∼ B i n ( n , p ) X\sim Bin(n,p)X∼Bin(n,p)
比如扔n次硬币,每一次扔硬币都是互相独立的,结果只包含正面和反面两种结果,出现正面的概率为p pp, 出现反面的概率是 q qq,p + q = 1 p+q=1p+q=1。设出现正面的次数是X XX, 那么
p ( X = x ) = C n x p x q n − x p(X=x)=C^x_np^xq^{n-x}p(X=x)=Cnxpxqn−x, E ( X ) = n p , V a r ( X ) = n p q E(X)=np, Var(X)=npqE(X)=np,Var(X)=npq - 泊松分布(Poisson Distribution)X ∼ P o i s ( λ ) X\sim Pois(\lambda)X∼Pois(λ)
一段时间内,事件发生的次数的概率。比如,一个小时内,5位顾客来店里的概率是多少?设顾客数为X XX,一个小时内的顾客数平均是λ \lambdaλ, 来店里的顾客数就服从Poisson Distribution。
p ( X = x ) = λ e − λ x ! p(X=x)=\frac{\lambda e^{-\lambda}}{x!}p(X=x)=x!λe−λ ,E ( X ) = λ , V a r ( X ) = λ E(X)=\lambda, Var(X)=\lambdaE(X)=λ,Var(X)=λ
【当p趋近于0且n足够大时,Binomial Distribution近似等于Poisson Distribution。】
连续型随机变量(Continuous Random Variable)的概率分布
Probability Density Function or PDF: f ( x ) f(x)f(x)
Probability Mass Function or PMF: F ( x ) F(x)F(x)
F ( x ) = p ( X ≤ x ) = ∫ − ∞ x f ( t ) d t F(x)=p(X\leq x)=\int^x_{- \infty}f(t)dtF(x)=p(X≤x)=∫−∞xf(t)dt, f ( x ) = F ′ ( x ) f(x)=F^{'}(x)f(x)=F′(x)
p ( a < X < b ) = ∫ a b f ( x ) d x = F ( a ) − F ( b ) p(a<X<b)=\int^b_af(x)dx=F(a)-F(b)p(a<X<b)=∫abf(x)dx=F(a)−F(b),相当于density曲线下面在a和b之间的面积
期望与方差:
E ( X ) = ∫ − ∞ + ∞ x f ( x ) = μ E(X)=\int^{+\infty}_{-\infty}xf(x)=\muE(X)=∫−∞+∞xf(x)=μ
V a r ( X ) = ∫ − ∞ + ∞ [ x − E ( x ) ] 2 f ( x ) = σ 2 Var(X)=\int^{+\infty}_{-\infty}[x-E(x)]^2f(x)=\sigma^2Var(X)=∫−∞+∞[x−E(x)]2f(x)=σ2
正态分布(Normal Distribution) X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2)X∼N(μ,σ2)
f ( x ) = 1 σ 2 π e − 1 2 σ 2 ( x − μ ) 2 f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}f(x)=σ2π1e−2σ21(x−μ)2, μ \muμ决定图像中心位置,当x = μ x=\mux=μ时,f ( x ) f(x)f(x)达到最大值,f ( μ ) = 1 2 π σ f(\mu)=\frac{1}{2\pi\sigma}f(μ)=2πσ1。 σ \sigmaσ越大,曲线越平缓。
标准正态分布(Standard Normal Distribution)Z = X − μ σ ∼ N ( 0 , 1 ) Z=\frac{X-\mu}{\sigma}\sim N(0,1)Z=σX−μ∼N(0,1)
P D F : φ ( x ) = 1 2 π e − x 2 2 PDF: \varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}PDF:φ(x)=2π1e−2x2
P M F : ϕ ( x ) = ∫ − ∞ x 1 2 π e − t 2 2 d t PMF:\phi(x)=\int^x_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dtPMF:ϕ(x)=∫−∞x2π1e−2t2dt
正态分布概率问题中,将一般正态分布转化为标准正态分布后就可以查表,以及:ϕ ( − x ) = 1 − ϕ ( x ) \phi(-x)=1-\phi(x)ϕ(−x)=1−ϕ(x)
基于正态分布的几个分布
统计量(Statistics): X 1 , X 2 , . . . X n X_1,X_2,...X_nX1,X2,...Xn是一个样本,那么由这些样本构造的函数:T ( X 1 , X 2 , . . . X n ) T(X_1,X_2,...X_n)T(X1,X2,...Xn)是样本的统计量。常见的统计量包括样本均值,样本方差等。
抽样分布(Sampling Distribution): 简单来说就是样本统计量的分布。在正态总体的情况下,可以推导出统计三大分布:χ 2 \chi^2χ2分布,t tt分布, F FF分布。
如果 X 1 , X 2 , . . . X n X_1,X_2,...X_nX1,X2,...Xn 相互独立且服从标准正态分布,那么Σ i = 1 n X i 2 \Sigma_{i=1}^nX_i^2Σi=1nXi2服从自由度(Degree of Freedom, or df)为n的χ 2 \chi^2χ2分布:X 2 ∼ χ ( n ) X^2\sim \chi(n)X2∼χ(n)。如果X 1 2 ∼ χ 2 ( n 1 ) X_1^2\sim \chi^2(n_1)X12∼χ2(n1),X 2 2 ∼ χ 2 ( n 2 ) X_2^2\sim \chi^2(n_2)X22∼χ2(n2),那么X 1 2 + X 2 2 ∼ χ 2 ( n 1 + n 2 ) X_1^2+X_2^2\sim \chi^2(n_1+n_2)X12+X22∼χ2(n1+n2)。不同的自由度下,卡方分布的P D F PDFPDF如下图:
如果X XX服从标准正态分布,Y YY服从自由度为n nn的卡方分布,且X XX和Y YY相互独立,那么t = X Y / n t=\frac{X}{\sqrt{Y/n}}t=Y/nX服从自由度为n nn的t tt分布:t ∼ t ( n ) t\sim t(n)t∼t(n)。t tt分布的PDF图像和正态分布很像,都是钟型,但t tt分布的尾部更厚一点,说明t tt分布比正态分布更容易观测到极端值。自由度越高,越接近正态分布。一般认为n ≥ 30 n\geq30n≥30时基本可以看做正态分布。不同自由度下的t tt分布和标准正态分布的P D F PDFPDF如下:
如果V 1 , V 2 V_1,V_2V1,V2相互独立且满足自由度分别为n 1 n_1n1和n 2 n_2n2的卡方分布,那么X = V 1 / n 1 V 2 / n 2 X=\frac{V_1/n_1}{V_2/n_2}X=V2/n2V1/n1满足自由度为n 1 n_1n1和n 2 n_2n2(两个自由度的位置不能交换)的F FF分布:X ∼ F ( n 1 , n 2 ) X\sim F(n_1,n_2)X∼F(n1,n2)。以及,如果X ∼ t ( n ) X\sim t(n)X∼t(n), 那么X 2 ∼ F ( 1 , n ) X^2\sim F(1,n)X2∼F(1,n)。不同自由度下的F FF分布PDF如下图:
中心极限定理(Central Limit Theorem)
样本均值X ˉ \bar{X}Xˉ是一个常见的统计量,前面说过抽样分布时是样本统计量的分布,而在总体服从N ( μ , σ 2 ) N(\mu,\sigma^2)N(μ,σ2)的情况下, X ˉ \bar{X}Xˉ的抽样分布也是正态分布:X ˉ ∼ N ( μ , σ 2 n ) \bar{X}\sim N(\mu,\frac{\sigma^2}{n})Xˉ∼N(μ,nσ2)。而当总体不服从正态分布的情况下,根据中心极限定理,如果n nn足够大,X ˉ \bar{X}Xˉ的分布也近似正态分布。设总体均值为μ \muμ, 总体方差为σ 2 \sigma^2σ2, 抽取样本量为n nn的样本,n nn足够大时,X ˉ \bar{X}Xˉ近似服从N ( μ , σ 2 n ) N(\mu,\frac{\sigma^2}{n})N(μ,nσ2),或X ˉ − μ σ / n \frac{\bar{X}-\mu}{\sigma/\sqrt{n}}σ/nXˉ−μ近似服从N ( 0 , 1 ) N(0,1)N(0,1)。
····················未完待续····················