统计学复习笔记（二）—— 常见的概率分布&卡方分布，t分布，F分布和中心极限定理

文章目录

离散型随机变量（Discrete Random Variable）的概率分布

二项分布（Binomial Distribution） $X\sim Bin(n,p)$
比如扔n次硬币，每一次扔硬币都是互相独立的，结果只包含正面和反面两种结果，出现正面的概率为 $p$ , 出现反面的概率是 $q$ ， $p + q = 1$ 。设出现正面的次数是 $X$ , 那么
$p(X=x)=C^x_np^xq^{n-x}$ ， $E (X) = n p, V a r (X) = n p q$
泊松分布（Poisson Distribution） $X\sim Pois(\lambda)$
一段时间内，事件发生的次数的概率。比如，一个小时内，5位顾客来店里的概率是多少？设顾客数为 $X$ ，一个小时内的顾客数平均是 $\lambda$ , 来店里的顾客数就服从Poisson Distribution。
$p(X=x)=\frac{\lambda e^{-\lambda}}{x!}$ , $E(X)=\lambda, Var(X)=\lambda$

【当p趋近于0且n足够大时，Binomial Distribution近似等于Poisson Distribution。】

连续型随机变量（Continuous Random Variable）的概率分布

Probability Density Function or PDF: $f (x)$
Probability Mass Function or PMF: $F (x)$
$F(x)=p(X\leq x)=\int^x_{- \infty}f(t)dt$ ， $f(x)=F^{'}(x)$
$p(a<X<b)=\int^b_af(x)dx=F(a)-F(b)$ ,相当于density曲线下面在a和b之间的面积
期望与方差：
$E(X)=\int^{+\infty}_{-\infty}xf(x)=\mu$
$Var(X)=\int^{+\infty}_{-\infty}[x-E(x)]^2f(x)=\sigma^2$

正态分布（Normal Distribution） $X\sim N(\mu,\sigma^2)$
$f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}$ , $\mu$ 决定图像中心位置，当 $x=\mu$ 时， $f (x)$ 达到最大值， $f(\mu)=\frac{1}{2\pi\sigma}$ 。 $\sigma$ 越大，曲线越平缓。
标准正态分布（Standard Normal Distribution） $Z=\frac{X-\mu}{\sigma}\sim N(0,1)$
$\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$
$PMF:\phi(x)=\int^x_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt$
正态分布概率问题中，将一般正态分布转化为标准正态分布后就可以查表，以及： $\phi(-x)=1-\phi(x)$

基于正态分布的几个分布

统计量（Statistics）: $X_1,X_2,...X_n$ 是一个样本，那么由这些样本构造的函数： $T(X_1,X_2,...X_n)$ 是样本的统计量。常见的统计量包括样本均值，样本方差等。
抽样分布（Sampling Distribution）: 简单来说就是样本统计量的分布。在正态总体的情况下，可以推导出统计三大分布： $\chi^2$ 分布， $t$ 分布， $F$ 分布。

卡方 $（\chi^2）$ 分布（Chi-square Distribution）

如果 $X_1,X_2,...X_n$ 相互独立且服从标准正态分布，那么 $\Sigma_{i=1}^nX_i^2$ 服从自由度（Degree of Freedom, or df）为n的 $\chi^2$ 分布： $X^2\sim \chi(n)$ 。如果 $X_1^2\sim \chi^2(n_1)$ ， $X_2^2\sim \chi^2(n_2)$ ，那么 $X_1^2+X_2^2\sim \chi^2(n_1+n_2)$ 。不同的自由度下，卡方分布的 $P D F$ 如下图：
chi square

$t$ 分布（t Distribution）

如果 $X$ 服从标准正态分布， $Y$ 服从自由度为 $n$ 的卡方分布，且 $X$ 和 $Y$ 相互独立，那么 $t=\frac{X}{\sqrt{Y/n}}$ 服从自由度为 $n$ 的 $t$ 分布： $t\sim t(n)$ 。 $t$ 分布的PDF图像和正态分布很像，都是钟型，但 $t$ 分布的尾部更厚一点，说明 $t$ 分布比正态分布更容易观测到极端值。自由度越高，越接近正态分布。一般认为 $n\geq30$ 时基本可以看做正态分布。不同自由度下的 $t$ 分布和标准正态分布的 $P D F$ 如下：

$F$ 分布（F Distribution）

如果 $V_1,V_2$ 相互独立且满足自由度分别为 $n_1$ 和 $n_2$ 的卡方分布，那么 $X=\frac{V_1/n_1}{V_2/n_2}$ 满足自由度为 $n_1$ 和 $n_2$ (两个自由度的位置不能交换)的 $F$ 分布： $X\sim F(n_1,n_2)$ 。以及，如果 $X\sim t(n)$ , 那么 $X^2\sim F(1,n)$ 。不同自由度下的 $F$ 分布PDF如下图：

中心极限定理（Central Limit Theorem）

样本均值 $\bar{X}$ 是一个常见的统计量，前面说过抽样分布时是样本统计量的分布，而在总体服从 $N(\mu,\sigma^2)$ 的情况下， $\bar{X}$ 的抽样分布也是正态分布： $\bar{X}\sim N(\mu,\frac{\sigma^2}{n})$ 。而当总体不服从正态分布的情况下，根据中心极限定理，如果 $n$ 足够大， $\bar{X}$ 的分布也近似正态分布。设总体均值为 $\mu$ , 总体方差为 $\sigma^2$ , 抽取样本量为 $n$ 的样本， $n$ 足够大时， $\bar{X}$ 近似服从 $N(\mu,\frac{\sigma^2}{n})$ ，或 $\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ 近似服从 $N (0, 1)$ 。

····················未完待续····················

原文链接：https://blog.csdn.net/weixin_46490424/article/details/105031395

文章目录

离散型随机变量（Discrete Random Variable）的概率分布

连续型随机变量（Continuous Random Variable）的概率分布

基于正态分布的几个分布

卡方（ χ 2 ） （\chi^2）（χ2）分布（Chi-square Distribution）

t tt分布（t Distribution）

F FF分布（F Distribution）

中心极限定理（Central Limit Theorem）

卡方 $（\chi^2）$ 分布（Chi-square Distribution）

$t$ 分布（t Distribution）

$F$ 分布（F Distribution）