数理统计

@(Machine Learning)[数理统计和参数估计]

1.事件的独立性:

给定 $A$ 和 $B$ 是两个事件，若有 $P(AB) = P(A)P(B)$ 则称事件 $A$ 和 $B$ 相互独立。
说明：
$A$ 和 $B$ 相互独立，则 $P(A｜B) = P(A)$ 意为事件 $B$ 的发生对 $A$ 没有任何影响。
实践中往往根据两个事件是否相互影响二判断独立性：如给定 $M$ 个样本，若干次采样的情形，往往假定他们相互独立。

2.期望：

离散型： $E (X) = \sum i x i p$ $E(X) = \sum_ix_ip$
连续型：(概率分布率变成概率密度函数) $E (X) = \int \infty \infty x f (x) d x$ $E(X)=\int^\infty_\infty xf(x)dx$
即：概率加权下的“平均值”

2.1期望的性质：

无条件成立
$E (k X) = k E (x)$ $E(kX) = kE(x)$ $E (X + Y) = E (X) + E (Y)$ $E(X+Y) = E(X) + E(Y)$
若 $X$ 和 $Y$ 相互独立 $E (X Y) = E (X) E (Y)$ $E(XY)=E(X)E(Y)$
反之不成立。事实上，若 $E(XY) = E(X) E(Y)$ ，只能说明 $X$ 和 $Y$ 不相关

3.方差：

定义： $V a r (X) = E ([X - E (X)] 2) = E (X 2) - E 2 (X)$ $Var(X) = E([X-E(X)]^2) = E(X^2)-E^2(X)$
无条件成立： $V a r (c) = 0$ $Var(c) = 0$
$V a r (X + c) = V a r (X)$ $Var(X+c) = Var(X)$ $V a r (k X) = k 2 V a r (X)$ $Var(kX) = k^2Var(X)$
$X$ 和 $Y$ 独立：
$V a r (X + Y) = V a r (X) + V a r (Y)$ $Var(X+Y) = Var(X)+Var(Y)$
另外，方差的平方根叫做标准差

4.协方差：

协方差是两个随机变量具有相同方向变化趋势的度量；
- 若 $Cov(X,Y) > 0$ ，他们的变化趋势相同
- 若 $Cov(X,Y) < 0$ ，他们的变化趋势相反
- 若 $Cov(X,Y) = 0$ ，称 $X$ 和 $Y$ 不相关

4.1定义及性质

定义：
$C o v (X, Y) = E [X - E (X)] [Y - E (Y)]$ $Cov(X,Y) = E{[X-E(X)][Y-E(Y)]}$
性质： $C o v (X, Y) = C o v (X, X)$ $Cov(X,Y) =Cov(X,X)$
$C o v (X, Y) = E (X Y) - E (X) E (Y)$ $Cov(X,Y) = E(XY)-E(X)E(Y)$
- 如果 $X$ ， $Y$ 独立的，那么协方差是0
- 但是， $X，Y$ 独立这个 前提太强，我们定义，若 $Cov(X,Y) = 0$ ，称 $X$ 和 $Y$ 不相关

那么两个随即变量的协方差是否有上界呢？
若
$V a r (X) = σ 21$ $Var(X) = \sigma_1^2$
$V a r (Y) = σ 22$ $Var(Y) = \sigma_2^2$
则 协方差小于等于他们标准差的乘积，即： $| C o v (X, Y) | \leq σ 1 σ 2$ $|Cov(X,Y)| \leq \sigma_1 \sigma_2$
- 当且仅当X和Y之间有 线性关系时，等号成立，也就是 协方差最大( $\sigma_1 \sigma_2$ )。
- 所以说上面的不相关（ 协方差为0）就可以说成是 没有线性关系(但有可能存在其他函数关系)，也就是 线性独立的。但是还是不能保证 $X$ 和 $Y$ 是相互独立的。

4.2 皮尔逊（Pearson）相关系数：

定义： $ρ X Y = C o v ( X , Y ) V a r ( X ) - - - - - - \sqrt V a r ( Y ) - - - - - - \sqrt$ $\rho_{XY} = \frac{Cov(X,Y)}{ \sqrt {Var(X)} \sqrt {Var(Y)} }$
由协方差上界定理可知， $|\rho| \leq 1$
当且仅当 $X$ 和 $Y$ 有线性关系时，等号成立。
容易看到，相关系数是标准尺度下的协方差。

4.3协方差矩阵：

对于n个随机向量 $（X_1,X_2,....X_n）$ ,任意两个元素 $X_i$ 和 $X_j$ 都可以得到一个协方差，从而形成n*n的矩阵；协方差矩阵是对称阵。 $c i j = E [X i - E (X i)] [X j - E (X j)] = C o v (X i, X j)$ $c_{ij} = E{[X_i-E(X_i)][X_j-E(X_j)]} = Cov(X_i,X_j)$

5.矩

对于随即变量 $X$ ， $X$ 的 $k$ 阶原点矩为 $E (X k)$ $E(X^k)$
$X$ 的 $k$ 阶中心矩为 $E [X - E (X)] k$ $E{[X-E(X)]^k}$

利用矩进行统计量的总结：
- 期望其实就是一阶原点矩（k=1的时候）。
- 方差就是二阶中心距
- 变异系数(Coefficient of Variation)
- 标准差与均值的比值成为变异系数，记为 $C\cdot V$
- 偏度Skewness（三阶）
- 峰度Kurtosis（四阶）

6.偏度

衡量随机概率分布的不对称性，是相对于平均值不对称程度的度量。
- 偏度值可以为正可以为负，或者无意义
- 偏度为 负（负偏）/正（正偏） 表示在概率密度函数长尾在左侧 / 右侧
- 偏度为零表示数值相对均匀的分布在平均值附近，但不一定意味着一定是均匀分布。

6.1偏度公式

三阶累积量和二阶累积量的1.5次方的比率
$γ 1 = [(X - μ σ) 3] = E [ ( X - μ ) 3 ] ( E [ ( X - μ ) 2 ] ) 3 2 = K 3 K 3 2 2$ $\gamma_1 =[(\frac{X-\mu}{\sigma})^3] = \frac{E[(X-\mu)^3]}{(E[(X-\mu)^2])^\frac{3}{2}} = \frac{K_3}{K_2^\frac{3}{2}}$
实践里通常用下面的公式计算偏度
$γ 1 = [(X - μ σ) 3] = E [ X 3 ] - 3 μ E [ X 2 ] + 2 μ 2 σ 3 = E [ X 3 ] - 3 μ σ 2 - μ 3 σ 3$ $\gamma_1 =[(\frac{X-\mu}{\sigma})^3] = \frac{E[X^3]-3\mu E[X^2]+2\mu^2}{\sigma^3} = \frac{E[X^3]-3\mu \sigma^2-\mu^3}{\sigma^3}$

7.峰度

如果再把维度高上去，就可以度量尖的情况。峰度就是指概率密度在均值处峰值高低的特征。通常定义四阶中心矩除以方差的平方减3.

γ 2 = K 4 K 2 2 = μ 4 σ 4 - 3 = 1 n \sum n i = 1 ( x i - x ¯ ) 4 ( 1 n \sum n i = 1 ( x i - x ¯ ) 2 ) 2 - 3

$\gamma_2 = \frac{K_4}{K_2^2}= \frac{\mu_4}{\sigma^4}-3 = \frac{\frac{1}{n}\sum_{i =1}^n(x_i - \overline{x})^4}{\left( \frac{1}{n}\sum_{i =1}^n(x_i - \overline{x})^2 \right)^2 } - 3$
- “减3”是为了让正态分布的峰度为0.
-

μ4σ4 $\frac{\mu_4}{\sigma^4}$ 也被称为 超值峰度(excess kurtosis).
- 超值峰度为正，称为 尖峰态；超值峰度为负，称为 低峰态。

8.切比雪夫不等式

思考题：

设随机变量 $X$ 的期望为 $μ$ ，方差为 $σ^2$ ，对于任意正数 $ε$ ，试估计概率 $P\left\{|X-\mu| <ε \right\}$ 的下限。
- 即：随机变量的变化值落在期望值附近的概率。
解：
$P\left\{|X-\mu| \geq ε \right\}$

$=\int_{|X-\mu|\ge ε}f(x)dx$ <> 等价于在这个定义域 $|X-\mu|\ge ε$ 上对 $f(x)$ 求积分

$\leq \int_{|X-\mu|\ge ε}\frac{|X-\mu|^2}{ε}^2f(x)dx$ <> $\frac{|X-\mu|^2}{ε}^2$ 是大于1的

$=\frac{1}{{ε}^2}\leq \int_{|X-\mu|\ge ε}{|X-\mu|^2}f(x)dx$ <>提出ε

$\leq\frac{1}{{ε}^2}\int_{-\infty}^{+\infty}(X-\mu)^2 f(x)dx$ <>积分项就是方差

$=\frac{\sigma^2}{ε^2}$

所以：
$P\left\{|X-\mu|<\varepsilon\right\}$

$=1-P\left\{|X-\mu|\ge \varepsilon\right\}$

$\ge1-\frac{\sigma^2}{\varepsilon^2}$

这就意味着方差越小，离期望值的概率就越大。

这就引出了切比雪夫不等式，它阐明了方差的实际的物理意义。

$P {| X - μ | < ε} \leq σ 2 ε 2$ $P\left\{|X-\mu|<\varepsilon\right\} \leq\frac{\sigma^2}{\varepsilon^2}$
- 切比雪夫不等式说明， $X$ 的方差越小，事件 ${|X-μ| <ε}$ 发生的概率越大。即： X取的值基本上集中在期望μ附近

9.大数定理

大数定理是可以通过切比雪夫不等式证明的：

设随机变量 $X_1,X_2…X_n…$ 互相独立，并且具有 相同的期望 $μ$ 和方差 $σ^2$ 。 作前n个随机变量的平均 $Y_n = \frac{1}{n}\sum_{n=1}^nX$ ，则对于任意正数 $ε$ ，有 $l i m n - > + \infty P {| Y n - μ | < ε} = 1$ $lim_{n->+\infty}P\left\{|Y_n-\mu|<\varepsilon\right\} =1$
$Y_n$ 最终会以概率1收敛到期望上去， $Y_n$ 趋近于 $\mu$
- 当n很大的时，随机变量 $X_1,X_2…X_n…$ 的平均值 $Y_n$ 在概率意义下 无限接近期望 $\mu$

9.1重要推论（概率的标准定义）

一次试验中事件A发生的概率为 $p$ ；重复 $n$ 次独立试验中，事件A发生了 $n_A$ 次，则 $p、n、 n_A$ 的关系满足：对于任意正数 $ε$

$l i m n - > + \infty P {| n A n - p | < ε} = 1$ $lim_{n->+\infty}P\left\{|\frac{n_A}{n}-p|<\varepsilon\right\} =1$
- $\frac{n_A}{n}$ 代表了事件发生的频率,
意为这个频率能以概率1收敛到我的概率——频率接近于概率

10.中心极限定理

设随机变量 $X_1,X_2…X_n…$ 互相独立，服从同一分布，并且具有相同的期望 $μ$ 和方差 $σ^2$ ，则随机变量
$Y n = \sum n i = 1 X i - n μ n - - \sqrt σ$ $Y_n = \frac{\sum_{i=1}^nX_i - n\mu}{\sqrt{n}\sigma}$ 的分布收敛到 标准正态分布
- 容易得到: $\sum_{i=1}^nX_i$ 收敛到正态分布 $N(nμ，nσ^2)$

实际问题中，很多随机现象可以看做许多因素的独立影响的综合反映，往往近似服从正态分布。
城市耗电量：大量用户的耗电量总和
学生考试成绩：大量学生的考试成绩统计。
线性回归中，证明最小二乘法的合理性。

原文链接：https://blog.csdn.net/IOThouzhuo/article/details/50617939