数理统计
@(Machine Learning)[数理统计和参数估计]
1.事件的独立性:
- 给定A和
B 是两个事件,若有P(AB)=P(A)P(B)则称事件A和B 相互独立。- 说明:
- A和
B 相互独立,则P(A|B)=P(A)意为事件B的发生对A 没有任何影响。- 实践中往往根据两个事件是否相互影响二判断独立性:如给定M个样本,若干次采样的情形,往往假定他们相互独立。
2.期望:
- 离散型:
E(X)=∑ixip - 连续型:(概率分布率变成概率密度函数)
E(X)=∫∞∞xf(x)dx- 即:概率加权下的“平均值”
2.1期望的性质:
- 无条件成立
E(kX)=kE(x)E(X+Y)=E(X)+E(Y)- 若X和
Y 相互独立E(XY)=E(X)E(Y)
- 反之不成立。事实上,若E(XY)=E(X)E(Y),只能说明X和
Y 不相关
3.方差:
- 定义:
Var(X)=E([X−E(X)]2)=E(X2)−E2(X)- 无条件成立:
Var(c)=0
Var(X+c)=Var(X)Var(kX)=k2Var(X)- X和
Y 独立:
Var(X+Y)=Var(X)+Var(Y)- 另外,方差的平方根叫做标准差
4.协方差:
协方差是两个
随机变量具有相同方向变化趋势的度量;
- 若Cov(X,Y)>0,他们的变化趋势相同
- 若Cov(X,Y)<0,他们的变化趋势相反
- 若Cov(X,Y)=0,称X和Y 不相关
4.1定义及性质
定义:
Cov(X,Y)=E[X−E(X)][Y−E(Y)]
性质:Cov(X,Y)=Cov(X,X)
Cov(X,Y)=E(XY)−E(X)E(Y)
- 如果 X,Y 独立的,那么协方差是0
- 但是, X,Y独立这个 前提太强,我们定义,若 Cov(X,Y)=0,称 X和Y 不相关
那么两个随即变量的协方差是否有上界呢?
若Var(X)=σ21
Var(Y)=σ22
则 协方差小于等于他们标准差的乘积,即:|Cov(X,Y)|≤σ1σ2
- 当且仅当X和Y之间有 线性关系时, 等号成立,也就是 协方差最大( σ1σ2)。
- 所以说上面的不相关( 协方差为0)就可以说成是 没有线性关系(但有可能存在其他函数关系),也就是 线性独立的。但是还是不能保证 X和Y 是相互独立的。
4.2 皮尔逊(Pearson)相关系数:
- 定义:
ρXY=Cov(X,Y)Var(X)−−−−−−√Var(Y)−−−−−−√- 由协方差上界定理可知,|ρ|≤1
- 当且仅当X和
Y 有线性关系时,等号成立。- 容易看到,相关系数是标准尺度下的协方差。
4.3协方差矩阵:
- 对于n个随机向量(X1,X2,....Xn),任意两个元素Xi和Xj都可以得到一个协方差,从而形成n*n的矩阵;协方差矩阵是对称阵。
cij=E[Xi−E(Xi)][Xj−E(Xj)]=Cov(Xi,Xj)
5.矩
- 对于随即变量X,
X 的k阶原点矩为E(Xk) - X的
k 阶中心矩为E[X−E(X)]k
利用矩进行统计量的总结:
- 期望其实就是一阶原点矩(k=1的时候)。
- 方差就是二阶中心距
- 变异系数(Coefficient of Variation)
- 标准差与均值的比值成为变异系数,记为C⋅V
- 偏度Skewness(三阶)
- 峰度Kurtosis(四阶)
6.偏度
衡量随机概率分布的不对称性,是相对于平均值
不对称程度的度量。
- 偏度值可以为正可以为负,或者无意义
- 偏度为负(负偏)/正(正偏) 表示在概率密度函数长尾在左侧/ 右侧
- 偏度为零表示数值相对均匀的分布在平均值附近,但不一定意味着一定是均匀分布。
6.1偏度公式
- 三阶累积量和二阶累积量的1.5次方的比率
γ1=[(X−μσ)3]=E[(X−μ)3](E[(X−μ)2])32=K3K322 - 实践里通常用下面的公式计算偏度
γ1=[(X−μσ)3]=E[X3]−3μE[X2]+2μ2σ3=E[X3]−3μσ2−μ3σ3
7.峰度
如果再把维度高上去,就可以度量尖的情况。峰度就是指概率密度在均值处峰值高低的特征。通常定义四阶中心矩除以方差的平方减3.
- “减3”是为了让正态分布的峰度为0.
- μ4σ4也被称为 超值峰度(excess kurtosis).
- 超值峰度为 正,称为 尖峰态;超值峰度为 负,称为 低峰态。
8.切比雪夫不等式
思考题:
设随机变量X的期望为
μ ,方差为σ2, 对于任意正数ε,试估计概率P{|X−μ|<ε} 的下限。
- 即:随机变量的变化值落在期望值附近的概率。解:
P{|X−μ|≥ε}
=∫|X−μ|≥εf(x)dx<> 等价于在这个定义域|X−μ|≥ε上对f(x)求积分
≤∫|X−μ|≥ε|X−μ|2ε2f(x)dx<>|X−μ|2ε2是大于1的
=1ε2≤∫|X−μ|≥ε|X−μ|2f(x)dx<>提出ε
≤1ε2∫+∞−∞(X−μ)2f(x)dx<>积分项就是方差
=σ2ε2
所以:
P{|X−μ|<ε}
=1−P{|X−μ|≥ε}
≥1−σ2ε2
这就意味着方差越小,离期望值的概率就越大。
这就引出了
切比雪夫不等式,它阐明了方差的实际的物理意义。
P{|X−μ|<ε}≤σ2ε2
- 切比雪夫不等式说明, X的方差越小, 事件|X−μ|<ε 发生的概率越大。即: X取的值基本上集中在期望μ附近
9.大数定理
- 大数定理是可以通过切比雪夫不等式证明的:
设随机变量 X1,X2…Xn…互相独立,并且具有 相同的期望μ和方差σ2 。 作前n个随机变量的平均 Yn=1n∑nn=1X,则对于任意正数 ε,有limn−>+∞P{|Yn−μ|<ε}=1
Yn最终会以概率1收敛到期望上去 , Yn趋近于 μ
- 当n很大的时,随机变量 X1,X2…Xn…的平均值 Yn在概率意义下 无限接近期望μ
9.1重要推论(概率的标准定义)
一次试验中事件A发生的概率为p;重复
n 次 独立试验中,事件A发生了nA次,则p、n、nA的关系满足: 对于任意正数ε
limn−>+∞P{|nAn−p|<ε}=1
- nAn代表了事件发生的频率,
意为这个频率能以概率1收敛到我的概率——频率接近于概率
10.中心极限定理
设随机变量X1,X2…Xn…互相独立,服从同一分布,并且具有相同的期望μ和方差
σ2 ,则随机变量Yn=∑ni=1Xi−nμn−−√σ的分布收敛到 标准正态分布
- 容易得到: ∑ni=1Xi收敛到正态分布 N(nμ,nσ2)
- 实际问题中,很多随机现象可以看做许多因素的独立影响的综合反映,往往近似服从正态分布。
- 城市耗电量:大量用户的耗电量总和
- 学生考试成绩:大量学生的考试成绩统计。
- 线性回归中,证明最小二乘法的合理性。