提示:帮助复习数理统计,教材为茆诗松的《概率论与数理统计》
第五章
前言
为了应付期中考试,也是让自己复习,在此开始梳理一下知识点,争取考个好成绩。一、总体与样本
1.总体
在一个统计问题中,我们把研究对象的全体称为总体,构成总体的每个成员称为个体。总体还分为有限总体和无线总体。
2.样本
为了研究总体的分布,我们在总体中随机的抽取n个个体,记录其指标值为 x 1 x_1x1,x 2 x_2x2,x 3 x_3x3,⋯ \cdots⋯,x n x_nxn称作总体的一个样本,n称为样本容量,或简称样本量,样本中的个体称为样品。
二、样本数据的整理与显示
1.经验分布函数
设 x 1 x_1x1,x 2 x_2x2,x 3 x_3x3,⋯ \cdots⋯,x n x_nxn是取自总体分布函数为F ( x ) F(x)F(x)的样本,若将观测值由小到大进行排列,记为x ( 1 ) x_{(1)}x(1),x ( 2 ) x_{(2)}x(2),⋯ \cdots⋯,x ( n ) x_{(n)}x(n),则x ( 1 ) x_{(1)}x(1),x ( 2 ) x_{(2)}x(2),⋯ \cdots⋯,x ( n ) x_{(n)}x(n)称为有序样本,用有序样本定义如下函数
F n ( x ) = { 0 当 x < x ( 1 ) , k / n 当 x ( k ) ≤ x < x ( k + 1 ) , k = 1 , 2 , ⋯ , n − 1 , 1 当 x ≥ x ( n ) , F_n(x)=\begin{cases} 0 & 当x<x_{(1)} ,\\ k/n & 当x_{(k)}\leq x < x_{(k+1)},k=1,2,\cdots,n-1, \\ 1 & 当x \geq x_{(n)}, \end{cases}Fn(x)=⎩⎪⎨⎪⎧0k/n1当x<x(1),当x(k)≤x<x(k+1),k=1,2,⋯,n−1,当x≥x(n),
则F ( x ) F(x)F(x)是一非减右连续函数,且满足
F n ( − ∞ ) = 0 和 F n ( ∞ ) = 1 F_n(-\infty)=0和F_n(\infty)=1Fn(−∞)=0和Fn(∞)=1
由此可见,F ( x ) F(x)F(x)是一个分布函数,称F ( x ) F(x)F(x)为该样本的经验分布函数。(这个经验函数其实很好理解,和平常统计频率是一样的,数出所有小于x k x_kxk的个数,然后除以总数,自然就是小于x k x_kxk这个时间发生的概率了)
这里书上提了一下格利文科定理,说的是当样本量越多时,经验分布函数越近似于总体分布函数。(如果看公式很难理解的话,可以抽象理解为:当你抽出很多样本后,可以看作把总体全部抽出来了,这样子相当于用频率估计概率了)
2.频数频率表
3.样本数据的图形显示
这两个小结就不啰嗦了,这都是初高中的知识,关于怎么画频数分布表,和频数分布直方图和茎叶图就不多赘述了
三、统计量及其分布
1.统计量与抽样分布
定义:设 x 1 , x 2 , x 3 , ⋯ , x n x_1,x_2,x_3,\cdots,x_nx1,x2,x3,⋯,xn是取自某总体的样本,若样本函数T = T ( x 1 , x 2 , ⋯ , x n ) T=T(x_1,x_2,\cdots,x_n)T=T(x1,x2,⋯,xn)中不含有任何未知参数,则称T TT为统计量。统计量的分布称为抽样分布。
个人对统计量的理解就是,你能统计下来的东西,也就是说你先从总体抽样出来一些样本,这些样本被抽样出来,样本值就已经知道了,这些样本所构成的一个信息就是统计量。之所以说统计量不含未知参数,但是它又依赖于未知参数,是因为你的样本毕竟是从总体中抽出来的,既然如此,总体是怎么分布的,你的样本也会受到相应影响,最简单的例子,你的总体如果是 2,那么无论怎么抽样也不可能出现3。我们再推广一下,现在总体的大概分布是知道的,但是它和未知参数有关,那么你的抽样分布也会和这个未知参数有关。
2.样本均值及其抽样分布
定义:设 x 1 , x 2 , x 3 , ⋯ , x n x_1,x_2,x_3,\cdots,x_nx1,x2,x3,⋯,xn是取自某总体的样本,其算数平均值称为样本均值,一般用x ˉ \bar{x}xˉ表示,即
x ˉ = x 1 + x 2 + ⋯ + x n n = 1 n ∑ i = 1 n x i \bar{x}=\frac{x_1+x_2+\cdots+x_n}{n}=\frac{1}{n}\sum_{i=1}^nx_ixˉ=nx1+x2+⋯+xn=n1i=1∑nxi
在分组样本场合,样本均值的近似公式为
x ˉ = x 1 f 1 + x 2 f 2 + ⋯ + x k f k n ( n = ∑ i = 1 k f i ) \bar{x}=\frac{x_1f_1+x_2f_2+\cdots+x_kf_k}{n} \quad(n=\sum_{i=1}^kf_i)xˉ=nx1f1+x2f2+⋯+xkfk(n=i=1∑kfi)
其中k kk 为组数,x i x_ixi为第i ii组的组中值,f i f_ifi为第i ii组的频数。(初高中求分组的平均值方法就是,只不过正规化了)
- 性质
若把样本中的数据与样本均值之差称为偏差,则样本所有偏差之和为0,即
∑ i = 1 n ( x i − x ˉ = 0 ) \sum_{i=1}^n(x_i-\bar{x}=0)∑i=1n(xi−xˉ=0)。
数据观测值与样本均值的偏差平方和最小,即在形如∑ ( x i − c ) 2 \sum(x_i-c)^2∑(xi−c)2的函数中,∑ ( x i − x ˉ ) 2 \sum(x_i-\bar{x})^2∑(xi−xˉ)2最小,其中c为任意给定常数。
证明
∑ ( x i − c ) = ∑ ( x i − x ˉ + x ˉ − c ) 2 = ∑ ( x i − x ˉ ) + n ( x ˉ − c ) 2 + 2 ∑ ( x i − x ˉ ) ( x ˉ − c ) = ∑ ( x i − x ˉ ) 2 + n ( x ˉ − c ) 2 ≥ ∑ ( x i − x ˉ ) 2 \begin{aligned} \sum(x_i-c) &=\sum(x_i-\bar{x}+\bar{x}-c)^2 \\ &=\sum(x_i-\bar{x})+n(\bar{x}-c)^2+2\sum(x_i-\bar{x})(\bar{x}-c)\\ &= \sum(x_i-\bar{x})^2+n(\bar{x}-c)^2\geq\sum(x_i-\bar{x})^2 \end{aligned}∑(xi−c)=∑(xi−xˉ+xˉ−c)2=∑(xi−xˉ)+n(xˉ−c)2+2∑(xi−xˉ)(xˉ−c)=∑(xi−xˉ)2+n(xˉ−c)2≥∑(xi−xˉ)2
设 x 1 , x 2 , x 3 , ⋯ , x n x_1,x_2,x_3,\cdots,x_nx1,x2,x3,⋯,xn是来自某个总体的样本,x ˉ \bar{x}xˉ为样本均值。
(1)若总体分布为N ( μ , σ 2 ) N(\mu,\sigma^2)N(μ,σ2),则x ˉ \bar{x}xˉ的精确分布为N ( μ , σ 2 / n ) N(\mu,\sigma^2/n)N(μ,σ2/n);
(2)若总体分布未知或者不是正态分布,E ( x ) = μ , V a r ( x ) = σ 2 E(x)=\mu,Var(x)=\sigma^2E(x)=μ,Var(x)=σ2存在,则n nn较大的时x ˉ \bar{x}xˉ的渐进分布为N ( μ , σ 2 / n ) N(\mu,\sigma^2/n)N(μ,σ2/n),常记为x ˉ ∼ N ( μ , σ 2 / n ) . \bar{x}\sim{N(\mu,\sigma^2/n)}.xˉ∼N(μ,σ2/n).这里渐进分布是指n nn较大时的近似分布。
3.样本方差与样本标准差
这个很简单,记住无偏方差和有偏方差的区别就行,就不说了。我想加快点进度,感觉前面的废话太多了。
4.样本矩及其函数
定义: 设 x 1 , x 2 , x 3 , ⋯ , x n x_1,x_2,x_3,\cdots,x_nx1,x2,x3,⋯,xn是样本,k kk为正整数,则统计量
a k = 1 n ∑ i = 1 n x i k a_k = \frac{1}{n}\sum_{i=1}^nx_i^kak=n1i=1∑nxik称为样本k kk阶原点矩,特别,样本一阶原点矩就是样本均值。统计量
b k = 1 n ∑ i = 1 n ( x i − x ˉ ) k b_k = \frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^kbk=n1i=1∑n(xi−xˉ)k称为样本k kk阶中心矩,特别,样本二阶中心矩就是样本方差。
样本偏度: β ^ s = b 3 b 2 3 2 \hat{\beta}_s=\frac{b_3}{b_2^{\frac{3}{2}}}β^s=b223b3
样本峰度:β ^ s = b 4 b 2 2 − 3 \hat{\beta}_s=\frac{b_4}{b_2^2}-3β^s=b22b4−3
5、次序统计量及其分布
1.定义
x 1 , x 2 , x 3 , ⋯ , x n x_1,x_2,x_3,\cdots,x_nx1,x2,x3,⋯,xn是取自总体为X XX的样本,x ( i ) x_{(i)}x(i)称为该样本的第i ii个次序统计量,它的取值是将样本观测值由小到大排列后得到的第 i ii个观测值,其中 x ( 1 ) = m i n { x 1 , x 2 , ⋯ , x n } x_{(1)}=min\{x_1,x_2,\cdots,x_n\}x(1)=min{x1,x2,⋯,xn} 称为该样本的最小次序统计量, x ( n ) = m a x { x 1 , x 2 , ⋯ , x n } x_{(n)}=max\{x_1,x_2,\cdots,x_n\}x(n)=max{x1,x2,⋯,xn} 称为该样本的最大次序统计量。
其实次序统计量就是样本排序后的结果,计算它的概率需要考虑到它出现的位置因素,例如:最小次序统计量可能出现在第一个位置上,可能出现在最后一个位置上,它的计算公式必然要将它的位置给确定,如何要看确定看接下来的公式。
2.单个次序统计量的分布
设总体 X XX 的密度函数为 p ( x ) p(x)p(x) ,分布函数为 F ( x ) , x 1 , x 2 , ⋯ , x n F(x),x_1,x_2,\cdots,x_nF(x),x1,x2,⋯,xn 为样本,则第 k kk 个次序统计量 x ( k ) x_{(k)}x(k) 的密度函数为
p k ( x ) = n ! ( k − 1 ) ! ( n − k ) ! ( F ( x ) ) k − 1 ( 1 − F ( k ) ) n − k p ( x ) p_k(x)=\frac{n!}{(k-1)!(n-k)!}(F(x))^{k-1}(1-F(k))^{n-k}p(x)pk(x)=(k−1)!(n−k)!n!(F(x))k−1(1−F(k))n−kp(x)
(F ( x ) 表 示 观 测 小 于 x 的 概 率 , p ( x ) 表 示 观 测 值 等 于 x 的 概 率 F(x)表示观测小于x的概率,p(x)表示观测值等于x的概率F(x)表示观测小于x的概率,p(x)表示观测值等于x的概率)
上次提到了想表示次序统计量,必须要固定它的位置,公式其实十分巧妙关键就在于n ! ( k − 1 ) ! ( n − k ) ! \frac{n!}{(k-1)!(n-k)!}(k−1)!(n−k)!n!这个系数到底表示了什么呢?
其实很容易理解:
假设计算的是第k kk个次序统计量小于x xx的概率,那么可以肯定的是现在有k − 1 k-1k−1个值小于你的x xx, 并且有n − k n-kn−k个值比x xx大,是不是觉得有点灵感了?
那么怎么知道我这个x ( k ) x_{(k)}x(k)在哪呢?它可能是未排序的第一个,也可能是最后一个。让我们好好想想,我们真的需要知道它具体出现在哪吗?其实并不需要,我们只要算出它出现的可能情况总和就行,也就是n ! ( k − 1 ) ! ( n − k ) ! \frac{n!}{(k-1)!(n-k)!}(k−1)!(n−k)!n!种可能。
至于后面的F ( x ) k − 1 F(x)^{k-1}F(x)k−1就可以看作出现k − 1 k-1k−1个小于x xx观测值的总概率,( 1 − F ( x ) ) k (1-F(x))^{k}(1−F(x))k就可以看作出现k kk个大于x xx观测值的总概率,再乘上p ( x ) p(x)p(x)自然就算出来了第k kk个次序统计量的概率密度函数。
3.多个次序统计量及其函数的分布
这里就不说多了,提供个公式,自行拓展下吧!
这里给出任意两个次序统计量的联合分布,次序统计量为( x ( i ) , x ( j ) ) (x_{(i)},x_{(j)})(x(i),x(j)),联合分布函数为:
p i j ( y , z ) = n ! ( i − 1 ) ! ( j − i − 1 ) ! ( n − j ) ! [ F ( y ) ] i − 1 [ F ( z ) − F ( y ) ] j − i − 1 [ 1 − F ( z ) ] n − j p ( y ) p ( z ) ( y ≤ z ) p_{ij}(y,z)=\frac{n!}{(i-1)!(j-i-1)!(n-j)!}\left[ F(y)\right]^{i-1}\left[ F(z) -F(y)\right]^{j-i-1}\left[ 1-F(z)\right]^{n-j}p(y)p(z)\quad(y\leq z)pij(y,z)=(i−1)!(j−i−1)!(n−j)!n![F(y)]i−1[F(z)−F(y)]j−i−1[1−F(z)]n−jp(y)p(z)(y≤z)
有关三大抽样分布以及充分统计量将会在下一篇博客中复习,有什么问题可以私信或者评论,不定期回复。
续 上次发完博客,发现有两个知识点没提到,现在补上:
6、样本分位数与样本中位数
样本中位数m 0.5 m_{0.5}m0.5也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义:
m 0.5 = { x ( n + 1 2 ) , n 为 奇 数 , 1 2 ( x ( n 2 ) + x ( n 2 + 1 ) ) n 为 偶 数 , m_{0.5}=\begin{cases} x_{(\frac{n+1}{2})}, & n为奇数 ,\\ \frac{1}{2}(x_{(\frac{n}{2})}+x_{(\frac{n}{2}+1)}) & n为偶数, \end{cases}m0.5={x(2n+1),21(x(2n)+x(2n+1))n为奇数,n为偶数,
更一般地,样本p pp分位数m p m_pmp可如下定义:
m p = { x ( [ n p + 1 ] ) , 若 n p 不 是 整 数 , 1 2 ( x n p + x n p + 1 ) , 若 n p 是 整 数 , m_{p}=\begin{cases} x_{([np+1])}, & 若np不是整数 ,\\ \frac{1}{2}(x_{np}+x_{np+1}), & 若np是整数 , \end{cases}mp={x([np+1]),21(xnp+xnp+1),若np不是整数,若np是整数,
上述为p pp分位数和中位数的定义,下面有一个很重要的定理:
设总体密度函数为p ( x ) , x p p(x),x_pp(x),xp为其 p pp 分位数, p ( x ) p(x)p(x) 在x p x_pxp 处连续且 p ( x p ) > 0 p(x_p)>0p(xp)>0 ,则当 n → ∞ n \to \inftyn→∞ 时样本 p pp 分位数 m p m_pmp 的渐进分布为
m p ∼ ˙ N ( x p , p ( 1 − p ) n ⋅ p 2 ( x p ) ) m_p\dot\sim N(x_p,\frac{p(1-p)}{n\cdot p^2(x_p)})mp∼˙N(xp,n⋅p2(xp)p(1−p))
特别,对样本中位数,当 n → ∞ n \to \inftyn→∞ 时,近似地有
m 0.5 ∼ ˙ N ( x 0.5 , 1 4 n ⋅ p 2 ( x 0.5 ) ) m_{0.5}\dot\sim N(x_{0.5},\frac{1}{4n\cdot p^2(x_{0.5})})m0.5∼˙N(x0.5,4n⋅p2(x0.5)1)
以上为分位数的一般性定义,其实也就是一组大小为n nn的数据中,第n p npnp大的数,以及它的渐进分布。
7、五数概括和箱线图
次序统计量的应用之一就是五数概括与箱线图,在得到有序样本后,容易计算如下五个数:最小观测值 x m i n = x ( 1 ) x_{min}=x_{(1)}xmin=x(1) ,最大观测值 x m a x = x ( n ) x_{max}=x_{(n)}xmax=x(n) ,中位数 x 0.5 x_{0.5}x0.5 ,第一4分位数 Q 1 = m 0.25 Q_1=m_{0.25}Q1=m0.25 和第三4分位数 Q 3 = m 0.75 Q_3=m_{0.75}Q3=m0.75 ,所谓五数概括就是指用这五个数
x m i n , Q 1 , m 0.5 , Q 3 , x m a x x_{min} , \quad Q_1,\quad m_{0.5},\quad Q_3,\quad x_{max}xmin,Q1,m0.5,Q3,xmax
五数概括的图形表示为箱线图,示例如下:

中间是一个箱子,上下界分别是Q 3 , Q 1 Q_3,Q_1Q3,Q1,箱子中的红线是m 0.5 m_{0.5}m0.5,箱子外虚线的上下界分别是x m a x , m m i n x_{max},m_{min}xmax,mmin
以上为上次博客的补充内容