概率论与数理统计茆诗松pdf第三版_茆诗松概率论与数理统计(第七章)

前言

本章的内容十分丰富,可分为四大类:显著性检验(7.1,7.2,7.3)、似然比检验(7.4)、分布拟合检验(7.4)、非参数检验(7.5,7.6),每一类又有若干种不同的检验方法。本文将重点讲解上述四类检验的基本概念、基本原理,不会详细讲解具体的检验方法。原理弄懂了,具体的检验方法可以参考书中的套路。

一、显著性检验及其基本概念

本节对应书中的7.1节,我按照自己的理解重写了一遍。当我第一次阅读本章的时候,很快就碰壁了(读到“势函数”的时候)。书中关于显著性水平、检验p值的定义也比较抽象,为此我增加了一些描述性的文字,尽量把这些概念、定义解释清楚。最后才对“势函数”进行研究。我把书中遇到的新概念分为以下三类:

(1)参数类(或者称“假设类”)

原假设:

对立假设:

所谓“假设检验”是在部分总体参数未知的情况下,对未知参数进行猜测(提出假设),然后利用抽样结果(证据)对假设进行验证,并作出“接受”或“拒绝”假设的判断。

因此“假设”(名词)是针对未知参数的猜测,它描述了未知参数在参数空间

中的取值范围。

它具有以下特点:

  1. 以最常见的情况作为原假设。例如:女士品茶,大部分人不具备区分MT,TM的能力,因此原假设为“该女士无此鉴别能力”;生产合金,设计值不低于110,因此一般情况下合金强度不低于设计值,原假设为
  2. 对立假设分为3种情况:

称为“双侧假设”,
称为“单侧假设”。对立假设一般为原假设的补集,但也有
的情况。值得注意的是,对立假设中不允许出现等号,因此没有小于等于或大于等于的情况。

(2)样本类

检验统计量:由样本观测值组成,用于判断原假设是否成立。它是我们作出检验判断的证据、依据

检验统计量所在样本空间可以划分为两个不相交的部分:

拒绝域

,如
。当
位于
内,表示拒绝原假设

接受域

,即W的补集。如
。当
位于
内,表示接受原假设

(3)概率类

“假设”位于参数空间,“证据”位于样本空间,参数与样本是通过总体分布联系的。因此从“证据”推断“假设”是否成立,不是一个简单的判断题,而是一个概率计算问题。以“假设”为前提条件,出现目前抽样结果的概率是多少呢?我们将根据概率计算的结果,决定拒绝或者接受原假设。

显著性水平

  1. 第一类错误:当
    ,但统计量
    。即原假设为“真”,但样本却由于随机性落入了拒绝域,作出原假设为“假”的错误判断,简称“拒真”。

2. 第二类错误:当

,但统计量
。即原假设为“假”,但样本却由于随机性落入了接受域,作出原假设为“真”的错误判断,简称“取伪”。

犯第一类错误的概率

犯第二类错误的概率

书中通过“势函数”证明,当样本量固定时,

无法同时减小。其原因在于:如果避免犯“拒真”的错误,可以降低“真”的门槛(扩大接受域),这将导致“取伪”可能性增加;相反地,如果提高“真”的门槛(扩大拒绝域),可以减小“取伪”的可能性,但势必增加“拒真”的可能性。

“费希尔的显著性检验”优先限制犯第一类错误的概率。

显著性水平

可以看作
判断原假设是否正确的门槛值(临界值)。当检验统计量(样本)位于“拒绝域”的概率达到或低于显著性水平
,即
时,表明在“原假设”前提下,出现当前样本的可能性较低(低于门槛),据此认为“原假设”是错误的,应该拒绝。

显著性水平

是“小概率事件”的标志,发生小概率事件是不寻常的,因此有理由怀疑“原假设”是错误的。对于显著性水平
的选取,没有统一的标准,最常用的是0.05,有时也会选择0.01或0.1。

检验的p值

对于同样的抽样结果,选择不同的显著性水平

,可能得出截然相反的结论。例如:当
,检验统计量落在拒绝域里面,得到拒绝
的结论;如果降低显著性水平,令
,此时拒绝域的范围缩小了。虽然检验统计量所在位置不变,但落在接受域里面,结果反而接受了
。换言之,我们降低了“真”的门槛(接受域变大),增加了“取伪”的可能性。

对于同样的抽样结果,有一个特性是不变的,就是样本(检验统计量)位于拒绝域的概率,

。只要原假设确定,样本确定,这个概率就定下来了。
它就是p值

这样理解p值是不是比书上的定义容易一些呢?其实它们是一样的,来检验一下:

,样本位于拒绝域的概率高于门槛,没达到小概率事件的标准,接受原假设;

,样本位于拒绝域的概率达到或低于门槛,小概率事件出现,拒绝原假设。

由于

,因此定义认为此时的p是显著性水平
的最小值。

(4)势函数

前文详细讨论了“参数、样本、概率”等概念,“势函数”(功效函数)的作用是将三者联系起来,并赋予数学意义上的严谨。

它的形式如下(式1)

另一形式为(式2)

简单解释一下:

  1. 它是以
    为变量的函数,统计量X可看作常量;
  2. 它的输出是一个概率值(介于0到1之间);
  3. 本质上,它表示随着参数选择不同,样本统计量X落在拒绝域的概率(式1);形式上,它表示“拒真”和“拒伪”的概率(式2),即原假设为真,样本落在拒绝域的概率;或者原假设为假,样本落在拒绝域的概率。

势函数是假设检验中最重要的概念之一,也不太容易理解。而且一般的题目不会直接使用它,有些书甚至不讲这部分内容。理解和掌握它,对于学习一些较深的内容是有好处的。

下面通过一些例子来加深理解:

是来自
的样本,我们提出假设
:

它的势函数是什么?

既然假设是针对总体均值

提出的,我们可以通过样本均值估计总体均值。

首先,建立样本与假设的联系,样本均值

标准化,得到标准正态分布
。为了建立样本与假设的联系,把假设提出的
代入
,得
, 表示样本
与假设
的偏离程度,统计量
,我们把它作为“检验统计量”。

当样本均值

取值不同时,
的结果也不同,落在正态分布的不同区域上。

ac5560c545a1b65272cfc313e577d1fb.png
u_0~N(0,1)

然后,确定检验统计量

的“拒绝域”。

由于原假设认为

,当
小,即
是可以接受的;

大,即
,并且大到一定程度时,才有理由拒绝原假设。

这就涉及

的临界值(门槛值)计算了。当
取值达到门槛时,我们认为
处于“拒绝域”,即

由于

处于拒绝域的概率应该比较低,具体取值由显著性水平
决定,于是有
(标准正态分布的下分位点)。

结果得到“拒绝域”

最后,正式研究势函数,根据势函数的定义

,此时等号右侧不含有参数
,无法进一步展开,若

,则

已知

,在
上成立,上式可以转化为变量u的分布函数:

已知

是增函数,
是减函数,
还是增函数,于是势函数
为增函数,图像如下:

789276d625c5bd1f0b756503b2aa1b11.png

时,

由于

为增函数,所以
时都有

位于

两侧的区域分别为,

结论:

  1. ,这结论出乎意料。试想一下:
    的取值是一个“假设”,代入势函数竟然得到显著性水平
    ,而且
    值事先也是不知道的;
  2. 由此可见,我们无法脱离显著性水平、检验统计量以及拒绝域来谈论势函数。只根据假设是无法写出势函数的;
  3. 表示参数
    被拒绝的概率。因此在
    的右侧,离得越远,被拒绝得概率越高,势函数得值也就越大;
  4. 在确定“拒绝域”的范围后,只需判断
    的位置,即可得出接受或拒绝的结论,无需写出势函数的表达式。

二、 似然比检验

如果说“显著性检验”与区间估计相似,那么“似然比检验”就是最大似然估计法的延伸。

“似然比”,顾名思义,就是两个似然函数之比。

为来自密度函数为
的总体的样本,检验问题为

似然比的定义如下:

其中sup{}表示函数

的最小上界(上确界),即似然函数取得的最大值,也就是说
分别是各自参数空间中最大似然估计的结果。

注意:

  1. 分子的参数空间为
    ,相当于不作任何假设;
  2. 分母的参数空间为
    ,就是原假设对应的参数空间。

为什么似然比能够判断原假设的真伪呢?

当原假设为真,两个似然函数的最大值都在

,
;但当原假设为假,分子似然函数的最大值落在
,取值比分母更大,此时
。由于分子的参数空间比分母要大,分母能取到的值,分子也能取到,因此分子一定大于等于分母,比值越大则越倾向于拒绝原假设。

若把

作为检验统计量,其拒绝域为

临界值c 可通过显著性水平

确定:

三、拟合优度检验

这是一种非参数检验方法,对总体分布的形式建立假设并进行检验。