这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。
5 分类数据的关联分析
5.1 分类变量独立性检验
5.1.1 r × s r\times sr×s列联表
5.1.2 χ 2 \chi^2χ2独立性检验
χ 2 \chi^2χ2独立性是一种一般性关联,即
能得出行变量与列变量存在关联,但是没有指出更细微的相关或其他特殊关系。
Pearsonχ 2 \chi^2χ2检验对于列联表有一些要求
- 测量不同类之间是否独立
- 频数过小的格点不能太多
- 行列数至少一个超过2
- 单元格中期望频数低于5的单元数目不能超过总单元格的20 % 20\%20%
- 不能匀速存在单元格期望频数小于1
5.1.3 χ 2 \chi^2χ2齐性检验
区别于χ 2 \chi^2χ2独立性,χ 2 \chi^2χ2齐性关注的问题是
行表示不同的区组,列表是我们感兴趣的问题,我们希望回答列变量比例分布在各个区组之间是否一致。
我们的数据依然是r × s r\times sr×s的列联表,r rr个问题,s ss个区组。
检验问题
∀ i = 1 , 2 , . . . , r H 0 : p i 1 = . . . = p i s = p i . ↔ H 1 : 等 式 不 全 成 立 \forall i=1,2,...,r \quad H_0:p_{i1}=...=p_{is}=p_{i.} \leftrightarrow H_1: 等式不全成立∀i=1,2,...,rH0:pi1=...=pis=pi.↔H1:等式不全成立
检验和χ 2 \chi^2χ2独立性完全一样。
5.1.4 Fisher 精确性检验
5.1.4.1 2维小列联表
如果2 × 2 2\times 22×2的列联表有出现有一个格子的期望数小于5,因为单格占比25 % 25\%25%,就会引起Pearsonχ 2 \chi^2χ2的警告,此时应该用Fisher精确性检验。
| B 1 B_1B1 | B 2 B_2B2 | sum | |
|---|---|---|---|
| A 1 A_1A1 | n 11 n_{11}n11 | n 12 n_{12}n12 | n 1. n_{1.}n1. |
| A 2 A_2A2 | n 21 n_{21}n21 | n 22 n_{22}n22 | n 2. n_{2.}n2. |
| sum | n . 1 n_{.1}n.1 | n . 2 n_{.2}n.2 | n . . n_{..}n.. |
关注n 11 n_{11}n11的情况就足以反映全局,n 11 n_{11}n11服从超几何分布
P ( ) P()P()
5.1.4.2 一般列联表
多元超几何分布
5.1.5 二值变量的 McNemar 检验
上一章在完全区组设计也有一个服务于二值分类变量的检验Cochran,这节是关于二值变量独立性的McNemar。
| 0 | 1 | sum | |
|---|---|---|---|
| 0 | n 00 n_{00}n00 | n 01 n_{01}n01 | n 1. n_{1.}n1. |
| 1 | n 10 n_{10}n10 | n 11 n_{11}n11 | n 2. n_{2.}n2. |
| sum | n . 1 n_{.1}n.1 | n . 2 n_{.2}n.2 | n . . n_{..}n.. |
McNemar用于配对计数数据的分析,分析配对数据中控制组和处理组的频率或比率是否有差异,对于比较同一批观测对象用药前后的结果有无差异时非常有效。
McNemar关注非主对角线单元格上的信息,行变量与列变量两者之间不一致的评价信息,比较两个评价者间各自存在什么倾向性。
H 0 : p 01 − p 10 = 0 ↔ H 1 : p 01 − p 10 ≠ 0 H_0: p_{01}-p_{10}=0 \leftrightarrow H_1: p_{01}-p_{10}\neq 0H0:p01−p10=0↔H1:p01−p10=0
以n 01 n − n 10 n \frac{n_{01}}{n}-\frac{n_{10}}{n}nn01−nn10做p 01 − p 10 p_{01}-p_{10}p01−p10的估计,使用Wald统计量得到
χ 2 = ( n 01 − n 10 ) 2 n 01 + n 10 ∼ H 0 χ 2 ( 1 ) \chi^2=\frac{(n_{01}-n_{10})^2}{n_{01}+n_{10}} \stackrel{H_0}{\sim} \chi^2(1)χ2=n01+n10(n01−n10)2∼H0χ2(1)
不适用情景
一致性较好的大样本数据
5.2 变量关联分析扩展
5.2.1 Mantel-Haenszel 检验
很多检验涉及到分层结构数据,这是什么呢?
在我们讨论5.1节的内容的时候,可能数据只是一个截块,其单一 r × s r\times sr×s 表只是背后另一个变量取特值时候呈现的。这一节M-H考虑了背后的分类变量,其表现形式是多张 r × s r\times sr×s 的列联表,比如按照不同医院进行分层。
以二维表格为例
令分层结构h = 1 , 2 , . . . , k h=1,2,...,kh=1,2,...,k,n h i j n_{hij}nhij表示第h hh层四格列联表的观测频数
频数和 n h = ∑ i ∑ j n h i j , n = ∑ h = 1 k n h n_h=\sum_{i}\sum_{j} n_{hij},n=\sum_{h=1}^k n_hnh=∑i∑jnhij,n=∑h=1knh
H 0 : 试 验 组 和 对 照 组 在 治 疗 效 果 上 没 有 差 异 H 1 : 试 验 组 和 对 照 组 在 治 疗 效 果 上 存 在 差 异 H_0:试验组和对照组在治疗效果上没有差异 \\ H_1:试验组和对照组在治疗效果上存在差异H0:试验组和对照组在治疗效果上没有差异H1:试验组和对照组在治疗效果上存在差异
值得一提的是,医学实验对照组常用安慰剂
检验方法
- 假设H 0 H_0H0成立,先求出第h hh层的期望和方差E n h 11 , v a r ( n h 11 ) En_{h_{11}},var(n_{h_{11}})Enh11,var(nh11)
- 计算Q M H Q_{MH}QMH统计量,近似服从χ 2 ( 1 ) \chi^2(1)χ2(1)
E n h 11 = v a r ( n h 11 ) = Q M H = \begin{aligned} En_{h_{11}} &= \\ var(n_{h_{11}}) &= \\ Q_{MH} &= \\ \end{aligned}Enh11var(nh11)QMH===
5.2.2 关联规则
日后更新
5.2.2.1 基本概念
5.2.2.2 Apriori 算法
5.3 Ridit 检验法
5.4 对数线性模型
日后更新
5.4.1 基本概念
5.4.2 设计矩阵
5.4.3 估计和检验
5.4.4 高维对数线性模型和独立性
问题
Wald统计量是什么?