这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。

5 分类数据的关联分析

5.1 分类变量独立性检验

5.1.1 $r\times s$ 列联表

5.1.2 $\chi^2$ 独立性检验

$\chi^2$ 独立性是一种一般性关联,即

能得出行变量与列变量存在关联，但是没有指出更细微的相关或其他特殊关系。

Pearson $\chi^2$ 检验对于列联表有一些要求

测量不同类之间是否独立
频数过小的格点不能太多
行列数至少一个超过2
单元格中期望频数低于5的单元数目不能超过总单元格的 $20\%$
不能匀速存在单元格期望频数小于1

5.1.3 $\chi^2$ 齐性检验

区别于 $\chi^2$ 独立性， $\chi^2$ 齐性关注的问题是

行表示不同的区组，列表是我们感兴趣的问题，我们希望回答列变量比例分布在各个区组之间是否一致。

我们的数据依然是 $r\times s$ 的列联表， $r$ 个问题， $s$ 个区组。
检验问题
$\forall i=1,2,...,r \quad H_0:p_{i1}=...=p_{is}=p_{i.} \leftrightarrow H_1: 等式不全成立$
检验和 $\chi^2$ 独立性完全一样。

5.1.4 Fisher 精确性检验

5.1.4.1 2维小列联表

如果 $2\times 2$ 的列联表有出现有一个格子的期望数小于5，因为单格占比 $25\%$ ，就会引起Pearson $\chi^2$ 的警告，此时应该用Fisher精确性检验。

	$B_1$	$B_2$	sum
$A_1$	$n_{11}$	$n_{12}$	$n_{1.}$
$A_2$	$n_{21}$	$n_{22}$	$n_{2.}$
sum	$n_{.1}$	$n_{.2}$	$n_{..}$

关注 $n_{11}$ 的情况就足以反映全局， $n_{11}$ 服从超几何分布
$P ()$

5.1.4.2 一般列联表

多元超几何分布

5.1.5 二值变量的 McNemar 检验

上一章在完全区组设计也有一个服务于二值分类变量的检验Cochran，这节是关于二值变量独立性的McNemar。

	0	1	sum
0	$n_{00}$	$n_{01}$	$n_{1.}$
1	$n_{10}$	$n_{11}$	$n_{2.}$
sum	$n_{.1}$	$n_{.2}$	$n_{..}$

McNemar用于配对计数数据的分析，分析配对数据中控制组和处理组的频率或比率是否有差异，对于比较同一批观测对象用药前后的结果有无差异时非常有效。

McNemar关注非主对角线单元格上的信息，行变量与列变量两者之间不一致的评价信息，比较两个评价者间各自存在什么倾向性。

$H_0: p_{01}-p_{10}=0 \leftrightarrow H_1: p_{01}-p_{10}\neq 0$
以 $\frac{n_{01}}{n}-\frac{n_{10}}{n}$ 做 $p_{01}-p_{10}$ 的估计，使用Wald统计量得到
$\chi^2=\frac{(n_{01}-n_{10})^2}{n_{01}+n_{10}} \stackrel{H_0}{\sim} \chi^2(1)$
不适用情景
一致性较好的大样本数据

5.2 变量关联分析扩展

5.2.1 Mantel-Haenszel 检验

很多检验涉及到分层结构数据，这是什么呢？

在我们讨论5.1节的内容的时候，可能数据只是一个截块，其单一 $r\times s$ 表只是背后另一个变量取特值时候呈现的。这一节M-H考虑了背后的分类变量，其表现形式是多张 $r\times s$ 的列联表，比如按照不同医院进行分层。

以二维表格为例
令分层结构 $h = 1, 2, . . ., k$ ， $n_{hij}$ 表示第 $h$ 层四格列联表的观测频数
频数和 $n_h=\sum_{i}\sum_{j} n_{hij},n=\sum_{h=1}^k n_h$
$H_0:试验组和对照组在治疗效果上没有差异 \\ H_1:试验组和对照组在治疗效果上存在差异$
值得一提的是，医学实验对照组常用安慰剂

检验方法

假设 $H_0$ 成立，先求出第 $h$ 层的期望和方差 $En_{h_{11}},var(n_{h_{11}})$
计算 $Q_{MH}$ 统计量，近似服从 $\chi^2(1)$

$\begin{aligned} En_{h_{11}} &= \\ var(n_{h_{11}}) &= \\ Q_{MH} &= \\ \end{aligned}$

5.2.2 关联规则

日后更新

5.2.2.1 基本概念

5.2.2.2 Apriori 算法

5.3 Ridit 检验法

5.4 对数线性模型

日后更新

5.4.1 基本概念

5.4.2 设计矩阵

5.4.3 估计和检验

5.4.4 高维对数线性模型和独立性

问题

Wald统计量是什么?

原文链接：https://blog.csdn.net/weixin_45632492/article/details/111657143

【非参数统计05】分类数据的关联分析：列联表、卡方独立性齐性、Fisher精确性、Mantel-Haenszel检验、关联规则、Ridit检验法、对数线性模型

目录导引

5 分类数据的关联分析

5.1 分类变量独立性检验

5.1.1 $r\times s$ 列联表

5.1.2 $\chi^2$ 独立性检验

5.1.3 $\chi^2$ 齐性检验

5.1.4 Fisher 精确性检验

5.1.4.1 2维小列联表

5.1.4.2 一般列联表

5.1.5 二值变量的 McNemar 检验

5.2 变量关联分析扩展

5.2.1 Mantel-Haenszel 检验

5.2.2 关联规则

5.2.2.1 基本概念

5.2.2.2 Apriori 算法

5.3 Ridit 检验法

5.4 对数线性模型

5.4.1 基本概念

5.4.2 设计矩阵

5.4.3 估计和检验

5.4.4 高维对数线性模型和独立性

问题

目录导引

5 分类数据的关联分析

5.1 分类变量独立性检验

5.1.1 r × s r\times sr×s列联表

5.1.2 χ 2 \chi^2χ2独立性检验

5.1.3 χ 2 \chi^2χ2齐性检验

5.1.4 Fisher 精确性检验

5.1.4.1 2维小列联表

5.1.4.2 一般列联表

5.1.5 二值变量的 McNemar 检验

5.2 变量关联分析扩展

5.2.1 Mantel-Haenszel 检验

5.2.2 关联规则

5.2.2.1 基本概念

5.2.2.2 Apriori 算法

5.3 Ridit 检验法

5.4 对数线性模型

5.4.1 基本概念

5.4.2 设计矩阵

5.4.3 估计和检验

5.4.4 高维对数线性模型和独立性

问题

5.1.1 $r\times s$ 列联表

5.1.2 $\chi^2$ 独立性检验

5.1.3 $\chi^2$ 齐性检验