2020.10.27 注解:本文为旧版本的读书笔记(仅限于对名义变量的虚拟变量行为,并未对此进行解读),实际等候更细致的更新来解释虚拟变量。
PS 我点开以后才发现有人问我虚拟变量的问题,但是时间过久我就不再回复了(之前没看到),并且我对HLM等操作也不是非常熟悉……
2020年10月27日/新增(源自R章节部分摘录)
R/Q2:正交对比与非正交对比:简单介绍
注:本文为直接翻译,实际的编码章节待定写作中。
III型平方和被称为边缘或正交的(marginal or orthogonal),其原因在于其计算方法导致(见上参考)。这也就意味着,在对数据进行方差分析时,你的虚拟编码必须是正交的,否则会导致计算错误;而我们经常见到的常规虚拟编码则是非正交的。
因此,在使用III型平方和时,必须先制定自己的对比编码,或是使用其他函数对数据进行正交对比的重编码(例如Helmert contrast):
contrasts(Data$variable)<-contr.helmert(3)更多数学拓展与参考请见:
AhaDad:通过线性模型详解方差分析中“对比”(Contrasts)的数理原理zhuanlan.zhihu.comR/C11.3Q2 extend:虚拟编码中interaction的编码问题
当我们将带有有序变量的分析转换成OLS回归时,常规的虚拟编码方式无法很好地反应交互项的分类,如下图所示。此时需要改变编码方式使其变得具有区分度。或者,心理学中常见的做法是将该部分分析单独提取出来,即我们所熟悉的主效应/交互效应分析。见
陈曦:统计学基础笔记:初级统计技术zhuanlan.zhihu.com

编码方式(预留坑,见书12.5.6)
2019年5月1日旧版本
实际经验结合读书笔记:定量研究系列 虚拟变量回归。Mellissa A. Hardy著。
虚拟变量/哑变量(dummy code)一般在变量涉及到分类变量,并进行回归分析时会涉及到。对于平均数差异检验,请参见t检验/ANOVA/Factorial ANOVA。
正常的OLS回归接受任何有序(你可以视为连续,也可以视为分类,这个取决于研究者的态度)、连续变量和二分变量。对于分类变量,必须进行哑变量/虚拟变量化。
Logistic回归可以使用Multinominal Logistic回归来手动完成分类变量,因此不需要虚拟变量化。
虚拟变量的个数需要是类别-1。其原理如下:


Break:Orthogonal contrast coding 正交比较编码与Classic dummy coding 传统虚拟编码
上面展示的是传统的dummy coding。还有另一种dummy coding的方法叫contrast coding,要求其在正交层面上,任何相加值都为0。具体案例如下:

在一般OLS回归中,使用传统的虚拟编码问题不大,因为其展示的是不同群组的比较;在特殊场景下(例如:方差分析的正交对比与III型平方和问题,见R长章11 ANCOVA)
Q:如何解读虚拟变量(二分变量)之间相关性的强弱?(与卡方相连接)


Q:控制组偏相关的解读?


Q:虚拟变量的回归解读?

Q:复杂数据的实验控制检验方法?

Q:虚拟变量的交互效应?
在普通的OLS回归中,我们假定各变量之间是线性独立的。在交互效应存在时,我们需要加入AxB的交互效应项来计算它的交互效应大小。对于虚拟变量,我们需要对每个虚拟变量分别进行乘积计算。这也就意味着,如果某个变量被转换成3个虚拟变量,我们就得加入3个交互效应虚拟变量项。