
回顾8月,SPSS系列一共写了5篇,虽说是自己会的东西,但写出来,觉得理解又精进了一层,希望你们看了也有收获。
上一篇,分享了两个变量之间的相关分析。那由样本推及总体的相关性检验该如何做呢?连续变量可以在皮尔逊相关系数里直接做,分类变量怎么搞?且看今日分享。

提前预习

统计学
定类、定序、定距
卡方检验
U检验、H检验
SPSS操作
分析-描述统计-交叉表
分析-表-定制表
分析-非参数检验
1
非参数检验:牢记常见的应用场景
分类变量的相关性检验,用到的是非参数检验。
在实际工作中,我发现做数据分析特别考验记忆力,要记住不同场景下对应的分析套路,还有一大堆的适用条件,所以呢,还真挺适合文科生。
宝宝们,拿出小本本,记好非参数检验的几个常用场景和套路吧。
卡方检验 (Chi-Squared Test, χ²)是最常用的方法,必学必会。
当变量中包含定序、且有更严谨要求时,可用U检验和H检验。当然卡方检验仍可用,只是检验力相对弱一些。

2
必学必会的卡方检验
2.1单选题的卡方检验
【案例】这是一项中国大陆游客赴某国旅行意愿的市场调研,变量X是旅游成熟度1-3级,变量Y是期望的参团方式,分为四类,希望检验不同成熟度的游客之间,参团方式的差异是否可以推及总体。
分析-描述统计-交叉表
把两个变量选进来,一般习惯把自变量放在列,然后对于画红框的三项进行设置。
H0是不同成熟度游客参团方式没有差异。

1、统计按钮,选卡方检验。

2、单元格按钮,因为卡方检验是基于实测和期望频数,所以计数两项都选。为了理解数据分布,要选列百分比。
由于分组变量成熟度有三级,为了看出具体是哪一级成熟度的游客有差异,要选比较列比例。

先看卡方检验的报告,第一行,皮尔逊卡方检验,卡方值14.233,显著性<0.05,拒绝H0,即不同成熟度游客之间有差异。
Tips:卡方检验要求总样本量n>40,单元格期望频数>5,如果不满足可以有校正的方法,更建议通过合并选项来满足,毕竟单元格的频数太低,解释力也下降了。比如在这个案例中,本来我将成熟度分为了四级,后来将中级和高级合并。

具体是哪个组有差异呢?看交叉表,根据表最下面一行的提示,标注相同字母角标的子集之间没有差异,所以只有在自由行/自助游的选择上,初级游客和中高级游客之间有显著差异。
Tips:在实际的市场研究工作中,解读组间百分比差异的时候可以宽容一些,经验值相差5个百分点,就可以理解为有差异了。比如零出国经验和初级游客更倾向于全程参团。

如果皮尔逊卡方值接近0.05,想更严谨一些,或者样本量不满足n>40,单元格期望频数>5,都可以做精确检验。在交叉表设置里,点精确按钮,卡方检验的报告里会有精确检验的显著性检测,可以以这个值为准。


2.2多选题的卡方检验
在数据预处理篇,分享过将多选题作为多重响应集处理的方法。
在分析的过程中,可以在分析-定制表菜单里,对多选题进行频数分析和卡方检验。
【案例】变量X是旅游成熟度1-3级,变量Y是游客担心的问题,分为若干类,是多选。希望检验不同成熟度的游客之间,担心的问题是否能推及总体。
首先,将两个变量选到表里。选中成熟度指标后,在摘要统计量里加上列%

然后进入检验统计选项卡,把卡方检验以及两两比较的设置都勾选上。

卡方检验的报告显示,两个变量之间有相关性。再结合交叉表的值,零出国经验的人、初级游客更担心语言障碍,中高级游客更担心游览方面的体验。

3
超纲分享:U检验和H检验
U检验和H检验,由于其适用的场景比较窄,所以在实际市场研究中用得不多,这里就简单介绍一下。

【案例】变量X是旅游成熟度1-3级,变量Y是此次旅游的总花费从1万元以下-10万元以上,分为5级,定序变量。希望检验不同成熟度的游客之间花费的差异是否可以推及总体。
分析-非参数检验-独立样本或配对样本,目标不用管,后面字段设置好之后前面目标会自动跟着调整。

进入字段选项,注意组变量(X),和检验变量(Y)都有测量层级的要求。

然后进入设置,根据变量的情况,选择相应的检验。这个案例分组变量成熟度有三级,所以选H检验,其原理是将原始数据排序后分配秩次,再对秩次做假设检验。
这一页有很多检验的方法,但相对而言,U检验和H检验是能力最强的,其他的超纲内容,请大家自己学习吧。

报告是一个模型输出,可以看出拒绝H0,即各组之间有差异。

双击表看模型具体的信息,查看成对信息,两两分组之间的差异都是显著的。图中的数据,变量旁边的数字为平均秩次值,黄线相连表示有差异,如果是黑线相连则表示无差异。

在实际工作中,可以通过条形图看各组数据分布,解释具体的差异,检验过程用文字描述就好了。
今天介绍的非参数检验法,目的是从样本推断总体是否相关,而不是相关的强弱程度。
相关强弱的分析,请看04两个变量的相关分析
与非参检验对应的就是参数检验,请看03参数检验-平均值的比较
参考书
- 张文彤《SPSS20.0统计分析基础教程第2版》
- 张文彤《SPSS20.0统计分析高级教程第2版》
- 李沛良 《社会研究的统计应用》
软件版本 | SPSS 25.0
题图 | Pexels
动图设计 | 赤道裴
