spssχ2检验_SPSS实战 | 05分类变量的相关性检验

4c88e3ea38fc7894ebe118a5e483cf2e.gif

回顾8月,SPSS系列一共写了5篇,虽说是自己会的东西,但写出来,觉得理解又精进了一层,希望你们看了也有收获。

上一篇,分享了两个变量之间的相关分析。那由样本推及总体的相关性检验该如何做呢?连续变量可以在皮尔逊相关系数里直接做,分类变量怎么搞?且看今日分享。

13b87be9f265544c5bc47d95e5edce98.png

提前预习

b50b71d828102699b407e458828142a9.png

统计学

  • 定类、定序、定距

  • 卡方检验

  • U检验、H检验

SPSS操作

  • 分析-描述统计-交叉表

  • 分析-表-定制表

  • 分析-非参数检验

1

 非参数检验:牢记常见的应用场景

分类变量的相关性检验,用到的是非参数检验。

在实际工作中,我发现做数据分析特别考验记忆力,要记住不同场景下对应的分析套路,还有一大堆的适用条件,所以呢,还真挺适合文科生。

宝宝们,拿出小本本,记好非参数检验的几个常用场景和套路吧。

卡方检验 (Chi-Squared Test, χ²)是最常用的方法,必学必会。

当变量中包含定序、且有更严谨要求时,可用U检验和H检验。当然卡方检验仍可用,只是检验力相对弱一些。

52d8db6f172120e75619cf4f9a87d831.png

2

必学必会的卡方检验

2.1单选题的卡方检验

【案例】这是一项中国大陆游客赴某国旅行意愿的市场调研,变量X是旅游成熟度1-3级,变量Y是期望的参团方式,分为四类,希望检验不同成熟度的游客之间,参团方式的差异是否可以推及总体。

分析-描述统计-交叉表

把两个变量选进来,一般习惯把自变量放在列,然后对于画红框的三项进行设置。

H0是不同成熟度游客参团方式没有差异。

f7ba8e49fb0af0a0f581aee2ee635d4e.png

1、统计按钮,选卡方检验。

301ee0e41ca588d2e0cecabf5afed977.png

2、单元格按钮,因为卡方检验是基于实测和期望频数,所以计数两项都选。为了理解数据分布,要选列百分比。

由于分组变量成熟度有三级,为了看出具体是哪一级成熟度的游客有差异,要选比较列比例。

467f4a5e3a6e7af12c6451c793fadc90.png

先看卡方检验的报告,第一行,皮尔逊卡方检验,卡方值14.233,显著性<0.05,拒绝H0,即不同成熟度游客之间有差异。

Tips:卡方检验要求总样本量n>40,单元格期望频数>5,如果不满足可以有校正的方法,更建议通过合并选项来满足,毕竟单元格的频数太低,解释力也下降了。比如在这个案例中,本来我将成熟度分为了四级,后来将中级和高级合并。

cffa6c0d1a120684784dc3104aee92ec.png

具体是哪个组有差异呢?看交叉表,根据表最下面一行的提示,标注相同字母角标的子集之间没有差异,所以只有在自由行/自助游的选择上,初级游客和中高级游客之间有显著差异。

Tips:在实际的市场研究工作中,解读组间百分比差异的时候可以宽容一些,经验值相差5个百分点,就可以理解为有差异了。比如零出国经验和初级游客更倾向于全程参团。

d93dd2eeeba40cade2aa9067319a19c8.png

如果皮尔逊卡方值接近0.05,想更严谨一些,或者样本量不满足n>40,单元格期望频数>5,都可以做精确检验。在交叉表设置里,点精确按钮,卡方检验的报告里会有精确检验的显著性检测,可以以这个值为准。

bc655b2ab5a7e769437ade61e038a158.png

f9423817af121169aa0128550f043103.png

2.2多选题的卡方检验

在数据预处理篇,分享过将多选题作为多重响应集处理的方法。

在分析的过程中,可以在分析-定制表菜单里,对多选题进行频数分析和卡方检验。

【案例】变量X是旅游成熟度1-3级,变量Y是游客担心的问题,分为若干类,是多选。希望检验不同成熟度的游客之间,担心的问题是否能推及总体。

首先,将两个变量选到表里。选中成熟度指标后,在摘要统计量里加上列%

4ff3cfa3a5cbec23fcbb1a3b068188ca.png

然后进入检验统计选项卡,把卡方检验以及两两比较的设置都勾选上。

2629b09bac734efd2ab885be203ff98a.png

卡方检验的报告显示,两个变量之间有相关性。再结合交叉表的值,零出国经验的人、初级游客更担心语言障碍,中高级游客更担心游览方面的体验。

914512a8ea37c7463840c31ea8567a30.png

3

超纲分享:U检验和H检验

U检验和H检验,由于其适用的场景比较窄,所以在实际市场研究中用得不多,这里就简单介绍一下。

52d8db6f172120e75619cf4f9a87d831.png

【案例】变量X是旅游成熟度1-3级,变量Y是此次旅游的总花费从1万元以下-10万元以上,分为5级,定序变量。希望检验不同成熟度的游客之间花费的差异是否可以推及总体。

分析-非参数检验-独立样本或配对样本,目标不用管,后面字段设置好之后前面目标会自动跟着调整。

85ddf3e2a5fb360dad714e2ea8b4af4c.png

进入字段选项,注意组变量(X),和检验变量(Y)都有测量层级的要求。

6d339b214cf4ce3e03dcfc471e620647.png

然后进入设置,根据变量的情况,选择相应的检验。这个案例分组变量成熟度有三级,所以选H检验,其原理是将原始数据排序后分配秩次,再对秩次做假设检验。

这一页有很多检验的方法,但相对而言,U检验和H检验是能力最强的,其他的超纲内容,请大家自己学习吧。

5c7811945247508615480a5ccbdad1d2.png

报告是一个模型输出,可以看出拒绝H0,即各组之间有差异。

337875256b344fa30b109a8e0e3fd1b0.png

双击表看模型具体的信息,查看成对信息,两两分组之间的差异都是显著的。图中的数据,变量旁边的数字为平均秩次值,黄线相连表示有差异,如果是黑线相连则表示无差异。

14c8df73d1d9a5b554338b24b4a96597.png

在实际工作中,可以通过条形图看各组数据分布,解释具体的差异,检验过程用文字描述就好了。

今天介绍的非参数检验法,目的是从样本推断总体是否相关,而不是相关的强弱程度。

相关强弱的分析,请看04两个变量的相关分析

与非参检验对应的就是参数检验,请看03参数检验-平均值的比较

参考书

  • 张文彤《SPSS20.0统计分析基础教程第2版》
  • 张文彤《SPSS20.0统计分析高级教程第2版》
  • 李沛良 《社会研究的统计应用》

软件版本 | SPSS 25.0

题图 | Pexels

动图设计 | 赤道裴 

d0d2b15969e7d5594154dc1a8b4a339d.gif


版权声明:本文为weixin_36264801原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。