R计算二列相关性

本文介绍二列相关性概念并通过示例说明其计算过程。

二列相关性用于衡量二值变量x与连续变量y之间的关系。类似皮尔逊相关系数,二列相关性系数取值范围也在[-1,1]之间。

  • -1 表示两个变量完全负相关
  • 0 表示两个变量没有相关性
  • 1 表示两个变量完全正相关

在这里插入图片描述

下面通过示例来说明如何计算二列相关性。假设有下面二值变量x,连续变量y:

x <- c(0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0)
y <- c(12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12)

我们可以使用R内置函数 cor.test() 计算两个变量的二列相关性:

cor.test(x, y)

# 	Pearson's product-moment correlation
# 
# data:  x and y
# t = 0.67064, df = 9, p-value = 0.5193
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
#  -0.4391885  0.7233704
# sample estimates:
#       cor 
# 0.2181635 

从输出可以看到:

  • 二列相关系数为 0.218
  • 对应p值为 0.5193

既然相关性系数为正,表示当变量x取值1时,变量y趋向高于当变量x取值0时对应的值。

但既然p值不小于0.05,没有统计意义上的显著性。同时注意到输出中95%置信区间为:

95% C.I. = (-0.439, 0.723)

既然置信区间包括零,进一步证明相关系数在统计上不显著。


版权声明:本文为neweastsun原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。