下面两个相关系数可以用来衡量两个变量之间的相关性大小,根据数据满足的不同条件,我们要选择不同的相关系数进行计算和分析。
总体和样本
总体:所要考察对象的全部个体叫做总体,我们总是希望得到总体数据的一些特征
样本:从总体中所抽取的一部分个体叫做总体的一个样本
1. 总体皮尔逊person相关系数
如果两组数据X : { X 1 , X 2 , . . . , X n } X:\{X_1,X_2,...,X_n\}X:{X1,X2,...,Xn}和Y : { Y 1 , Y 2 , . . . , Y n } Y:\{Y_1,Y_2,...,Y_n\}Y:{Y1,Y2,...,Yn}是总体数据(例如普查结果。
那么总体均值: E ( X ) = ∑ i = 1 n X i n E(X)= \frac{\sum_{i=1}^nX_i}{n}E(X)=n∑i=1nXi, E ( Y ) = ∑ i = 1 n Y i n E(Y)=\frac{\sum_{i=1}^nY_i}{n}E(Y)=n∑i=1nYi
总体协方差:c o v ( X , Y ) = ∑ i = 1 n ( X i − E ( X ) ) ( Y i − E ( Y ) ) n cov(X,Y)=\frac{\sum_{i=1}^n(X_i-E(X))(Y_i-E(Y))}{n}cov(X,Y)=n∑i=1n(Xi−E(X))(Yi−E(Y))
协方差理解: 如果X,Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)均值,在这两种情况下,乘积为证。如果X,Y的变化方向一致保持相同,则协方差为正;反之;如果X,Y变化方向相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。
协方差的大小和两个变量的量纲有关,不适合做比较。
则总体Person相关系数:ρ X Y = C o v ( X , Y ) σ X σ Y = ∑ i = 1 n ( X i − E ( X ) ) ( Y i − E ( Y ) ) n \rho_{XY}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}=\frac{\sum_{i=1}^n(X_i-E(X))(Y_i-E(Y))}{n}ρXY=σXσYCov(X,Y)=n∑i=1n(Xi−E(X))(Yi−E(Y))
σ X ( s i g m a X ) \sigma_X(sigma X)σX(sigmaX)是X的标准差, σ X = ∑ i = 1 n ( X i − E ( X ) ) 2 n \sigma_X = \sqrt{\frac{\sum_{i=1}^n(X_i-E(X))^2}{n}}σX=n∑i=1n(Xi−E(X))2, σ Y = ∑ i = 1 n ( Y i − E ( Y ) ) 2 n \sigma_Y = \sqrt{\frac{\sum_{i=1}^n(Y_i-E(Y))^2}{n}}σY=n∑i=1n(Yi−E(Y))2
可以证明,∣ ρ X Y ≤ 1 |\rho_{XY} \leq 1∣ρXY≤1, 当且Y=aX+b时, ρ X Y = { 1 , a>0 − 1 , a<0 \rho_{XY} =\begin{cases} 1, & \text{a>0} \\ -1, & \text{a<0} \end{cases}ρXY={1,−1,a>0a<0
皮尔逊相关系数也可以看成是剔除了两个变量量纲的影响,即将X和Y标准化后的协方差.
2. 样本皮尔逊person相关系数
假设有两组数据X:{ X 1 , X 2 , . . . , X n } \{X_1,X_2,...,X_n\}{X1,X2,...,Xn}和Y:{ Y 1 , Y 2 , . . . , Y n } \{Y_1,Y_2,...,Y_n\}{Y1,Y2,...,Yn}(一般调查得到的数据均为样本数据)
样 本 协 方 差 : C o v ( X , Y ) = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) n − 1 样本协方差 : Cov(X,Y)=\frac{\sum_{i=1}^n(X_i-\overline X)(Y_i-\overline Y)}{n-1}样本协方差:Cov(X,Y)=n−1∑i=1n(Xi−X)(Yi−Y)
样 本 P e r s o n 相 关 系 数 : r X Y = C o v ( X , Y ) S X S Y 样本Person相关系数: r_{XY}=\frac{Cov(X,Y)}{S_XS_Y}样本Person相关系数:rXY=SXSYCov(X,Y)
其中:S x ( s i g m a X ) S_x(sigma X)Sx(sigmaX)是X的样本标准差,
S X = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 S_X=\sqrt{\frac{\sum_{i=1}^n(X_i-\overline X)^2}{n-1}}SX=n−1∑i=1n(Xi−X)2
同理, Y 也是:
S Y = ∑ i = 1 n ( Y i − Y ‾ ) 2 n − 1 S_Y=\sqrt{\frac{\sum_{i=1}^n(Y_i-\overline Y)^2}{n-1}}SY=n−1∑i=1n(Yi−Y)2
这里的相关系数只是用来衡量两个变量线性相关程度的指标;
也就是说:你必须先确定这两个变量是线性相关的,然后这个相关系数才能体现他俩如何相关的;
容易忽视的犯错的点:
(1)非线性相关也会导致线性相关系数很大
(2)离群点对相关系数的影响很大
(3)如果两个变量的相关系数很大也不能说明两者相关
(4)相关系数计算结果为0,只能说明不是线性相关,但可能有更复杂的关系。
首先画散点图!!!!可以先进行描述性统计分析