【回归分析】02. 随机向量(2)

【回归分析】2. 随机向量(2)

2.4 正态随机向量的二次型

定理 2.4.1:正态随机向量的二次型的方差:

(1) 设 X ∼ N n ( μ , Σ ) X\sim N_n(\mu,\Sigma)XNn(μ,Σ)A AAn × n n\times nn×n 的实对称矩阵,则
V a r ( X ′ A X ) = 2 t r ( A Σ ) 2 + 4 μ ′ A Σ A μ   . {\rm Var}\left(X'AX\right)=2{\rm tr}(A\Sigma)^2+4\mu'A\Sigma A\mu \ .Var(XAX)=2tr(AΣ)2+4μAΣAμ .
(2) 设 X ∼ N n ( μ , σ 2 I n ) X\sim N_n\left(\mu,\sigma^2I_n\right)XNn(μ,σ2In)A AAn × n n\times nn×n 的实对称矩阵,则
V a r ( X ′ A X ) = 2 σ 4 t r ( A 2 ) + 4 σ 2 μ ′ A 2 μ   . {\rm Var}\left(X'AX\right)=2\sigma^4{\rm tr}\left(A^2\right)+4\sigma^2\mu'A^2\mu \ .Var(XAX)=2σ4tr(A2)+4σ2μA2μ .

(1) 设 Y = Σ − 1 / 2 X Y=\Sigma^{-1/2}XY=Σ1/2X ,则 Y ∼ N ( Σ − 1 / 2 μ , I n ) Y\sim N\left(\Sigma^{-1/2}\mu,I_n\right)YN(Σ1/2μ,In) ,所以 Y YY 的各个分量相互独立,且有
V a r ( X ′ A X ) = V a r ( Y ′ Σ 1 / 2 A Σ 1 / 2 Y )   . {\rm Var}\left(X'AX\right)={\rm Var}\left(Y'\Sigma^{1/2}A\Sigma^{1/2}Y\right) \ .Var(XAX)=Var(YΣ1/2AΣ1/2Y) .
把问题转化为求 Y YY 的二次型的方差,注意到
m 3 = E [ Y i − E ( Y i ) ] 3 = 0   , m 4 = E [ Y i − E ( Y i ) ] 4 = 3   . m_3={\rm E}\left[Y_i-{\rm E}(Y_i)\right]^3=0 \ , \quad m_4={\rm E}\left[Y_i-{\rm E}(Y_i)\right]^4=3 \ .m3=E[YiE(Yi)]3=0 ,m4=E[YiE(Yi)]4=3 .
由定理 2.2.2 可知
V a r ( Y ′ Σ 1 / 2 A Σ 1 / 2 Y ) = 2 t r ( A Σ ) 2 + 4 ( Σ − 1 / 2 μ ) ′ ( Σ 1 / 2 A Σ 1 / 2 ) 2 ( Σ − 1 / 2 μ ) = 2 t r ( A Σ ) 2 + 4 μ ′ Σ − 1 / 2 Σ 1 / 2 A Σ A Σ 1 / 2 Σ − 1 / 2 μ = 2 t r ( A Σ ) 2 + 4 μ ′ A Σ A μ   . \begin{aligned} {\rm Var}\left(Y'\Sigma^{1/2}A\Sigma^{1/2}Y\right)&=2{\rm tr}\left(A\Sigma \right)^2+4\left(\Sigma^{-1/2}\mu\right)'\left(\Sigma^{1/2}A\Sigma^{1/2}\right)^2\left(\Sigma^{-1/2}\mu\right) \\ \\ &=2{\rm tr}\left(A\Sigma \right)^2+4\mu'\Sigma^{-1/2}\Sigma^{1/2}A\Sigma A \Sigma^{1/2}\Sigma^{-1/2}\mu \\ \\ &=2{\rm tr}\left(A\Sigma \right)^2+4\mu'A\Sigma A \mu \ . \end{aligned}Var(YΣ1/2AΣ1/2Y)=2tr(AΣ)2+4(Σ1/2μ)(Σ1/2AΣ1/2)2(Σ1/2μ)=2tr(AΣ)2+4μΣ1/2Σ1/2AΣAΣ1/2Σ1/2μ=2tr(AΣ)2+4μAΣAμ .
(2) 把 Σ = σ 2 I n \Sigma=\sigma^2I_nΣ=σ2In 代入 (1) 中结果,即可得证。

X ∼ N n ( μ , I n ) X\sim N_n(\mu,I_n)XNn(μ,In) ,称随机变量 Y = X ′ X Y=X'XY=XX 的分布为自由度为 n nn ,非中心参数为 λ = μ ′ μ \lambda=\mu'\muλ=μμ 的非中心 χ 2 \chi^2χ2 分布,记为 Y ∼ χ 2 ( n , λ ) Y\sim\chi^2(n,\lambda)Yχ2(n,λ) 。当 λ = 0 \lambda=0λ=0 时,称 Y YY 的分布为中心 χ 2 \chi^2χ2 分布,记为 Y ∼ χ 2 ( n ) Y\sim\chi^2(n)Yχ2(n)

定理 2.4.2χ 2 \chi^2χ2 分布的性质:

(1) 可加性:设 Y i ∼ χ 2 ( n i , λ i ) , i = 1 , 2 , ⋯ , k Y_i\sim\chi^2(n_i,\lambda_i),\,i=1,2,\cdots,kYiχ2(ni,λi),i=1,2,,k 且相互独立,则
Y 1 + Y 2 + ⋯ + Y k ∼ χ 2 ( n , λ )   , n = ∑ i = 1 k n i   , λ = ∑ i = 1 k λ i   . Y_1+Y_2+\cdots+Y_k\sim\chi^2(n,\lambda) \ , \quad n=\sum_{i=1}^kn_i \ , \quad \lambda=\sum_{i=1}^k\lambda_i \ .Y1+Y2++Ykχ2(n,λ) ,n=i=1kni ,λ=i=1kλi .
(2) 数字特征:设 Y ∼ χ 2 ( n , λ ) Y\sim\chi^2(n,\lambda)Yχ2(n,λ) ,则 E ( Y ) = n + λ , V a r ( Y ) = 2 n + 4 λ {\rm E}(Y)=n+\lambda,\,{\rm Var}(Y)=2n+4\lambdaE(Y)=n+λ,Var(Y)=2n+4λ

(1) 非中心 χ 2 \chi^2χ2 分布的特征函数为
Φ ( t ) = ( 1 − 2 i t ) − n / 2 exp ⁡ { i t λ 1 − 2 i t }   . \Phi(t)=(1-2it)^{-n/2}\exp\left\{\frac{it\lambda}{1-2it}\right\} \ .Φ(t)=(12it)n/2exp{12ititλ} .
Y = Y 1 + Y 2 + ⋯ + Y k Y=Y_1+Y_2+\cdots+Y_kY=Y1+Y2++Yk ,其特征函数为 Φ ( t ) \Phi(t)Φ(t) ,设 Y i Y_iYi 的特征函数为 Φ i ( t ) \Phi_i(t)Φi(t) ,利用 Y i Y_iYi 的独立性可知
Φ ( t ) = Φ 1 ( t ) Φ 2 ( t ) ⋯ Φ k ( t ) = ∏ i = 1 k ( 1 − 2 i t ) − n i / 2 exp ⁡ { i t λ i 1 − 2 i t } = ( 1 − 2 i t ) − ( n 1 + n 2 + ⋯ + n k ) / 2 exp ⁡ { i t ( λ 1 + λ 2 + ⋯ + λ k ) 1 − 2 i t } = ( 1 − 2 i t ) − n / 2 exp ⁡ { i t λ 1 − 2 i t }   . \begin{aligned} \Phi(t)&=\Phi_1(t)\Phi_2(t)\cdots\Phi_k(t) \\ \\ &=\prod_{i=1}^k(1-2it)^{-n_i/2}\exp\left\{\frac{it\lambda_i}{1-2it}\right\} \\ \\ &=(1-2it)^{-(n_1+n_2+\cdots+n_k)/2}\exp\left\{\frac{it(\lambda_1+\lambda_2+\cdots+\lambda_k)}{1-2it}\right\} \\ \\ &=(1-2it)^{-n/2}\exp\left\{\frac{it\lambda}{1-2it}\right\} \ . \end{aligned}Φ(t)=Φ1(t)Φ2(t)Φk(t)=i=1k(12it)ni/2exp{12ititλi}=(12it)(n1+n2++nk)/2exp{12itit(λ1+λ2++λk)}=(12it)n/2exp{12ititλ} .
(2) 根据非中心 χ 2 \chi^2χ2 分布的定义,
Y = d X 1 2 + X 2 2 + ⋯ + X n − 1 2 + X n 2   , Y\xlongequal{d}X_1^2+X_2^2+\cdots+X_{n-1}^2+X_n^2 \ ,YdX12+X22++Xn12+Xn2 ,
其中 X i ∼ N ( 0 , 1 ) , i = 1 , 2 , ⋯ , n − 1 , X n ∼ N ( λ , 1 ) X_i\sim N(0,1),\,i=1,2,\cdots,n-1,\,X_n\sim N\left(\sqrt{\lambda},1\right)XiN(0,1),i=1,2,,n1,XnN(λ,1) ,且相互独立,于是有
E ( Y ) = ∑ i = 1 n E ( X i 2 )   , V a r ( Y ) = ∑ i = 1 n V a r ( X i 2 )   . {\rm E}(Y)=\sum_{i=1}^n{\rm E}\left(X_i^2\right) \ , \quad {\rm Var}(Y)=\sum_{i=1}^n{\rm Var}\left(X_i^2\right) \ .E(Y)=i=1nE(Xi2) ,Var(Y)=i=1nVar(Xi2) .
又因为

E ( X i 2 ) = V a r ( X i ) + [ E ( X i ) ] 2 = { 1   , i = 1 , 2 , ⋯ , n − 1   , 1 + λ   , i = n   , {\rm E}\left(X_i^2\right)={\rm Var}\left(X_i\right)+\left[{\rm E}\left(X_i\right)\right]^2= \left\{\begin{array}{ll} 1 \ , & i=1,2,\cdots,n-1 \ , \\ 1+\lambda \ , & i=n \ , \end{array}\right.E(Xi2)=Var(Xi)+[E(Xi)]2={1 ,1+λ ,i=1,2,,n1 ,i=n ,

所以 E ( Y ) = n + λ {\rm E}(Y)=n+\lambdaE(Y)=n+λ

此外,利用正态分布的概率密度函数,经积分计算可得
E ( X i 4 ) = { 3   , i = 1 , 2 , ⋯ , n − 1   , λ 2 + 6 λ + 3   , i = n   , {\rm E}\left(X_i^4\right)=\left\{\begin{array}{ll} 3 \ , & i=1,2,\cdots,n-1 \ , \\ \lambda^2+6\lambda+3 \ , & i=n \ , \end{array}\right.E(Xi4)={3 ,λ2+6λ+3 ,i=1,2,,n1 ,i=n ,

于是有
V a r ( X i 2 ) = E ( X i 4 ) − [ E ( X i 2 ) ] 2 = { 2   , i = 1 , 2 , ⋯ , n − 1   , 4 λ + 2   , i = n   , {\rm Var}\left(X_i^2\right)={\rm E}\left(X_i^4\right)-\left[{\rm E}\left(X_i^2\right)\right]^2=\left\{\begin{array}{ll} 2 \ , & i=1,2,\cdots,n-1 \ , \\ 4\lambda+2 \ , & i=n \ , \end{array}\right.Var(Xi2)=E(Xi4)[E(Xi2)]2={2 ,4λ+2 ,i=1,2,,n1 ,i=n ,
所以 V a r ( Y ) = 2 n + 4 λ {\rm Var}(Y)=2n+4\lambdaVar(Y)=2n+4λ

推论 2.4.1:设 X ∼ N n ( 0 , Σ ) X\sim N_n(0,\Sigma)XNn(0,Σ)Σ \SigmaΣ 为正定矩阵,则 X ′ Σ − 1 X ∼ χ 2 ( n ) X'\Sigma^{-1}X\sim\chi^2(n)XΣ1Xχ2(n)

证明:记 Y = Σ − 1 / 2 X Y=\Sigma^{-1/2}XY=Σ1/2X ,则可知 Y ∼ N n ( 0 , I n ) Y\sim N_n\left(0,I_n\right)YNn(0,In) ,又因为
X ′ Σ − 1 X = ( Σ − 1 / 2 X ) ′ Σ − 1 / 2 X = Y ′ Y   , X'\Sigma^{-1}X=\left(\Sigma^{-1/2}X\right)'\Sigma^{-1/2}X=Y'Y \ ,XΣ1X=(Σ1/2X)Σ1/2X=YY ,
所以 X ′ Σ − 1 X ∼ χ 2 ( n ) X'\Sigma^{-1}X\sim\chi^2(n)XΣ1Xχ2(n)

推论 2.4.2:设 X ∼ χ 2 ( n ) X\sim\chi^2(n)Xχ2(n) ,则 E ( X ) = n , V a r ( X ) = 2 n {\rm E}(X)=n,\,{\rm Var}(X)=2nE(X)=n,Var(X)=2n

推论 2.4.3:设 X 1 , X 2 , ⋯ , X k X_1,X_2,\cdots,X_kX1,X2,,Xk 相互独立,且 X i ∼ χ 2 ( n i ) , i = 1 , 2 , ⋯ , k X_i\sim\chi^2\left(n_i\right),\,i=1,2,\cdots,kXiχ2(ni),i=1,2,,k ,则
X 1 + X 2 + ⋯ + X k ∼ χ 2 ( n 1 + n 2 + ⋯ + n k )   . X_1+X_2+\cdots+X_k\sim\chi^2(n_1+n_2+\cdots+n_k) \ .X1+X2++Xkχ2(n1+n2++nk) .
定理 2.4.3:设 A AAn × n n\times nn×n 实对称矩阵,X ∼ N n ( μ , I n ) X\sim N_n\left(\mu,I_n\right)XNn(μ,In) ,则 X ′ A X ∼ χ 2 ( r , μ ′ A μ ) X'AX\sim\chi^2\left(r,\mu'A\mu\right)XAXχ2(r,μAμ) 当且仅当 A AA 是幂等矩阵且 r a n k ( A ) = r {\rm rank}(A)=rrank(A)=r

这里我们只证明充分性。设 A AA 是对称幂等矩阵且 KaTeX parse error: Undefined control sequence: \rank at position 2: {\̲r̲a̲n̲k̲}(A)=r

易证对称幂等矩阵的特征根只能为 0 001 11 ,于是存在正交矩阵 Q QQ 使得
A = Q ( I r 0 0 0 ) Q ′   . A=Q\left(\begin{array}{cc} I_r & 0 \\ 0 & 0 \end{array}\right)Q' \ .A=Q(Ir000)Q .
Y = Q ′ X Y=Q'XY=QX ,则 Y ∼ N n ( Q ′ μ , I n ) Y\sim N_n\left(Q'\mu,I_n\right)YNn(Qμ,In) 。对 Y YYQ ′ Q'Q 做分块
Y = ( Y 1 Y 2 )   , Q ′ = ( Q 1 Q 2 )   , Y=\left(\begin{array}{c} Y_1 \\ Y_2 \end{array}\right) \ , \quad Q'=\left(\begin{array}{c} Q_1 \\ Q_2 \end{array}\right) \ ,Y=(Y1Y2) ,Q=(Q1Q2) ,
其中 Y 1 Y_1Y1r × 1 r\times1r×1 向量,Q 1 Q_1Q1r × n r\times nr×n 矩阵,于是 A = Q 1 ′ Q 1 , Y 1 ∼ N r ( Q 1 μ , I r ) A=Q_1'Q_1,\,Y_1\sim N_r\left(Q_1\mu,I_r\right)A=Q1Q1,Y1Nr(Q1μ,Ir) ,所以有
X ′ A X = X ′ Q ( I r O O O ) Q ′ X = Y ’ ( I r O O O ) Y = Y 1 ′ Y 1 ∼ χ 2 ( r , λ )   , X'AX=X'Q\left(\begin{array}{cc} I_r & O \\ O & O \end{array}\right)Q'X=Y’\left(\begin{array}{cc} I_r & O \\ O & O \end{array}\right)Y=Y_1'Y_1\sim\chi^2(r,\lambda) \ ,XAX=XQ(IrOOO)QX=Y(IrOOO)Y=Y1Y1χ2(r,λ) ,
其中 λ = ( Q 1 μ ) ′ ( Q 1 μ ) = μ ′ Q 1 ′ Q 1 μ = μ ′ A μ \lambda=\left(Q_1\mu\right)'(Q_1\mu)=\mu'Q_1'Q_1\mu=\mu'A\muλ=(Q1μ)(Q1μ)=μQ1Q1μ=μAμ

推论 2.4.4:设 A AAn × n n\times nn×n 实对称矩阵,X ∼ N ( μ , I n ) X\sim N(\mu,I_n)XN(μ,In) ,则 X ′ A X ∼ χ 2 ( k ) X'AX\sim\chi^2(k)XAXχ2(k) 当且仅当 A AA 是幂等矩阵且 r a n k ( A ) = k , A μ = 0 {\rm rank}(A)=k,\,A\mu=0rank(A)=k,Aμ=0

推论 2.4.5:设 A AAn × n n\times nn×n 实对称矩阵,X ∼ N ( 0 , I n ) X\sim N(0,I_n)XN(0,In) ,则 X ′ A X ∼ χ 2 ( k ) X'AX\sim\chi^2(k)XAXχ2(k) 当且仅当 A AA 是幂等矩阵且 r a n k ( A ) = k {\rm rank}(A)=krank(A)=k

推论 2.4.6:设 A AAn × n n\times nn×n 实对称矩阵,X ∼ N ( μ , Σ ) , Σ > 0 X\sim N(\mu,\Sigma),\,\Sigma>0XN(μ,Σ),Σ>0 ,则 X ′ A X ∼ χ 2 ( r , μ ′ A μ ) X'AX\sim\chi^2\left(r,\mu'A\mu\right)XAXχ2(r,μAμ) 当且仅当 A Σ A = A A\Sigma A=AAΣA=Ar a n k ( A ) = k {\rm rank}(A)=krank(A)=k

定理 2.4.3 及其推论把判定正态随机向量的二次型是否服从 χ 2 \chi^2χ2 分布的问题,等价转化为研究相应的二次型矩阵的问题,而后者往往容易处理。

定理 2.4.4:设 A AAn × n n\times nn×n 实对称矩阵,X ∼ N n ( μ , I n ) X\sim N_n(\mu,I_n)XNn(μ,In) ,已知
X ′ A X = X ′ A 1 X + X ′ A 2 X ∼ χ 2 ( r , λ )   , X ′ A 1 X ∼ χ 2 ( s , λ 1 )   , X'AX=X'A_1X+X'A_2X\sim\chi^2(r,\lambda) \ , \quad X'A_1X\sim\chi^2(s,\lambda_1) \ ,XAX=XA1X+XA2Xχ2(r,λ) ,XA1Xχ2(s,λ1) ,
其中 A 2 = A − A 1 ≥ 0 , λ = μ ′ A μ , λ 1 = μ ′ A 1 μ A_2=A-A_1\geq0,\,\lambda=\mu'A\mu,\,\lambda_1=\mu'A_1\muA2=AA10,λ=μAμ,λ1=μA1μ ,则有

(1) X ′ A 2 X ∼ χ 2 ( r − s , λ 2 ) X'A_2X\sim\chi^2(r-s,\lambda_2)XA2Xχ2(rs,λ2) ,其中 λ 2 = μ ′ A 2 μ \lambda_2=\mu'A_2\muλ2=μA2μ

(2) X ′ A 1 X X'A_1XXA1XX ′ A 2 X X'A_2XXA2X 相互独立;

(3) A 1 A 2 = O A_1A_2=OA1A2=O

因为 X ′ A X ∼ χ 2 ( r , λ ) X'AX\sim\chi^2(r,\lambda)XAXχ2(r,λ) ,故由定理 2.4.3 知 A AA 是幂等矩阵且 r a n k ( A ) = r {\rm rank}(A)=rrank(A)=r 。于是,存在 n × n n\times nn×n 的正交矩阵 P PP 使得
P ′ A P = ( I r O O O )   . P'AP=\left(\begin{array}{cc} I_r & O \\ O & O \end{array}\right) \ .PAP=(IrOOO) .

因为 A 1 A_1A1 是对称幂等矩阵,所以是非负定矩阵,所以有 A − A 1 ≥ 0 , A − A 2 ≥ 0 A-A_1\geq0,\,A-A_2\geq0AA10,AA20 ,所以
P ′ ( A − A 1 ) P ≥ 0   , P ′ ( A − A 2 ) P ≥ 0   . P'(A-A_1)P\geq0 \ , \quad P'(A-A_2)P\geq0 \ .P(AA1)P0 ,P(AA2)P0 .
P ′ A P P'APPAP 的矩阵形式可知,存在 r × r r\times rr×r 的对称矩阵 B 1 B_1B1B 2 B_2B2 ,使得
P ′ A 1 P = ( B 1 O O O )   , P ′ A 2 P = ( B 2 O O O )   . P'A_1P=\left(\begin{array}{cc} B_1 & O \\ O & O \end{array}\right) \ , \quad P'A_2P=\left(\begin{array}{cc} B_2 & O \\ O & O \end{array}\right) \ .PA1P=(B1OOO) ,PA2P=(B2OOO) .
由于 A 1 2 = A 1 A_1^2=A_1A12=A1 ,因此有 B 1 2 = B 1 B_1^2=B_1B12=B1 。故存在 r × r r\times rr×r 的正交矩阵 Q QQ 使得
Q ′ B 1 Q = ( I s O O O )   , s ≤ r   . Q'B_1Q=\left(\begin{array}{cc} I_s & O \\ O & O \end{array}\right) \ , \quad s\leq r \ .QB1Q=(IsOOO) ,sr .

S ′ = ( Q ′ O O I n − r ) P ′   , S'=\left(\begin{array}{cc} Q' & O \\ O & I_{n-r} \end{array}\right)P' \ ,S=(QOOInr)P ,

S ′ S = ( Q ′ O O I n − r ) P ′ P ( Q O O I n − r ) = ( Q ′ O O I n − r ) ( Q O O I n − r ) = I n   . S'S=\left(\begin{array}{cc} Q' & O \\ O & I_{n-r} \end{array}\right)P'P\left(\begin{array}{cc} Q & O \\ O & I_{n-r} \end{array}\right)=\left(\begin{array}{cc} Q' & O \\ O & I_{n-r} \end{array}\right)\left(\begin{array}{cc} Q & O \\ O & I_{n-r} \end{array}\right)=I_n \ .SS=(QOOInr)PP(QOOInr)=(QOOInr)(QOOInr)=In .
S ′ S'S 为正交矩阵,且使
S ′ A S = S ′ A 1 S + S ′ A 2 S   , S'AS=S'A_1S+S'A_2S \ ,SAS=SA1S+SA2S ,
形如
( I s O O O I r − s O O O O ) = ( I s O O O O O O O O ) + ( O O O O I r − s O O O O ) . \left(\begin{array}{ccc} I_s & O & O \\ O & I_{r-s} & O \\ O & O & O \end{array}\right)=\left(\begin{array}{ccc} I_s & O & O \\ O & O & O \\ O & O & O \end{array}\right)+\left(\begin{array}{ccc} O & O & O \\ O & I_{r-s} & O \\ O & O & O \end{array}\right) .IsOOOIrsOOOO=IsOOOOOOOO+OOOOIrsOOOO.
作变换 Y = S ′ X Y=S'XY=SX ,则 Y ∼ N n ( S ′ μ , I n ) Y\sim N_n\left(S'\mu,I_n\right)YNn(Sμ,In) ,于是
X ′ A X = Y ′ S ′ A S Y = ∑ i = 1 r Y i 2   , X ′ A 1 X = Y ′ S ′ A 1 S Y = ∑ i = 1 s Y i 2   , X ′ A 2 X = Y ′ S ′ A 2 S Y = ∑ i = s + 1 s Y i 2   . \begin{aligned} &X'AX=Y'S'ASY=\sum_{i=1}^rY_i^2 \ , \\ \\ &X'A_1X=Y'S'A_1SY=\sum_{i=1}^sY_i^2 \ , \\ \\ &X'A_2X=Y'S'A_2SY=\sum_{i=s+1}^sY_i^2 \ . \end{aligned}XAX=YSASY=i=1rYi2 ,XA1X=YSA1SY=i=1sYi2 ,XA2X=YSA2SY=i=s+1sYi2 .
因为 Y 1 , Y 2 , ⋯ , Y n Y_1,Y_2,\cdots,Y_nY1,Y2,,Yn 相互独立,所以 X ′ A 1 X X'A_1XXA1XX ′ A 2 X X'A_2XXA2X 相互独立。因为 S ′ A 2 S S'A_2SSA2S 是对称幂等矩阵,秩为 r − s r-srs ,所以
X ′ A 2 X = Y ′ S ′ A 2 S Y ∼ χ 2 ( r − s , λ 2 )   , λ 2 = μ ′ A 2 μ   . X'A_2X=Y'S'A_2SY\sim\chi^2(r-s,\lambda_2) \ , \quad \lambda_2=\mu'A_2\mu \ .XA2X=YSA2SYχ2(rs,λ2) ,λ2=μA2μ .
最后有
A 1 A 2 = S ( I s O O O O O O O O ) S ′ S ( O O O O I r − s O O O O ) S ′ = O   . A_1A_2=S\left(\begin{array}{ccc} I_s & O & O \\ O & O & O \\ O & O & O \end{array}\right)S'S\left(\begin{array}{ccc} O & O & O \\ O & I_{r-s} & O \\ O & O & O \end{array}\right)S'=O \ .A1A2=SIsOOOOOOOOSSOOOOIrsOOOOS=O .

推论 2.4.7:设 X ∼ N n ( μ , I n ) X\sim N_n(\mu,I_n)XNn(μ,In)A 1 A_1A1A 2 A_2A2n × n n\times nn×n 实对称矩阵,X ′ A 1 X X'A_1XXA1XX ′ A 2 X X'A_2XXA2X 都服从 χ 2 \chi^2χ2 分布,则 X ′ A 1 X X'A_1XXA1XX ′ A 2 X X'A_2XXA2X 相互独立当且仅当 A 1 A 2 = O A_1A_2=OA1A2=O

首先证明充分性。设 A 1 A 2 = O A_1A_2=OA1A2=O ,于是 A 2 A 1 = ( A 1 A 2 ) ′ = O A_2A_1=(A_1A_2)'=OA2A1=(A1A2)=O ,令 A = A 1 + A 2 A=A_1+A_2A=A1+A2

X ′ A 1 X X'A_1XXA1XX ′ A 2 X X'A_2XXA2X 都服从 χ 2 \chi^2χ2 分布知 A 1 A_1A1A 2 A_2A2 都是幂等矩阵,从而有
A 2 = ( A 1 + A 2 ) 2 = A 1 2 + A 2 2 + A 1 A 2 + A 2 A 1 = A 1 + A 2 = A   . A^2=(A_1+A_2)^2=A_1^2+A_2^2+A_1A_2+A_2A_1=A_1+A_2=A \ .A2=(A1+A2)2=A12+A22+A1A2+A2A1=A1+A2=A .
所以 A AA 是对称幂等矩阵。由定理 2.4.4 (2) 可知 X ′ A 1 X X'A_1XXA1XX ′ A 2 X X'A_2XXA2X 相互独立。

然后证明必要性。设 X ′ A 1 X X'A_1XXA1XX ′ A 2 X X'A_2XXA2X 相互独立。由 χ 2 \chi^2χ2 分布的可加性知 X ′ A X X'AXXAX 服从 χ 2 \chi^2χ2 分布。

由定理 2.4.4 (3) 可知 A 1 A 2 = O A_1A_2=OA1A2=O

我们可以将上述两个结论中的协方差阵 C o v ( X ) = I n {\rm Cov}(X)=I_nCov(X)=In ,推广到 C o v ( X ) = Σ > 0 {\rm Cov}(X)=\Sigma>0Cov(X)=Σ>0 的情形,即可得到如下两个推论。

推论 2.4.8:设 A AAn × n n\times nn×n 实对称矩阵,X ∼ N n ( μ , Σ ) , Σ > 0 X\sim N_n(\mu,\Sigma),\,\Sigma>0XNn(μ,Σ),Σ>0 ,已知
X ′ A X = X ′ A 1 X + X ′ A 2 X ∼ χ 2 ( r , λ )   , X ′ A 1 X ∼ χ 2 ( s , λ 1 )   , X'AX=X'A_1X+X'A_2X\sim\chi^2(r,\lambda) \ , \quad X'A_1X\sim\chi^2(s,\lambda_1) \ ,XAX=XA1X+XA2Xχ2(r,λ) ,XA1Xχ2(s,λ1) ,
其中 A 2 = A − A 1 ≥ 0 , λ = μ ′ A μ , λ 1 = μ ′ A 1 μ A_2=A-A_1\geq0,\,\lambda=\mu'A\mu,\,\lambda_1=\mu'A_1\muA2=AA10,λ=μAμ,λ1=μA1μ ,则有

(1) X ′ A 2 X ∼ χ 2 ( r − s , λ 2 ) X'A_2X\sim\chi^2(r-s,\lambda_2)XA2Xχ2(rs,λ2) ,其中 λ 2 = μ ′ A 2 μ \lambda_2=\mu'A_2\muλ2=μA2μ

(2) X ′ A 1 X X'A_1XXA1XX ′ A 2 X X'A_2XXA2X 相互独立;

(3) A 1 Σ A 2 = O A_1\Sigma A_2=OA1ΣA2=O

推论 2.4.9:设 X ∼ N n ( μ , Σ ) , Σ > 0 X\sim N_n(\mu,\Sigma),\,\Sigma>0XNn(μ,Σ),Σ>0A 1 A_1A1A 2 A_2A2n × n n\times nn×n 实对称矩阵,X ′ A 1 X X'A_1XXA1XX ′ A 2 X X'A_2XXA2X 都服从 χ 2 \chi^2χ2 分布,则 X ′ A 1 X X'A_1XXA1XX ′ A 2 X X'A_2XXA2X 相互独立当且仅当 A 1 Σ A 2 = O A_1\Sigma A_2=OA1ΣA2=O

接下来讨论二次型 X ′ A X X'AXXAX 和线性型 C X CXCX 的独立性条件,这些结果将主要应用于在线性模型的参数估计和假设检验中。

定理 2.4.5:设 X ∼ N n ( μ , I n ) X\sim N_n(\mu,I_n)XNn(μ,In)A AAn × n n\times nn×n 实对称矩阵,C CCm × n m\times nm×n 实矩阵,若 C A = O CA=OCA=O ,则 C X CXCXX ′ A X X'AXXAX 相互独立。

因为 A AA 为实对称矩阵,所以存在正交阵 Q QQ 使得
A = Q ( Λ O O O ) Q ′   , A=Q\left(\begin{array}{cc} \Lambda & O\\ O & O \end{array}\right)Q' \ ,A=Q(ΛOOO)Q ,
其中 Λ = d i a g ( λ 1 , λ 2 , ⋯ , λ r ) \Lambda={\rm diag}(\lambda_1,\lambda_2,\cdots,\lambda_r)Λ=diag(λ1,λ2,,λr)A AA 的非零特征根,r a n k ( A ) = r {\rm rank}(A)=rrank(A)=r

Q QQ 分块成 Q = ( Q 1    Q 2 ) Q=(Q_1 \ \ Q_2 )Q=(Q1  Q2) ,其中 Q 1 Q_1Q1n × r n\times rn×r 矩阵。作正交变换
Y = ( Y 1 Y 2 ) = Q ′ X   . Y=\left(\begin{array}{c} Y_1 \\ Y_2 \end{array}\right)=Q'X \ .Y=(Y1Y2)=QX .
于是 Y 1 = Q 1 ′ X , Y 2 = Q 2 ′ X Y_1=Q_1'X,\,Y_2=Q_2'XY1=Q1X,Y2=Q2X ,且有 Y ∼ N n ( Q ′ μ , I n ) Y\sim N_n\left(Q'\mu,I_n\right)YNn(Qμ,In) ,所以
Y 1 ∼ N r ( Q 1 ′ μ , I r )   , Y 2 ∼ N n − r ( Q 2 ′ μ , I n − r )   , Y_1\sim N_r\left(Q_1'\mu,I_r\right) \ , \quad Y_2\sim N_{n-r}\left(Q_2'\mu,I_{n-r}\right) \ ,Y1Nr(Q1μ,Ir) ,Y2Nnr(Q2μ,Inr) ,
Y 1 Y_1Y1Y 2 Y_2Y2 相互独立。注意到
X ′ A X = Y ′ Q ′ A Q Y = Y 1 ′ Λ Y 1   , C X = C Q Y = d e f D Y   , D = C Q   , \begin{aligned} &X'AX=Y'Q'AQY=Y_1'\Lambda Y_1 \ , \\ \\ &CX=CQY\xlongequal{def}DY \ , \quad D=CQ \ , \end{aligned}XAX=YQAQY=Y1ΛY1 ,CX=CQYdefDY ,D=CQ ,
由于 C A = O CA=OCA=O ,所以
O = C A Q = C Q Q ′ A Q = D Q ′ A Q = D ( Λ O O O )   . O=CAQ=CQQ'AQ=DQ'AQ=D\left(\begin{array}{cc} \Lambda & O \\ O & O \end{array}\right) \ .O=CAQ=CQQAQ=DQAQ=D(ΛOOO) .
D DD 分块成 D = ( D 1    D 2 ) D=(D_1 \ \ D_2)D=(D1  D2) ,其中 D 1 D_1D1m × r m\times rm×r 矩阵,则上式可以推出 D 1 = O D_1=OD1=O ,从而代回得到
C X = D Y = D 2 Y 2   . CX=DY=D_2Y_2 \ .CX=DY=D2Y2 .
再由 Y 1 Y_1Y1Y 2 Y_2Y2 的独立性可知,Y 1 ′ Λ Y 1 Y_1'\Lambda Y_1Y1ΛY1D Y 2 DY_2DY2 相互独立,从而 C X CXCXX ′ A X X'AXXAX 相互独立。

将上述结论中的协方差阵 C o v ( X ) = I n {\rm Cov}(X)=I_nCov(X)=In 推广到 C o v ( X ) = Σ > 0 {\rm Cov}(X)=\Sigma>0Cov(X)=Σ>0 的情形,有如下推论。

推论 2.4.10:设 X ∼ N n ( μ , Σ ) , Σ > 0 X\sim N_n(\mu,\Sigma),\,\Sigma>0XNn(μ,Σ),Σ>0A AAn × n n\times nn×n 实对称矩阵,C CCm × n m\times nm×n 实矩阵,若 C Σ A = O C\Sigma A=OCΣA=O ,则 C X CXCXX ′ A X X'AXXAX 相互独立。

接下来讨论两个二次型 X ′ A X X'AXXAXX ′ B X X'BXXBX 的独立性条件。

定理 2.4.6:设 X ∼ N n ( μ , I n ) X\sim N_n(\mu,I_n)XNn(μ,In)A AAB BB 均为 n × n n\times nn×n 实对称矩阵,若 A B = O AB=OAB=O ,则 X ′ A X X'AXXAXX ′ B X X'BXXBX 相互独立。

A AAB BB 的对称性及 A B = O AB=OAB=O 可知 A B = B A = O AB=BA=OAB=BA=O ,即 A B ABAB 可交换。所以可用同一正交矩阵将这两个矩阵对角化,即存在正交矩阵 Q QQ 使得
Q ′ A Q = Λ 1 = d i a g ( λ 1 ( 1 ) , λ 2 ( 1 ) , ⋯ , λ n ( 1 ) )   , Q ′ B Q = Λ 2 = d i a g ( λ 1 ( 2 ) , λ 2 ( 2 ) , ⋯ , λ n ( 2 ) )   . \begin{aligned} &Q'AQ=\Lambda_1={\rm diag}\left(\lambda_1^{(1)},\lambda_2^{(1)},\cdots,\lambda_n^{(1)}\right) \ , \\ \\ &Q'BQ=\Lambda_2={\rm diag}\left(\lambda_1^{(2)},\lambda_2^{(2)},\cdots,\lambda_n^{(2)}\right) \ . \end{aligned}QAQ=Λ1=diag(λ1(1),λ2(1),,λn(1)) ,QBQ=Λ2=diag(λ1(2),λ2(2),,λn(2)) .
A B = O AB=OAB=O ,可推得 Λ 1 Λ 2 = O \Lambda_1\Lambda_2=OΛ1Λ2=O ,即 λ i ( 1 ) \lambda_i^{(1)}λi(1)λ i ( 2 ) \lambda_i^{(2)}λi(2) 至少有一个为 0 00i = 1 , 2 , ⋯ , n i=1,2,\cdots,ni=1,2,,n

Y = Q ′ X Y=Q'XY=QX ,则 Y ∼ N n ( Q ′ μ , I n ) Y\sim N_n\left(Q'\mu,I_n\right)YNn(Qμ,In) ,于是 Y YY 的所有分量相互独立。另一方面,由于
X ′ A X = Y ′ Q ′ A Q Y = Y ′ Λ 1 Y   , X ′ B X = Y ′ Q ′ B Q Y = Y ′ Λ 2 Y   , \begin{aligned} X'AX=Y'Q'AQY=Y'\Lambda_1Y \ , \\ \\ X'BX=Y'Q'BQY=Y'\Lambda_2Y \ , \end{aligned}XAX=YQAQY=YΛ1Y ,XBX=YQBQY=YΛ2Y ,
所以可知 X ′ A X X'AXXAXX ′ B X X'BXXBX 依赖于 Y YY 的不同分量,所以 X ′ A X X'AXXAXX ′ B X X'BXXBX 相互独立。

同样的,该定理可以推广到 C o v ( X ) = Σ > 0 {\rm Cov}(X)=\Sigma>0Cov(X)=Σ>0 的情形。

推论 2.4.11:设 X ∼ N n ( μ , Σ ) , Σ > 0 X\sim N_n(\mu,\Sigma),\,\Sigma>0XNn(μ,Σ),Σ>0A AAB BB 均为 n × n n\times nn×n 实对称矩阵,若 A Σ B = O A\Sigma B=OAΣB=O ,则 X ′ A X X'AXXAXX ′ B X X'BXXBX 相互独立。

2.5 矩阵微商

X = ( x i j ) X=(x_{ij})X=(xij)m × n m\times nm×n 矩阵,y = f ( X ) y=f(X)y=f(X)X XX 的一个实值函数,定义矩阵
∂ y ∂ X = d e f ( ∂ y ∂ x 11 ∂ y ∂ x 12 ⋯ ∂ y ∂ x 1 n ∂ y ∂ x 21 ∂ y ∂ x 22 ⋯ ∂ y ∂ x 2 n ⋮ ⋮ ⋱ ⋮ ∂ y ∂ x m 1 ∂ y ∂ x m 2 ⋯ ∂ y ∂ x m n ) m × n   , \frac{\partial y}{\partial X}\xlongequal{def}\left(\begin{array}{cccc} \cfrac{\partial y}{\partial x_{11}} & \cfrac{\partial y}{\partial x_{12}} & \cdots & \cfrac{\partial y}{\partial x_{1n}} \\ \cfrac{\partial y}{\partial x_{21}} & \cfrac{\partial y}{\partial x_{22}} & \cdots & \cfrac{\partial y}{\partial x_{2n}} \\ \vdots &\vdots & \ddots & \vdots \\ \cfrac{\partial y}{\partial x_{m1}} & \cfrac{\partial y}{\partial x_{m2}} & \cdots & \cfrac{\partial y}{\partial x_{mn}} \\ \end{array}\right)_{m\times n} \ ,Xydefx11yx21yxm1yx12yx22yxm2yx1nyx2nyxmnym×n ,
称为 y yyX XX 的微商。

定理 2.5.1:设 a aax xx 均为 n nn 维向量,y = a ′ x y=a'xy=ax ,则有 ∂ y ∂ x = a \cfrac{\partial y}{\partial x}=axy=a

因为
y = a ′ x = ∑ i = 1 n a i x i   , y=a'x=\sum_{i=1}^na_ix_i \ ,y=ax=i=1naixi ,
所以
∂ y ∂ x = ( ∂ y ∂ x 1 ∂ y ∂ x 2 ⋮ ∂ y ∂ x n ) = ( a 1 a 2 ⋮ a n ) = a   . \frac{\partial y}{\partial x} =\left(\begin{array}{cccc} \cfrac{\partial y}{\partial x_{1}} \\ \cfrac{\partial y}{\partial x_{2}} \\ \vdots \\ \cfrac{\partial y}{\partial x_{n}} \\ \end{array}\right) =\left(\begin{array}{cccc} a_1 \\ a_2 \\ \vdots \\ a_n \\ \end{array}\right)=a \ .xy=x1yx2yxny=a1a2an=a .
此外可知
∂ x ′ a ∂ x = ∂ y ∂ x = ∂ a ′ x ∂ x = a   . \frac{\partial x'a}{\partial x}=\frac{\partial y}{\partial x}=\frac{\partial a'x}{\partial x}=a \ .xxa=xy=xax=a .

定理 2.5.2:设 A AAm × n m\times nm×n 矩阵,x xxn nn 维向量,y = x ′ A x y=x'Axy=xAx ,则有 ∂ y ∂ x = A x + A ′ x \cfrac{\partial y}{\partial x}=Ax+A'xxy=Ax+Ax

因为
y = x ′ A x = ∑ i = 1 n ∑ j = 1 n a i j x i x j   , y=x'Ax=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_ix_j \ ,y=xAx=i=1nj=1naijxixj ,
所以
∂ y ∂ x 1 = ∑ i = 1 n a i 1 x i + ∑ j = 1 n a 1 j x j   , ∂ y ∂ x 2 = ∑ i = 1 n a i 2 x i + ∑ j = 1 n a 2 j x j   , ⋮ ∂ y ∂ x n = ∑ i = 1 n a i n x i + ∑ j = 1 n a n j x j   . \begin{aligned} \frac{\partial y}{\partial x_1}&=\sum_{i=1}^na_{i1}x_i+\sum_{j=1}^na_{1j}x_j \ , \\ \\ \frac{\partial y}{\partial x_2}&=\sum_{i=1}^na_{i2}x_i+\sum_{j=1}^na_{2j}x_j \ , \\ \\ &\vdots \\ \\ \frac{\partial y}{\partial x_n}&=\sum_{i=1}^na_{in}x_i+\sum_{j=1}^na_{nj}x_j \ . \end{aligned}x1yx2yxny=i=1nai1xi+j=1na1jxj ,=i=1nai2xi+j=1na2jxj ,=i=1nainxi+j=1nanjxj .
因此可以看出
∂ y ∂ x = ( ∂ y ∂ x 1 ∂ y ∂ x 2 ⋮ ∂ y ∂ x n ) = ( ∑ i = 1 n a i 1 x i + ∑ j = 1 n a 1 j x j ∑ i = 1 n a i 2 x i + ∑ j = 1 n a 2 j x j ⋮ ∑ i = 1 n a i n x i + ∑ j = 1 n a n j x j ) = A x + A ′ x   . \frac{\partial y}{\partial x} =\left(\begin{array}{cccc} \cfrac{\partial y}{\partial x_{1}} \\ \cfrac{\partial y}{\partial x_{2}} \\ \vdots \\ \cfrac{\partial y}{\partial x_{n}} \\ \end{array}\right) =\left(\begin{array}{cccc} \sum\limits_{i=1}^na_{i1}x_i+\sum\limits_{j=1}^na_{1j}x_j \\ \sum\limits_{i=1}^na_{i2}x_i+\sum\limits_{j=1}^na_{2j}x_j \\ \vdots \\ \sum\limits_{i=1}^na_{in}x_i+\sum\limits_{j=1}^na_{nj}x_j \\ \end{array}\right)=Ax+A'x \ .xy=x1yx2yxny=i=1nai1xi+j=1na1jxji=1nai2xi+j=1na2jxji=1nainxi+j=1nanjxj=Ax+Ax .
此外,若 A AAn × n n\times nn×n 对称矩阵,则
∂ x ′ A x ∂ x = 2 A x   . \frac{\partial x'Ax}{\partial x}=2Ax \ .xxAx=2Ax .


版权声明:本文为weixin_45449414原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。