【回归分析】2. 随机向量(2)
2.4 正态随机向量的二次型
定理 2.4.1:正态随机向量的二次型的方差:
(1) 设 X ∼ N n ( μ , Σ ) X\sim N_n(\mu,\Sigma)X∼Nn(μ,Σ) ,A AA 为 n × n n\times nn×n 的实对称矩阵,则
V a r ( X ′ A X ) = 2 t r ( A Σ ) 2 + 4 μ ′ A Σ A μ . {\rm Var}\left(X'AX\right)=2{\rm tr}(A\Sigma)^2+4\mu'A\Sigma A\mu \ .Var(X′AX)=2tr(AΣ)2+4μ′AΣAμ .
(2) 设 X ∼ N n ( μ , σ 2 I n ) X\sim N_n\left(\mu,\sigma^2I_n\right)X∼Nn(μ,σ2In) ,A AA 为 n × n n\times nn×n 的实对称矩阵,则
V a r ( X ′ A X ) = 2 σ 4 t r ( A 2 ) + 4 σ 2 μ ′ A 2 μ . {\rm Var}\left(X'AX\right)=2\sigma^4{\rm tr}\left(A^2\right)+4\sigma^2\mu'A^2\mu \ .Var(X′AX)=2σ4tr(A2)+4σ2μ′A2μ .
(1) 设 Y = Σ − 1 / 2 X Y=\Sigma^{-1/2}XY=Σ−1/2X ,则 Y ∼ N ( Σ − 1 / 2 μ , I n ) Y\sim N\left(\Sigma^{-1/2}\mu,I_n\right)Y∼N(Σ−1/2μ,In) ,所以 Y YY 的各个分量相互独立,且有
V a r ( X ′ A X ) = V a r ( Y ′ Σ 1 / 2 A Σ 1 / 2 Y ) . {\rm Var}\left(X'AX\right)={\rm Var}\left(Y'\Sigma^{1/2}A\Sigma^{1/2}Y\right) \ .Var(X′AX)=Var(Y′Σ1/2AΣ1/2Y) .
把问题转化为求 Y YY 的二次型的方差,注意到
m 3 = E [ Y i − E ( Y i ) ] 3 = 0 , m 4 = E [ Y i − E ( Y i ) ] 4 = 3 . m_3={\rm E}\left[Y_i-{\rm E}(Y_i)\right]^3=0 \ , \quad m_4={\rm E}\left[Y_i-{\rm E}(Y_i)\right]^4=3 \ .m3=E[Yi−E(Yi)]3=0 ,m4=E[Yi−E(Yi)]4=3 .
由定理 2.2.2 可知
V a r ( Y ′ Σ 1 / 2 A Σ 1 / 2 Y ) = 2 t r ( A Σ ) 2 + 4 ( Σ − 1 / 2 μ ) ′ ( Σ 1 / 2 A Σ 1 / 2 ) 2 ( Σ − 1 / 2 μ ) = 2 t r ( A Σ ) 2 + 4 μ ′ Σ − 1 / 2 Σ 1 / 2 A Σ A Σ 1 / 2 Σ − 1 / 2 μ = 2 t r ( A Σ ) 2 + 4 μ ′ A Σ A μ . \begin{aligned} {\rm Var}\left(Y'\Sigma^{1/2}A\Sigma^{1/2}Y\right)&=2{\rm tr}\left(A\Sigma \right)^2+4\left(\Sigma^{-1/2}\mu\right)'\left(\Sigma^{1/2}A\Sigma^{1/2}\right)^2\left(\Sigma^{-1/2}\mu\right) \\ \\ &=2{\rm tr}\left(A\Sigma \right)^2+4\mu'\Sigma^{-1/2}\Sigma^{1/2}A\Sigma A \Sigma^{1/2}\Sigma^{-1/2}\mu \\ \\ &=2{\rm tr}\left(A\Sigma \right)^2+4\mu'A\Sigma A \mu \ . \end{aligned}Var(Y′Σ1/2AΣ1/2Y)=2tr(AΣ)2+4(Σ−1/2μ)′(Σ1/2AΣ1/2)2(Σ−1/2μ)=2tr(AΣ)2+4μ′Σ−1/2Σ1/2AΣAΣ1/2Σ−1/2μ=2tr(AΣ)2+4μ′AΣAμ .
(2) 把 Σ = σ 2 I n \Sigma=\sigma^2I_nΣ=σ2In 代入 (1) 中结果,即可得证。
设 X ∼ N n ( μ , I n ) X\sim N_n(\mu,I_n)X∼Nn(μ,In) ,称随机变量 Y = X ′ X Y=X'XY=X′X 的分布为自由度为 n nn ,非中心参数为 λ = μ ′ μ \lambda=\mu'\muλ=μ′μ 的非中心 χ 2 \chi^2χ2 分布,记为 Y ∼ χ 2 ( n , λ ) Y\sim\chi^2(n,\lambda)Y∼χ2(n,λ) 。当 λ = 0 \lambda=0λ=0 时,称 Y YY 的分布为中心 χ 2 \chi^2χ2 分布,记为 Y ∼ χ 2 ( n ) Y\sim\chi^2(n)Y∼χ2(n) 。
定理 2.4.2:χ 2 \chi^2χ2 分布的性质:
(1) 可加性:设 Y i ∼ χ 2 ( n i , λ i ) , i = 1 , 2 , ⋯ , k Y_i\sim\chi^2(n_i,\lambda_i),\,i=1,2,\cdots,kYi∼χ2(ni,λi),i=1,2,⋯,k 且相互独立,则
Y 1 + Y 2 + ⋯ + Y k ∼ χ 2 ( n , λ ) , n = ∑ i = 1 k n i , λ = ∑ i = 1 k λ i . Y_1+Y_2+\cdots+Y_k\sim\chi^2(n,\lambda) \ , \quad n=\sum_{i=1}^kn_i \ , \quad \lambda=\sum_{i=1}^k\lambda_i \ .Y1+Y2+⋯+Yk∼χ2(n,λ) ,n=i=1∑kni ,λ=i=1∑kλi .
(2) 数字特征:设 Y ∼ χ 2 ( n , λ ) Y\sim\chi^2(n,\lambda)Y∼χ2(n,λ) ,则 E ( Y ) = n + λ , V a r ( Y ) = 2 n + 4 λ {\rm E}(Y)=n+\lambda,\,{\rm Var}(Y)=2n+4\lambdaE(Y)=n+λ,Var(Y)=2n+4λ 。
(1) 非中心 χ 2 \chi^2χ2 分布的特征函数为
Φ ( t ) = ( 1 − 2 i t ) − n / 2 exp { i t λ 1 − 2 i t } . \Phi(t)=(1-2it)^{-n/2}\exp\left\{\frac{it\lambda}{1-2it}\right\} \ .Φ(t)=(1−2it)−n/2exp{1−2ititλ} .
设 Y = Y 1 + Y 2 + ⋯ + Y k Y=Y_1+Y_2+\cdots+Y_kY=Y1+Y2+⋯+Yk ,其特征函数为 Φ ( t ) \Phi(t)Φ(t) ,设 Y i Y_iYi 的特征函数为 Φ i ( t ) \Phi_i(t)Φi(t) ,利用 Y i Y_iYi 的独立性可知
Φ ( t ) = Φ 1 ( t ) Φ 2 ( t ) ⋯ Φ k ( t ) = ∏ i = 1 k ( 1 − 2 i t ) − n i / 2 exp { i t λ i 1 − 2 i t } = ( 1 − 2 i t ) − ( n 1 + n 2 + ⋯ + n k ) / 2 exp { i t ( λ 1 + λ 2 + ⋯ + λ k ) 1 − 2 i t } = ( 1 − 2 i t ) − n / 2 exp { i t λ 1 − 2 i t } . \begin{aligned} \Phi(t)&=\Phi_1(t)\Phi_2(t)\cdots\Phi_k(t) \\ \\ &=\prod_{i=1}^k(1-2it)^{-n_i/2}\exp\left\{\frac{it\lambda_i}{1-2it}\right\} \\ \\ &=(1-2it)^{-(n_1+n_2+\cdots+n_k)/2}\exp\left\{\frac{it(\lambda_1+\lambda_2+\cdots+\lambda_k)}{1-2it}\right\} \\ \\ &=(1-2it)^{-n/2}\exp\left\{\frac{it\lambda}{1-2it}\right\} \ . \end{aligned}Φ(t)=Φ1(t)Φ2(t)⋯Φk(t)=i=1∏k(1−2it)−ni/2exp{1−2ititλi}=(1−2it)−(n1+n2+⋯+nk)/2exp{1−2itit(λ1+λ2+⋯+λk)}=(1−2it)−n/2exp{1−2ititλ} .
(2) 根据非中心 χ 2 \chi^2χ2 分布的定义,
Y = d X 1 2 + X 2 2 + ⋯ + X n − 1 2 + X n 2 , Y\xlongequal{d}X_1^2+X_2^2+\cdots+X_{n-1}^2+X_n^2 \ ,YdX12+X22+⋯+Xn−12+Xn2 ,
其中 X i ∼ N ( 0 , 1 ) , i = 1 , 2 , ⋯ , n − 1 , X n ∼ N ( λ , 1 ) X_i\sim N(0,1),\,i=1,2,\cdots,n-1,\,X_n\sim N\left(\sqrt{\lambda},1\right)Xi∼N(0,1),i=1,2,⋯,n−1,Xn∼N(λ,1) ,且相互独立,于是有
E ( Y ) = ∑ i = 1 n E ( X i 2 ) , V a r ( Y ) = ∑ i = 1 n V a r ( X i 2 ) . {\rm E}(Y)=\sum_{i=1}^n{\rm E}\left(X_i^2\right) \ , \quad {\rm Var}(Y)=\sum_{i=1}^n{\rm Var}\left(X_i^2\right) \ .E(Y)=i=1∑nE(Xi2) ,Var(Y)=i=1∑nVar(Xi2) .
又因为E ( X i 2 ) = V a r ( X i ) + [ E ( X i ) ] 2 = { 1 , i = 1 , 2 , ⋯ , n − 1 , 1 + λ , i = n , {\rm E}\left(X_i^2\right)={\rm Var}\left(X_i\right)+\left[{\rm E}\left(X_i\right)\right]^2= \left\{\begin{array}{ll} 1 \ , & i=1,2,\cdots,n-1 \ , \\ 1+\lambda \ , & i=n \ , \end{array}\right.E(Xi2)=Var(Xi)+[E(Xi)]2={1 ,1+λ ,i=1,2,⋯,n−1 ,i=n ,
所以 E ( Y ) = n + λ {\rm E}(Y)=n+\lambdaE(Y)=n+λ 。
此外,利用正态分布的概率密度函数,经积分计算可得
E ( X i 4 ) = { 3 , i = 1 , 2 , ⋯ , n − 1 , λ 2 + 6 λ + 3 , i = n , {\rm E}\left(X_i^4\right)=\left\{\begin{array}{ll} 3 \ , & i=1,2,\cdots,n-1 \ , \\ \lambda^2+6\lambda+3 \ , & i=n \ , \end{array}\right.E(Xi4)={3 ,λ2+6λ+3 ,i=1,2,⋯,n−1 ,i=n ,于是有
V a r ( X i 2 ) = E ( X i 4 ) − [ E ( X i 2 ) ] 2 = { 2 , i = 1 , 2 , ⋯ , n − 1 , 4 λ + 2 , i = n , {\rm Var}\left(X_i^2\right)={\rm E}\left(X_i^4\right)-\left[{\rm E}\left(X_i^2\right)\right]^2=\left\{\begin{array}{ll} 2 \ , & i=1,2,\cdots,n-1 \ , \\ 4\lambda+2 \ , & i=n \ , \end{array}\right.Var(Xi2)=E(Xi4)−[E(Xi2)]2={2 ,4λ+2 ,i=1,2,⋯,n−1 ,i=n ,
所以 V a r ( Y ) = 2 n + 4 λ {\rm Var}(Y)=2n+4\lambdaVar(Y)=2n+4λ 。
推论 2.4.1:设 X ∼ N n ( 0 , Σ ) X\sim N_n(0,\Sigma)X∼Nn(0,Σ) ,Σ \SigmaΣ 为正定矩阵,则 X ′ Σ − 1 X ∼ χ 2 ( n ) X'\Sigma^{-1}X\sim\chi^2(n)X′Σ−1X∼χ2(n) 。
证明:记 Y = Σ − 1 / 2 X Y=\Sigma^{-1/2}XY=Σ−1/2X ,则可知 Y ∼ N n ( 0 , I n ) Y\sim N_n\left(0,I_n\right)Y∼Nn(0,In) ,又因为
X ′ Σ − 1 X = ( Σ − 1 / 2 X ) ′ Σ − 1 / 2 X = Y ′ Y , X'\Sigma^{-1}X=\left(\Sigma^{-1/2}X\right)'\Sigma^{-1/2}X=Y'Y \ ,X′Σ−1X=(Σ−1/2X)′Σ−1/2X=Y′Y ,
所以 X ′ Σ − 1 X ∼ χ 2 ( n ) X'\Sigma^{-1}X\sim\chi^2(n)X′Σ−1X∼χ2(n) 。
推论 2.4.2:设 X ∼ χ 2 ( n ) X\sim\chi^2(n)X∼χ2(n) ,则 E ( X ) = n , V a r ( X ) = 2 n {\rm E}(X)=n,\,{\rm Var}(X)=2nE(X)=n,Var(X)=2n 。
推论 2.4.3:设 X 1 , X 2 , ⋯ , X k X_1,X_2,\cdots,X_kX1,X2,⋯,Xk 相互独立,且 X i ∼ χ 2 ( n i ) , i = 1 , 2 , ⋯ , k X_i\sim\chi^2\left(n_i\right),\,i=1,2,\cdots,kXi∼χ2(ni),i=1,2,⋯,k ,则
X 1 + X 2 + ⋯ + X k ∼ χ 2 ( n 1 + n 2 + ⋯ + n k ) . X_1+X_2+\cdots+X_k\sim\chi^2(n_1+n_2+\cdots+n_k) \ .X1+X2+⋯+Xk∼χ2(n1+n2+⋯+nk) .
定理 2.4.3:设 A AA 为 n × n n\times nn×n 实对称矩阵,X ∼ N n ( μ , I n ) X\sim N_n\left(\mu,I_n\right)X∼Nn(μ,In) ,则 X ′ A X ∼ χ 2 ( r , μ ′ A μ ) X'AX\sim\chi^2\left(r,\mu'A\mu\right)X′AX∼χ2(r,μ′Aμ) 当且仅当 A AA 是幂等矩阵且 r a n k ( A ) = r {\rm rank}(A)=rrank(A)=r 。
这里我们只证明充分性。设 A AA 是对称幂等矩阵且 KaTeX parse error: Undefined control sequence: \rank at position 2: {\̲r̲a̲n̲k̲}(A)=r 。
易证对称幂等矩阵的特征根只能为 0 00 或 1 11 ,于是存在正交矩阵 Q QQ 使得
A = Q ( I r 0 0 0 ) Q ′ . A=Q\left(\begin{array}{cc} I_r & 0 \\ 0 & 0 \end{array}\right)Q' \ .A=Q(Ir000)Q′ .
令 Y = Q ′ X Y=Q'XY=Q′X ,则 Y ∼ N n ( Q ′ μ , I n ) Y\sim N_n\left(Q'\mu,I_n\right)Y∼Nn(Q′μ,In) 。对 Y YY 和 Q ′ Q'Q′ 做分块
Y = ( Y 1 Y 2 ) , Q ′ = ( Q 1 Q 2 ) , Y=\left(\begin{array}{c} Y_1 \\ Y_2 \end{array}\right) \ , \quad Q'=\left(\begin{array}{c} Q_1 \\ Q_2 \end{array}\right) \ ,Y=(Y1Y2) ,Q′=(Q1Q2) ,
其中 Y 1 Y_1Y1 是 r × 1 r\times1r×1 向量,Q 1 Q_1Q1 是 r × n r\times nr×n 矩阵,于是 A = Q 1 ′ Q 1 , Y 1 ∼ N r ( Q 1 μ , I r ) A=Q_1'Q_1,\,Y_1\sim N_r\left(Q_1\mu,I_r\right)A=Q1′Q1,Y1∼Nr(Q1μ,Ir) ,所以有
X ′ A X = X ′ Q ( I r O O O ) Q ′ X = Y ’ ( I r O O O ) Y = Y 1 ′ Y 1 ∼ χ 2 ( r , λ ) , X'AX=X'Q\left(\begin{array}{cc} I_r & O \\ O & O \end{array}\right)Q'X=Y’\left(\begin{array}{cc} I_r & O \\ O & O \end{array}\right)Y=Y_1'Y_1\sim\chi^2(r,\lambda) \ ,X′AX=X′Q(IrOOO)Q′X=Y’(IrOOO)Y=Y1′Y1∼χ2(r,λ) ,
其中 λ = ( Q 1 μ ) ′ ( Q 1 μ ) = μ ′ Q 1 ′ Q 1 μ = μ ′ A μ \lambda=\left(Q_1\mu\right)'(Q_1\mu)=\mu'Q_1'Q_1\mu=\mu'A\muλ=(Q1μ)′(Q1μ)=μ′Q1′Q1μ=μ′Aμ 。
推论 2.4.4:设 A AA 为 n × n n\times nn×n 实对称矩阵,X ∼ N ( μ , I n ) X\sim N(\mu,I_n)X∼N(μ,In) ,则 X ′ A X ∼ χ 2 ( k ) X'AX\sim\chi^2(k)X′AX∼χ2(k) 当且仅当 A AA 是幂等矩阵且 r a n k ( A ) = k , A μ = 0 {\rm rank}(A)=k,\,A\mu=0rank(A)=k,Aμ=0 。
推论 2.4.5:设 A AA 为 n × n n\times nn×n 实对称矩阵,X ∼ N ( 0 , I n ) X\sim N(0,I_n)X∼N(0,In) ,则 X ′ A X ∼ χ 2 ( k ) X'AX\sim\chi^2(k)X′AX∼χ2(k) 当且仅当 A AA 是幂等矩阵且 r a n k ( A ) = k {\rm rank}(A)=krank(A)=k 。
推论 2.4.6:设 A AA 为 n × n n\times nn×n 实对称矩阵,X ∼ N ( μ , Σ ) , Σ > 0 X\sim N(\mu,\Sigma),\,\Sigma>0X∼N(μ,Σ),Σ>0 ,则 X ′ A X ∼ χ 2 ( r , μ ′ A μ ) X'AX\sim\chi^2\left(r,\mu'A\mu\right)X′AX∼χ2(r,μ′Aμ) 当且仅当 A Σ A = A A\Sigma A=AAΣA=A 且 r a n k ( A ) = k {\rm rank}(A)=krank(A)=k 。
定理 2.4.3 及其推论把判定正态随机向量的二次型是否服从 χ 2 \chi^2χ2 分布的问题,等价转化为研究相应的二次型矩阵的问题,而后者往往容易处理。
定理 2.4.4:设 A AA 为 n × n n\times nn×n 实对称矩阵,X ∼ N n ( μ , I n ) X\sim N_n(\mu,I_n)X∼Nn(μ,In) ,已知
X ′ A X = X ′ A 1 X + X ′ A 2 X ∼ χ 2 ( r , λ ) , X ′ A 1 X ∼ χ 2 ( s , λ 1 ) , X'AX=X'A_1X+X'A_2X\sim\chi^2(r,\lambda) \ , \quad X'A_1X\sim\chi^2(s,\lambda_1) \ ,X′AX=X′A1X+X′A2X∼χ2(r,λ) ,X′A1X∼χ2(s,λ1) ,
其中 A 2 = A − A 1 ≥ 0 , λ = μ ′ A μ , λ 1 = μ ′ A 1 μ A_2=A-A_1\geq0,\,\lambda=\mu'A\mu,\,\lambda_1=\mu'A_1\muA2=A−A1≥0,λ=μ′Aμ,λ1=μ′A1μ ,则有
(1) X ′ A 2 X ∼ χ 2 ( r − s , λ 2 ) X'A_2X\sim\chi^2(r-s,\lambda_2)X′A2X∼χ2(r−s,λ2) ,其中 λ 2 = μ ′ A 2 μ \lambda_2=\mu'A_2\muλ2=μ′A2μ ;
(2) X ′ A 1 X X'A_1XX′A1X 与 X ′ A 2 X X'A_2XX′A2X 相互独立;
(3) A 1 A 2 = O A_1A_2=OA1A2=O 。
因为 X ′ A X ∼ χ 2 ( r , λ ) X'AX\sim\chi^2(r,\lambda)X′AX∼χ2(r,λ) ,故由定理 2.4.3 知 A AA 是幂等矩阵且 r a n k ( A ) = r {\rm rank}(A)=rrank(A)=r 。于是,存在 n × n n\times nn×n 的正交矩阵 P PP 使得
P ′ A P = ( I r O O O ) . P'AP=\left(\begin{array}{cc} I_r & O \\ O & O \end{array}\right) \ .P′AP=(IrOOO) .因为 A 1 A_1A1 是对称幂等矩阵,所以是非负定矩阵,所以有 A − A 1 ≥ 0 , A − A 2 ≥ 0 A-A_1\geq0,\,A-A_2\geq0A−A1≥0,A−A2≥0 ,所以
P ′ ( A − A 1 ) P ≥ 0 , P ′ ( A − A 2 ) P ≥ 0 . P'(A-A_1)P\geq0 \ , \quad P'(A-A_2)P\geq0 \ .P′(A−A1)P≥0 ,P′(A−A2)P≥0 .
由 P ′ A P P'APP′AP 的矩阵形式可知,存在 r × r r\times rr×r 的对称矩阵 B 1 B_1B1 和 B 2 B_2B2 ,使得
P ′ A 1 P = ( B 1 O O O ) , P ′ A 2 P = ( B 2 O O O ) . P'A_1P=\left(\begin{array}{cc} B_1 & O \\ O & O \end{array}\right) \ , \quad P'A_2P=\left(\begin{array}{cc} B_2 & O \\ O & O \end{array}\right) \ .P′A1P=(B1OOO) ,P′A2P=(B2OOO) .
由于 A 1 2 = A 1 A_1^2=A_1A12=A1 ,因此有 B 1 2 = B 1 B_1^2=B_1B12=B1 。故存在 r × r r\times rr×r 的正交矩阵 Q QQ 使得
Q ′ B 1 Q = ( I s O O O ) , s ≤ r . Q'B_1Q=\left(\begin{array}{cc} I_s & O \\ O & O \end{array}\right) \ , \quad s\leq r \ .Q′B1Q=(IsOOO) ,s≤r .
记
S ′ = ( Q ′ O O I n − r ) P ′ , S'=\left(\begin{array}{cc} Q' & O \\ O & I_{n-r} \end{array}\right)P' \ ,S′=(Q′OOIn−r)P′ ,
则
S ′ S = ( Q ′ O O I n − r ) P ′ P ( Q O O I n − r ) = ( Q ′ O O I n − r ) ( Q O O I n − r ) = I n . S'S=\left(\begin{array}{cc} Q' & O \\ O & I_{n-r} \end{array}\right)P'P\left(\begin{array}{cc} Q & O \\ O & I_{n-r} \end{array}\right)=\left(\begin{array}{cc} Q' & O \\ O & I_{n-r} \end{array}\right)\left(\begin{array}{cc} Q & O \\ O & I_{n-r} \end{array}\right)=I_n \ .S′S=(Q′OOIn−r)P′P(QOOIn−r)=(Q′OOIn−r)(QOOIn−r)=In .
即 S ′ S'S′ 为正交矩阵,且使
S ′ A S = S ′ A 1 S + S ′ A 2 S , S'AS=S'A_1S+S'A_2S \ ,S′AS=S′A1S+S′A2S ,
形如
( I s O O O I r − s O O O O ) = ( I s O O O O O O O O ) + ( O O O O I r − s O O O O ) . \left(\begin{array}{ccc} I_s & O & O \\ O & I_{r-s} & O \\ O & O & O \end{array}\right)=\left(\begin{array}{ccc} I_s & O & O \\ O & O & O \\ O & O & O \end{array}\right)+\left(\begin{array}{ccc} O & O & O \\ O & I_{r-s} & O \\ O & O & O \end{array}\right) .⎝⎛IsOOOIr−sOOOO⎠⎞=⎝⎛IsOOOOOOOO⎠⎞+⎝⎛OOOOIr−sOOOO⎠⎞.
作变换 Y = S ′ X Y=S'XY=S′X ,则 Y ∼ N n ( S ′ μ , I n ) Y\sim N_n\left(S'\mu,I_n\right)Y∼Nn(S′μ,In) ,于是
X ′ A X = Y ′ S ′ A S Y = ∑ i = 1 r Y i 2 , X ′ A 1 X = Y ′ S ′ A 1 S Y = ∑ i = 1 s Y i 2 , X ′ A 2 X = Y ′ S ′ A 2 S Y = ∑ i = s + 1 s Y i 2 . \begin{aligned} &X'AX=Y'S'ASY=\sum_{i=1}^rY_i^2 \ , \\ \\ &X'A_1X=Y'S'A_1SY=\sum_{i=1}^sY_i^2 \ , \\ \\ &X'A_2X=Y'S'A_2SY=\sum_{i=s+1}^sY_i^2 \ . \end{aligned}X′AX=Y′S′ASY=i=1∑rYi2 ,X′A1X=Y′S′A1SY=i=1∑sYi2 ,X′A2X=Y′S′A2SY=i=s+1∑sYi2 .
因为 Y 1 , Y 2 , ⋯ , Y n Y_1,Y_2,\cdots,Y_nY1,Y2,⋯,Yn 相互独立,所以 X ′ A 1 X X'A_1XX′A1X 和 X ′ A 2 X X'A_2XX′A2X 相互独立。因为 S ′ A 2 S S'A_2SS′A2S 是对称幂等矩阵,秩为 r − s r-sr−s ,所以
X ′ A 2 X = Y ′ S ′ A 2 S Y ∼ χ 2 ( r − s , λ 2 ) , λ 2 = μ ′ A 2 μ . X'A_2X=Y'S'A_2SY\sim\chi^2(r-s,\lambda_2) \ , \quad \lambda_2=\mu'A_2\mu \ .X′A2X=Y′S′A2SY∼χ2(r−s,λ2) ,λ2=μ′A2μ .
最后有
A 1 A 2 = S ( I s O O O O O O O O ) S ′ S ( O O O O I r − s O O O O ) S ′ = O . A_1A_2=S\left(\begin{array}{ccc} I_s & O & O \\ O & O & O \\ O & O & O \end{array}\right)S'S\left(\begin{array}{ccc} O & O & O \\ O & I_{r-s} & O \\ O & O & O \end{array}\right)S'=O \ .A1A2=S⎝⎛IsOOOOOOOO⎠⎞S′S⎝⎛OOOOIr−sOOOO⎠⎞S′=O .
推论 2.4.7:设 X ∼ N n ( μ , I n ) X\sim N_n(\mu,I_n)X∼Nn(μ,In) ,A 1 A_1A1 和 A 2 A_2A2 为 n × n n\times nn×n 实对称矩阵,X ′ A 1 X X'A_1XX′A1X 和 X ′ A 2 X X'A_2XX′A2X 都服从 χ 2 \chi^2χ2 分布,则 X ′ A 1 X X'A_1XX′A1X 和 X ′ A 2 X X'A_2XX′A2X 相互独立当且仅当 A 1 A 2 = O A_1A_2=OA1A2=O 。
首先证明充分性。设 A 1 A 2 = O A_1A_2=OA1A2=O ,于是 A 2 A 1 = ( A 1 A 2 ) ′ = O A_2A_1=(A_1A_2)'=OA2A1=(A1A2)′=O ,令 A = A 1 + A 2 A=A_1+A_2A=A1+A2 。
由 X ′ A 1 X X'A_1XX′A1X 和 X ′ A 2 X X'A_2XX′A2X 都服从 χ 2 \chi^2χ2 分布知 A 1 A_1A1 和 A 2 A_2A2 都是幂等矩阵,从而有
A 2 = ( A 1 + A 2 ) 2 = A 1 2 + A 2 2 + A 1 A 2 + A 2 A 1 = A 1 + A 2 = A . A^2=(A_1+A_2)^2=A_1^2+A_2^2+A_1A_2+A_2A_1=A_1+A_2=A \ .A2=(A1+A2)2=A12+A22+A1A2+A2A1=A1+A2=A .
所以 A AA 是对称幂等矩阵。由定理 2.4.4 (2) 可知 X ′ A 1 X X'A_1XX′A1X 和 X ′ A 2 X X'A_2XX′A2X 相互独立。然后证明必要性。设 X ′ A 1 X X'A_1XX′A1X 和 X ′ A 2 X X'A_2XX′A2X 相互独立。由 χ 2 \chi^2χ2 分布的可加性知 X ′ A X X'AXX′AX 服从 χ 2 \chi^2χ2 分布。
由定理 2.4.4 (3) 可知 A 1 A 2 = O A_1A_2=OA1A2=O 。
我们可以将上述两个结论中的协方差阵 C o v ( X ) = I n {\rm Cov}(X)=I_nCov(X)=In ,推广到 C o v ( X ) = Σ > 0 {\rm Cov}(X)=\Sigma>0Cov(X)=Σ>0 的情形,即可得到如下两个推论。
推论 2.4.8:设 A AA 为 n × n n\times nn×n 实对称矩阵,X ∼ N n ( μ , Σ ) , Σ > 0 X\sim N_n(\mu,\Sigma),\,\Sigma>0X∼Nn(μ,Σ),Σ>0 ,已知
X ′ A X = X ′ A 1 X + X ′ A 2 X ∼ χ 2 ( r , λ ) , X ′ A 1 X ∼ χ 2 ( s , λ 1 ) , X'AX=X'A_1X+X'A_2X\sim\chi^2(r,\lambda) \ , \quad X'A_1X\sim\chi^2(s,\lambda_1) \ ,X′AX=X′A1X+X′A2X∼χ2(r,λ) ,X′A1X∼χ2(s,λ1) ,
其中 A 2 = A − A 1 ≥ 0 , λ = μ ′ A μ , λ 1 = μ ′ A 1 μ A_2=A-A_1\geq0,\,\lambda=\mu'A\mu,\,\lambda_1=\mu'A_1\muA2=A−A1≥0,λ=μ′Aμ,λ1=μ′A1μ ,则有
(1) X ′ A 2 X ∼ χ 2 ( r − s , λ 2 ) X'A_2X\sim\chi^2(r-s,\lambda_2)X′A2X∼χ2(r−s,λ2) ,其中 λ 2 = μ ′ A 2 μ \lambda_2=\mu'A_2\muλ2=μ′A2μ ;
(2) X ′ A 1 X X'A_1XX′A1X 与 X ′ A 2 X X'A_2XX′A2X 相互独立;
(3) A 1 Σ A 2 = O A_1\Sigma A_2=OA1ΣA2=O 。
推论 2.4.9:设 X ∼ N n ( μ , Σ ) , Σ > 0 X\sim N_n(\mu,\Sigma),\,\Sigma>0X∼Nn(μ,Σ),Σ>0 ,A 1 A_1A1 和 A 2 A_2A2 为 n × n n\times nn×n 实对称矩阵,X ′ A 1 X X'A_1XX′A1X 和 X ′ A 2 X X'A_2XX′A2X 都服从 χ 2 \chi^2χ2 分布,则 X ′ A 1 X X'A_1XX′A1X 和 X ′ A 2 X X'A_2XX′A2X 相互独立当且仅当 A 1 Σ A 2 = O A_1\Sigma A_2=OA1ΣA2=O 。
接下来讨论二次型 X ′ A X X'AXX′AX 和线性型 C X CXCX 的独立性条件,这些结果将主要应用于在线性模型的参数估计和假设检验中。
定理 2.4.5:设 X ∼ N n ( μ , I n ) X\sim N_n(\mu,I_n)X∼Nn(μ,In) ,A AA 为 n × n n\times nn×n 实对称矩阵,C CC 为 m × n m\times nm×n 实矩阵,若 C A = O CA=OCA=O ,则 C X CXCX 与 X ′ A X X'AXX′AX 相互独立。
因为 A AA 为实对称矩阵,所以存在正交阵 Q QQ 使得
A = Q ( Λ O O O ) Q ′ , A=Q\left(\begin{array}{cc} \Lambda & O\\ O & O \end{array}\right)Q' \ ,A=Q(ΛOOO)Q′ ,
其中 Λ = d i a g ( λ 1 , λ 2 , ⋯ , λ r ) \Lambda={\rm diag}(\lambda_1,\lambda_2,\cdots,\lambda_r)Λ=diag(λ1,λ2,⋯,λr) 为 A AA 的非零特征根,r a n k ( A ) = r {\rm rank}(A)=rrank(A)=r 。把 Q QQ 分块成 Q = ( Q 1 Q 2 ) Q=(Q_1 \ \ Q_2 )Q=(Q1 Q2) ,其中 Q 1 Q_1Q1 是 n × r n\times rn×r 矩阵。作正交变换
Y = ( Y 1 Y 2 ) = Q ′ X . Y=\left(\begin{array}{c} Y_1 \\ Y_2 \end{array}\right)=Q'X \ .Y=(Y1Y2)=Q′X .
于是 Y 1 = Q 1 ′ X , Y 2 = Q 2 ′ X Y_1=Q_1'X,\,Y_2=Q_2'XY1=Q1′X,Y2=Q2′X ,且有 Y ∼ N n ( Q ′ μ , I n ) Y\sim N_n\left(Q'\mu,I_n\right)Y∼Nn(Q′μ,In) ,所以
Y 1 ∼ N r ( Q 1 ′ μ , I r ) , Y 2 ∼ N n − r ( Q 2 ′ μ , I n − r ) , Y_1\sim N_r\left(Q_1'\mu,I_r\right) \ , \quad Y_2\sim N_{n-r}\left(Q_2'\mu,I_{n-r}\right) \ ,Y1∼Nr(Q1′μ,Ir) ,Y2∼Nn−r(Q2′μ,In−r) ,
且 Y 1 Y_1Y1 与 Y 2 Y_2Y2 相互独立。注意到
X ′ A X = Y ′ Q ′ A Q Y = Y 1 ′ Λ Y 1 , C X = C Q Y = d e f D Y , D = C Q , \begin{aligned} &X'AX=Y'Q'AQY=Y_1'\Lambda Y_1 \ , \\ \\ &CX=CQY\xlongequal{def}DY \ , \quad D=CQ \ , \end{aligned}X′AX=Y′Q′AQY=Y1′ΛY1 ,CX=CQYdefDY ,D=CQ ,
由于 C A = O CA=OCA=O ,所以
O = C A Q = C Q Q ′ A Q = D Q ′ A Q = D ( Λ O O O ) . O=CAQ=CQQ'AQ=DQ'AQ=D\left(\begin{array}{cc} \Lambda & O \\ O & O \end{array}\right) \ .O=CAQ=CQQ′AQ=DQ′AQ=D(ΛOOO) .
把 D DD 分块成 D = ( D 1 D 2 ) D=(D_1 \ \ D_2)D=(D1 D2) ,其中 D 1 D_1D1 是 m × r m\times rm×r 矩阵,则上式可以推出 D 1 = O D_1=OD1=O ,从而代回得到
C X = D Y = D 2 Y 2 . CX=DY=D_2Y_2 \ .CX=DY=D2Y2 .
再由 Y 1 Y_1Y1 和 Y 2 Y_2Y2 的独立性可知,Y 1 ′ Λ Y 1 Y_1'\Lambda Y_1Y1′ΛY1 和 D Y 2 DY_2DY2 相互独立,从而 C X CXCX 和 X ′ A X X'AXX′AX 相互独立。
将上述结论中的协方差阵 C o v ( X ) = I n {\rm Cov}(X)=I_nCov(X)=In 推广到 C o v ( X ) = Σ > 0 {\rm Cov}(X)=\Sigma>0Cov(X)=Σ>0 的情形,有如下推论。
推论 2.4.10:设 X ∼ N n ( μ , Σ ) , Σ > 0 X\sim N_n(\mu,\Sigma),\,\Sigma>0X∼Nn(μ,Σ),Σ>0 ,A AA 为 n × n n\times nn×n 实对称矩阵,C CC 为 m × n m\times nm×n 实矩阵,若 C Σ A = O C\Sigma A=OCΣA=O ,则 C X CXCX 与 X ′ A X X'AXX′AX 相互独立。
接下来讨论两个二次型 X ′ A X X'AXX′AX 和 X ′ B X X'BXX′BX 的独立性条件。
定理 2.4.6:设 X ∼ N n ( μ , I n ) X\sim N_n(\mu,I_n)X∼Nn(μ,In) ,A AA 和 B BB 均为 n × n n\times nn×n 实对称矩阵,若 A B = O AB=OAB=O ,则 X ′ A X X'AXX′AX 与 X ′ B X X'BXX′BX 相互独立。
由 A AA 和 B BB 的对称性及 A B = O AB=OAB=O 可知 A B = B A = O AB=BA=OAB=BA=O ,即 A B ABAB 可交换。所以可用同一正交矩阵将这两个矩阵对角化,即存在正交矩阵 Q QQ 使得
Q ′ A Q = Λ 1 = d i a g ( λ 1 ( 1 ) , λ 2 ( 1 ) , ⋯ , λ n ( 1 ) ) , Q ′ B Q = Λ 2 = d i a g ( λ 1 ( 2 ) , λ 2 ( 2 ) , ⋯ , λ n ( 2 ) ) . \begin{aligned} &Q'AQ=\Lambda_1={\rm diag}\left(\lambda_1^{(1)},\lambda_2^{(1)},\cdots,\lambda_n^{(1)}\right) \ , \\ \\ &Q'BQ=\Lambda_2={\rm diag}\left(\lambda_1^{(2)},\lambda_2^{(2)},\cdots,\lambda_n^{(2)}\right) \ . \end{aligned}Q′AQ=Λ1=diag(λ1(1),λ2(1),⋯,λn(1)) ,Q′BQ=Λ2=diag(λ1(2),λ2(2),⋯,λn(2)) .
由 A B = O AB=OAB=O ,可推得 Λ 1 Λ 2 = O \Lambda_1\Lambda_2=OΛ1Λ2=O ,即 λ i ( 1 ) \lambda_i^{(1)}λi(1) 和 λ i ( 2 ) \lambda_i^{(2)}λi(2) 至少有一个为 0 00 ,i = 1 , 2 , ⋯ , n i=1,2,\cdots,ni=1,2,⋯,n 。令 Y = Q ′ X Y=Q'XY=Q′X ,则 Y ∼ N n ( Q ′ μ , I n ) Y\sim N_n\left(Q'\mu,I_n\right)Y∼Nn(Q′μ,In) ,于是 Y YY 的所有分量相互独立。另一方面,由于
X ′ A X = Y ′ Q ′ A Q Y = Y ′ Λ 1 Y , X ′ B X = Y ′ Q ′ B Q Y = Y ′ Λ 2 Y , \begin{aligned} X'AX=Y'Q'AQY=Y'\Lambda_1Y \ , \\ \\ X'BX=Y'Q'BQY=Y'\Lambda_2Y \ , \end{aligned}X′AX=Y′Q′AQY=Y′Λ1Y ,X′BX=Y′Q′BQY=Y′Λ2Y ,
所以可知 X ′ A X X'AXX′AX 与 X ′ B X X'BXX′BX 依赖于 Y YY 的不同分量,所以 X ′ A X X'AXX′AX 与 X ′ B X X'BXX′BX 相互独立。
同样的,该定理可以推广到 C o v ( X ) = Σ > 0 {\rm Cov}(X)=\Sigma>0Cov(X)=Σ>0 的情形。
推论 2.4.11:设 X ∼ N n ( μ , Σ ) , Σ > 0 X\sim N_n(\mu,\Sigma),\,\Sigma>0X∼Nn(μ,Σ),Σ>0 ,A AA 和 B BB 均为 n × n n\times nn×n 实对称矩阵,若 A Σ B = O A\Sigma B=OAΣB=O ,则 X ′ A X X'AXX′AX 与 X ′ B X X'BXX′BX 相互独立。
2.5 矩阵微商
设 X = ( x i j ) X=(x_{ij})X=(xij) 是 m × n m\times nm×n 矩阵,y = f ( X ) y=f(X)y=f(X) 为 X XX 的一个实值函数,定义矩阵
∂ y ∂ X = d e f ( ∂ y ∂ x 11 ∂ y ∂ x 12 ⋯ ∂ y ∂ x 1 n ∂ y ∂ x 21 ∂ y ∂ x 22 ⋯ ∂ y ∂ x 2 n ⋮ ⋮ ⋱ ⋮ ∂ y ∂ x m 1 ∂ y ∂ x m 2 ⋯ ∂ y ∂ x m n ) m × n , \frac{\partial y}{\partial X}\xlongequal{def}\left(\begin{array}{cccc} \cfrac{\partial y}{\partial x_{11}} & \cfrac{\partial y}{\partial x_{12}} & \cdots & \cfrac{\partial y}{\partial x_{1n}} \\ \cfrac{\partial y}{\partial x_{21}} & \cfrac{\partial y}{\partial x_{22}} & \cdots & \cfrac{\partial y}{\partial x_{2n}} \\ \vdots &\vdots & \ddots & \vdots \\ \cfrac{\partial y}{\partial x_{m1}} & \cfrac{\partial y}{\partial x_{m2}} & \cdots & \cfrac{\partial y}{\partial x_{mn}} \\ \end{array}\right)_{m\times n} \ ,∂X∂ydef⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎛∂x11∂y∂x21∂y⋮∂xm1∂y∂x12∂y∂x22∂y⋮∂xm2∂y⋯⋯⋱⋯∂x1n∂y∂x2n∂y⋮∂xmn∂y⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎞m×n ,
称为 y yy 对 X XX 的微商。
定理 2.5.1:设 a aa 和 x xx 均为 n nn 维向量,y = a ′ x y=a'xy=a′x ,则有 ∂ y ∂ x = a \cfrac{\partial y}{\partial x}=a∂x∂y=a 。
因为
y = a ′ x = ∑ i = 1 n a i x i , y=a'x=\sum_{i=1}^na_ix_i \ ,y=a′x=i=1∑naixi ,
所以
∂ y ∂ x = ( ∂ y ∂ x 1 ∂ y ∂ x 2 ⋮ ∂ y ∂ x n ) = ( a 1 a 2 ⋮ a n ) = a . \frac{\partial y}{\partial x} =\left(\begin{array}{cccc} \cfrac{\partial y}{\partial x_{1}} \\ \cfrac{\partial y}{\partial x_{2}} \\ \vdots \\ \cfrac{\partial y}{\partial x_{n}} \\ \end{array}\right) =\left(\begin{array}{cccc} a_1 \\ a_2 \\ \vdots \\ a_n \\ \end{array}\right)=a \ .∂x∂y=⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎛∂x1∂y∂x2∂y⋮∂xn∂y⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎛a1a2⋮an⎠⎟⎟⎟⎞=a .
此外可知
∂ x ′ a ∂ x = ∂ y ∂ x = ∂ a ′ x ∂ x = a . \frac{\partial x'a}{\partial x}=\frac{\partial y}{\partial x}=\frac{\partial a'x}{\partial x}=a \ .∂x∂x′a=∂x∂y=∂x∂a′x=a .
定理 2.5.2:设 A AA 为 m × n m\times nm×n 矩阵,x xx 为 n nn 维向量,y = x ′ A x y=x'Axy=x′Ax ,则有 ∂ y ∂ x = A x + A ′ x \cfrac{\partial y}{\partial x}=Ax+A'x∂x∂y=Ax+A′x 。
因为
y = x ′ A x = ∑ i = 1 n ∑ j = 1 n a i j x i x j , y=x'Ax=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_ix_j \ ,y=x′Ax=i=1∑nj=1∑naijxixj ,
所以
∂ y ∂ x 1 = ∑ i = 1 n a i 1 x i + ∑ j = 1 n a 1 j x j , ∂ y ∂ x 2 = ∑ i = 1 n a i 2 x i + ∑ j = 1 n a 2 j x j , ⋮ ∂ y ∂ x n = ∑ i = 1 n a i n x i + ∑ j = 1 n a n j x j . \begin{aligned} \frac{\partial y}{\partial x_1}&=\sum_{i=1}^na_{i1}x_i+\sum_{j=1}^na_{1j}x_j \ , \\ \\ \frac{\partial y}{\partial x_2}&=\sum_{i=1}^na_{i2}x_i+\sum_{j=1}^na_{2j}x_j \ , \\ \\ &\vdots \\ \\ \frac{\partial y}{\partial x_n}&=\sum_{i=1}^na_{in}x_i+\sum_{j=1}^na_{nj}x_j \ . \end{aligned}∂x1∂y∂x2∂y∂xn∂y=i=1∑nai1xi+j=1∑na1jxj ,=i=1∑nai2xi+j=1∑na2jxj ,⋮=i=1∑nainxi+j=1∑nanjxj .
因此可以看出
∂ y ∂ x = ( ∂ y ∂ x 1 ∂ y ∂ x 2 ⋮ ∂ y ∂ x n ) = ( ∑ i = 1 n a i 1 x i + ∑ j = 1 n a 1 j x j ∑ i = 1 n a i 2 x i + ∑ j = 1 n a 2 j x j ⋮ ∑ i = 1 n a i n x i + ∑ j = 1 n a n j x j ) = A x + A ′ x . \frac{\partial y}{\partial x} =\left(\begin{array}{cccc} \cfrac{\partial y}{\partial x_{1}} \\ \cfrac{\partial y}{\partial x_{2}} \\ \vdots \\ \cfrac{\partial y}{\partial x_{n}} \\ \end{array}\right) =\left(\begin{array}{cccc} \sum\limits_{i=1}^na_{i1}x_i+\sum\limits_{j=1}^na_{1j}x_j \\ \sum\limits_{i=1}^na_{i2}x_i+\sum\limits_{j=1}^na_{2j}x_j \\ \vdots \\ \sum\limits_{i=1}^na_{in}x_i+\sum\limits_{j=1}^na_{nj}x_j \\ \end{array}\right)=Ax+A'x \ .∂x∂y=⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎛∂x1∂y∂x2∂y⋮∂xn∂y⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎛i=1∑nai1xi+j=1∑na1jxji=1∑nai2xi+j=1∑na2jxj⋮i=1∑nainxi+j=1∑nanjxj⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎞=Ax+A′x .
此外,若 A AA 为 n × n n\times nn×n 对称矩阵,则
∂ x ′ A x ∂ x = 2 A x . \frac{\partial x'Ax}{\partial x}=2Ax \ .∂x∂x′Ax=2Ax .