投影矩阵 /幂等矩阵
投影矩阵 /幂等矩阵 (idempotent matrix)P \mathbf PP满足P 2 = P P^2=PP2=P,也即P ( I − P ) = 0 P(I-P)=0P(I−P)=0
- 幂等矩阵 P PP 的几何意义:将向量 x \mathbf{x}x 投影至 P PP 的列空间 C ( P ) C(P)C(P)内
而P 2 = P P^2=PP2=P的意义就是“投影两次等效于投影一次” - 投影也分为两类:斜投影(oblique projection) 和 正交投影(额外满足P H = P P^H=PPH=P)
下面先介绍一般投影的特点,然后再介绍正交投影
投影矩阵 /幂等矩阵 的性质
关于特征值和行列式:
- 特征值必为λ = 0 或 1 \lambda=0 或 1λ=0或1(证明:P 2 x = P x P^2\mathbf{x}=P\mathbf{x}P2x=Px,则λ 2 x = λ x \lambda^2\mathbf{x}=\lambda\mathbf{x}λ2x=λx,λ 2 = λ \lambda^2=\lambdaλ2=λ)
①其中,λ = 1 \lambda=1λ=1 的特征子空间为C ( P ) C(P)C(P), λ = 0 \lambda=0λ=0 的特征子空间为N ( P ) N(P)N(P)
② det P = 0 或 1 \det P=0 或 1detP=0或1 - 推论:投影矩阵P PP必然可以相似对角化为d i a g ( 1 , … , 1 , 0 , … , 0 ) \mathrm{diag}(1,\ldots,1,0,\ldots,0)diag(1,…,1,0,…,0)
证明:
因为λ = 1 \lambda=1λ=1 的特征子空间为C ( P ) C(P)C(P), λ = 0 \lambda=0λ=0 的特征子空间为N ( P ) N(P)N(P),而C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P)Cn=C(P)⊕N(P)(后面证明),有充足的无关特征向量,代数重数=几何重数,投影矩阵P PP**必然可以相似对角化
- r a n k ( P ) = t r a c e ( P ) \mathrm{rank}(P)=\mathrm{trace}(P)rank(P)=trace(P)
证明:t r a c e ( P ) = λ 1 + . . . + λ n = 特征值 1 的个数 \mathrm{trace}(P)=\lambda_1+...+\lambda_n=特征值1的个数trace(P)=λ1+...+λn=特征值1的个数
另外,投影矩阵的重要意义是,投影隐含了两个投影矩阵、隐含了空间的直和分解
- ( I − P ) (I-P)(I−P)也是幂等矩阵,几何意义是将向量正交投影至C ( I − P ) C(I-P)C(I−P)
并且 C ( I − P ) C(I-P)C(I−P)与C ( P ) C(P)C(P)互为直和补:C n = C ( P ) ⊕ C ( I − P ) \mathbb C^n=C(P)\oplus C(I-P)Cn=C(P)⊕C(I−P)
如图,任意向量可拆分为投影部分C ( P ) C(P)C(P)和投影的“轨迹”部分C ( I − P ) C(I-P)C(I−P):x = P x + ( I − P ) x \mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x}x=Px+(I−P)x
- N ( P ) = C ( I − P ) N(P)=C(I-P)N(P)=C(I−P), 同理有N ( I − P ) = C ( P ) N(I-P)=C(P)N(I−P)=C(P)
推论:P ( I − P ) = 0 P(I-P)=0P(I−P)=0、( I − P ) P = 0 (I-P)P=0(I−P)P=0
证明:
①若 x ∈ N ( P ) \mathbf{x}\in N(P)x∈N(P),P x = 0 P\mathbf{x}=\mathbf{0}Px=0,故 ( I − P ) x = x − P x = x (I-P)\mathbf{x}=\mathbf{x}-P\mathbf{x}=\mathbf{x}(I−P)x=x−Px=x,亦即 x ∈ C ( I − P ) \mathbf{x}\in C(I-P)x∈C(I−P)
②若x ∈ C ( I − P ) \mathbf{x}\in C(I-P)x∈C(I−P),x = ( I − P ) y \mathbf{x}=(I-P)\mathbf{y}x=(I−P)y,故 P x = P ( I − P ) y = 0 y = 0 P\mathbf{x}=P(I-P)\mathbf{y}=0\mathbf{y}=\mathbf{0}Px=P(I−P)y=0y=0,即 x ∈ N ( P ) \mathbf{x}\in N(P)x∈N(P)
- 推论:每个投影矩阵,唯一对应空间的一个直和分解:C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P)Cn=C(P)⊕N(P)
证明:C n = C ( P ) ⊕ C ( I − P ) \mathbb C^n=C(P)\oplus C(I-P)Cn=C(P)⊕C(I−P),带入 C ( I − P ) = N ( P ) C(I-P)=N(P)C(I−P)=N(P)即可
正交投影矩阵
在此幂等矩阵P 2 = P P^2=PP2=P的基础上,P PP为正交投影矩阵的充要条件是:
- P 2 = P = P H P^2=P=P^HP2=P=PH
为何正交投影要求P H = P P^H=PPH=P?
理解:“垂直投影”即P H ( I − P ) x = 0 P^H(I-P)\mathbf{x}=0PH(I−P)x=0,
这要求P H = P H P P^H=P^HPPH=PHP,又因为( P H P ) H = P H P (P^HP)^H=P^HP(PHP)H=PHP,则P H = P P^H=PPH=P
- P = P H P P=P^H PP=PHP
这是P 2 = P = P H P^2=P=P^HP2=P=PH的等价描述
证明:
若 P 2 = P = P H P^2=P=P^HP2=P=PH,则 P H P = P P = P P^H P=PP=PPHP=PP=P;
若 P = P H P P=P^H PP=PHP,则 P H = P H P = P P^H=P^H P=PPH=PHP=P,且 P = P H P = P P P=P^H P=PPP=PHP=PP。
- 正交投影矩阵P PP的几何意义:“垂直”的投影,i.e. 投影“轨迹”x − P x = ( I − P ) x \mathbf{x}-P\mathbf{x}=(I-P)\mathbf{x}x−Px=(I−P)x必然垂直于C ( P ) C(P)C(P)
正交投影矩阵的性质与一般的投影矩阵相同,主要有以下不同:
- 正交投影矩阵必为 Hermite矩阵、必为 正规矩阵(P H = P P^H=PPH=P,P H P = P P H P^HP=PP^HPHP=PPH)
因此,正交投影矩阵必必有一套正交的特征向量(可酉对角化)、必有实特征值(0和1)、满足A x = λ x ⇒ A H x = λ ˉ x A\mathbf x=\lambda\mathbf x\Rightarrow A^H\mathbf x=\bar\lambda\mathbf xAx=λx⇒AHx=λˉx、奇异值σ 1 , . . . , σ n = ∣ λ 1 ∣ , … , ∣ λ n ∣ \sigma_1,...,\sigma_n=\vert\lambda_1\vert,\ldots,\vert\lambda_n\vertσ1,...,σn=∣λ1∣,…,∣λn∣(特征值的绝对值) - 正交投影矩阵至少为半正定矩阵
原因:正交投影矩阵满足P H = P P^H=PPH=P,且特征值为0和1(特征值≥ 0 \ge 0≥0),故为半正定矩阵 - [将空间分解为C n = X ⊕ X ⊥ \mathbb{C}^n=\mathcal{X}\oplus\mathcal{X}^{\perp}Cn=X⊕X⊥] 唯一对应一个 [正交投影矩阵],反之亦然
向C ( P ) C(P)C(P)做投影,斜投影矩阵有无数个,正交投影矩阵则只有一个(X \mathcal{X}X唯一确定其正交补X ⊥ \mathcal{X}^{\perp}X⊥)
①对于斜投影矩阵P PP,空间被分为C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P)Cn=C(P)⊕N(P),我们说矩阵 P PP 将向量 v \mathbf{v}v 沿着 N ( P ) N(P)N(P) 投影至 C ( P ) C(P)C(P)(N ( P ) N(P)N(P)与C ( P ) C(P)C(P)不一定正交)
②对于正交投影矩阵P PP,空间被分为C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P)Cn=C(P)⊕N(P)(其中N ( P ) = C ( P ) ⊥ N(P)=C(P)^{\perp}N(P)=C(P)⊥ ),我们可以直接说矩阵 P PP 将向量 v \mathbf{v}v (沿着 N ( P ) = C ( P ) ⊥ N(P)=C(P)^{\perp}N(P)=C(P)⊥ )投影至 C ( P ) C(P)C(P)
- 正交投影中实际上隐含了两个正交投影矩阵,也将空间分解为两个正交补
①P PP将向量正交投影至C ( P ) C(P)C(P);( I − P ) (I-P)(I−P)将向量正交投影至C ( I − P ) C(I-P)C(I−P);
②C n = C ( P ) ⊕ C ( I − P ) \mathbb C^n=C(P)\oplus C(I-P)Cn=C(P)⊕C(I−P),且C ( P ) ⊥ = C ( I − P ) C(P)^{\perp}=C(I-P)C(P)⊥=C(I−P)(正交补)
③C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P)Cn=C(P)⊕N(P),且C ( P ) ⊥ = N ( P ) C(P)^{\perp}=N(P)C(P)⊥=N(P)(因为N ( P ) = C ( I − P ) N(P)=C(I-P)N(P)=C(I−P) )
如图,任意向量可拆分为x = P x + ( I − P ) x \mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x}x=Px+(I−P)x, 且 P x ⊥ ( I − P ) x P\mathbf{x}\perp (I-P)\mathbf{x}Px⊥(I−P)x
- 对于任意的x \mathbf{x}x,正交投影矩阵保证∥ P x ∥ ≤ ∥ x ∥ \Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert∥Px∥≤∥x∥
这就是说,正交投影 P x P\mathbf{x}Px 的长度必不大于原向量 x \mathbf{x}x 的长度 - 反过来,任何不会增长向量长度的投影必为正交投影
i.e. 对于投影矩阵P = P 2 P=P^2P=P2,若对任意x \mathbf{x}x有∥ P x ∥ ≤ ∥ x ∥ \Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert∥Px∥≤∥x∥,则P H = P P^H=PPH=P - 两正交投影矩阵 P PP 和 Q QQ 正交(P H Q = P Q = 0 P^HQ=PQ=0PHQ=PQ=0),则
①它们所投影到的空间也正交(C ( P ) C(P)C(P)与C ( Q ) C(Q)C(Q)正交)
②进而有Q = I − P Q=I-PQ=I−P
证明:
若 P H Q = 0 P^HQ=0PHQ=0 且 x ∈ C ( P ) \mathbf{x}\in C(P)x∈C(P),y ∈ C ( Q ) \mathbf{y}\in C(Q)y∈C(Q),则x H y = ( P x ) H ( Q y ) = x H P H Q y = 0 \mathbf{x}^{H}\mathbf{y}=(P\mathbf{x})^{H}(Q\mathbf{y})=\mathbf{x}^{H}P^{H}Q\mathbf{y}=0xHy=(Px)H(Qy)=xHPHQy=0
若 C ( P ) ⊥ C ( Q ) C(P)\perp C(Q)C(P)⊥C(Q),则对于Q x ∈ C ( Q ) ⊆ C ( P ) ⊥ Q\mathbf{x}\in C(Q)\subseteq C(P)^{\perp}Qx∈C(Q)⊆C(P)⊥,有P H ( Q x ) = 0 P^H(Q\mathbf{x})=\mathbf{0}PH(Qx)=0,即P H Q = 0 P^HQ=0PHQ=0
如何求向C ( A ) C(A)C(A)做正交投影的正交投影矩阵
给出列满秩矩阵A AA(列向量线性无关),我们希望向列空间C ( A ) C(A)C(A)做正交投影
对应的正交投影矩阵就是P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^TP=A(ATA)−1AT,可以验证P 2 = P = P T P^2=P=P^TP2=P=PT、C ( P ) = C ( A ) C(P)=C(A)C(P)=C(A)
说明:
①再次强调前提:rank A = n \hbox{rank}A=nrankA=n,此时才有A T A A^TAATA可逆
②注意,其中( A T A ) − 1 A T (A^TA)^{-1}A^T(ATA)−1AT就是A AA的左逆A l e f t − 1 A_{left}^{-1}Aleft−1
③P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^TP=A(ATA)−1AT中左侧先出现因子A AA,这保证了C ( P ) = C ( A ) C(P)=C(A)C(P)=C(A)
推导过程:线代胶囊──正交投影矩阵
- 假如A AA的列向量是正交化的,公式得到简化:
将QR分解A = Q R A=QRA=QR带入P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^TP=A(ATA)−1AT,化简得到P = Q Q T P=QQ^TP=QQT
另外,如果P = Q Q T = [ q 1 T ⋮ q k T ] [ q 1 ⋯ q k ] = q 1 q 1 T + ⋯ + q k q k T P=QQ^{T}=\begin{bmatrix} \mathbf{q}_1^T\\ \vdots\\ \mathbf{q}_k^T \end{bmatrix}\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_k \end{bmatrix}=\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T}P=QQT=q1T⋮qkT[q1⋯qk]=q1q1T+⋯+qkqkT
那么向量x \mathbf xx的投影容易计算:P x = ( q 1 q 1 T + ⋯ + q k q k T ) x = ( q 1 T x ) q 1 + ⋯ + ( q k T x ) q k P\mathbf{x}=(\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T})\mathbf{x}=(\mathbf{q}_1^T\mathbf{x})\mathbf{q}_1+\cdots+(\mathbf{q}_k^T\mathbf{x})\mathbf{q}_kPx=(q1q1T+⋯+qkqkT)x=(q1Tx)q1+⋯+(qkTx)qk
- 注意,这里的正交投影矩阵 P PP 是唯一的:
即使A AA的列向量改变,只要C ( A ) C(A)C(A)仍不变、A AA仍列满秩,则A AA仍不变 - 当A AA为一个向量a \mathbf{a}a,正交投影矩阵退化为P = a ( a T a ) − 1 a T = a a T a T a \displaystyle P=\mathbf{a}(\mathbf{a}^T\mathbf{a})^{-1}\mathbf{a}^T=\frac{\mathbf{a}\mathbf{a}^T}{\mathbf{a}^T\mathbf{a}}P=a(aTa)−1aT=aTaaaT
reference:
直和与投影(前置知识)
特殊矩阵 (5):幂等矩阵
线代胶囊──正交投影矩阵
正交投影矩阵的性质与界定
从线性变换解释最小平方近似(正交投影的应用:最小二乘法)