矩阵理论| 特殊矩阵：幂等矩阵、投影、正交投影

投影矩阵 /幂等矩阵

投影矩阵 /幂等矩阵（idempotent matrix） $\mathbf P$ 满足 $P^2=P$ ，也即 $P (I - P) = 0$

幂等矩阵 $P$ 的几何意义：将向量 $\mathbf{x}$ 投影至 $P$ 的列空间 $C (P)$ 内
而 $P^2=P$ 的意义就是“投影两次等效于投影一次”
投影也分为两类：斜投影(oblique projection) 和 正交投影（额外满足 $P^H=P$ ）

下面先介绍一般投影的特点，然后再介绍正交投影

投影矩阵 /幂等矩阵的性质

关于特征值和行列式：

特征值必为 $\lambda=0 或 1$ （证明： $P^2\mathbf{x}=P\mathbf{x}$ ，则 $\lambda^2\mathbf{x}=\lambda\mathbf{x}$ ， $\lambda^2=\lambda$ ）
①其中， $\lambda=1$ 的特征子空间为 $C (P)$ ， $\lambda=0$ 的特征子空间为 $N (P)$
② $\det P=0 或 1$
推论：投影矩阵 $P$ 必然可以相似对角化为 $\mathrm{diag}(1,\ldots,1,0,\ldots,0)$

证明：
因为 $\lambda=1$ 的特征子空间为 $C (P)$ ， $\lambda=0$ 的特征子空间为 $N (P)$ ，而 $\mathbb C^n=C(P)\oplus N(P)$ （后面证明），有充足的无关特征向量，代数重数=几何重数，投影矩阵 $P$ **必然可以相似对角化

$\mathrm{rank}(P)=\mathrm{trace}(P)$

证明： $\mathrm{trace}(P)=\lambda_1+...+\lambda_n=特征值1的个数$

另外，投影矩阵的重要意义是，投影隐含了两个投影矩阵、隐含了空间的直和分解

$(I - P)$ 也是幂等矩阵，几何意义是将向量正交投影至 $C (I - P)$
并且 $C (I - P)$ 与 $C (P)$ 互为直和补： $\mathbb C^n=C(P)\oplus C(I-P)$

如图，任意向量可拆分为投影部分 $C (P)$ 和投影的“轨迹”部分 $C (I - P)$ ： $\mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x}$

$N (P) = C (I - P)$ ，同理有 $N (I - P) = C (P)$
推论： $P (I - P) = 0$ 、 $(I - P) P = 0$

证明：
①若 $\mathbf{x}\in N(P)$ ， $P\mathbf{x}=\mathbf{0}$ ，故 $(I-P)\mathbf{x}=\mathbf{x}-P\mathbf{x}=\mathbf{x}$ ，亦即 $\mathbf{x}\in C(I-P)$
②若 $\mathbf{x}\in C(I-P)$ ， $\mathbf{x}=(I-P)\mathbf{y}$ ，故 $P\mathbf{x}=P(I-P)\mathbf{y}=0\mathbf{y}=\mathbf{0}$ ，即 $\mathbf{x}\in N(P)$

推论：每个投影矩阵，唯一对应空间的一个直和分解： $\mathbb C^n=C(P)\oplus N(P)$

证明： $\mathbb C^n=C(P)\oplus C(I-P)$ ，带入 $C (I - P) = N (P)$ 即可

正交投影矩阵

在此幂等矩阵 $P^2=P$ 的基础上， $P$ 为正交投影矩阵的充要条件是：

$P^2=P=P^H$

为何正交投影要求 $P^H=P$ ？
理解：“垂直投影”即 $P^H(I-P)\mathbf{x}=0$ ，
这要求 $P^H=P^HP$ ，又因为 $P^HP)^H=P^HP$ ，则 $P^H=P$

$P=P^H P$

这是 $P^2=P=P^H$ 的等价描述
证明：
若 $P^2=P=P^H$ ，则 $P^H P=PP=P$ ;
若 $P=P^H P$ ，则 $P^H=P^H P=P$ ，且 $P=P^H P=PP$ 。

正交投影矩阵 $P$ 的几何意义：“垂直”的投影，i.e. 投影“轨迹” $\mathbf{x}-P\mathbf{x}=(I-P)\mathbf{x}$ 必然垂直于 $C (P)$

正交投影矩阵的性质与一般的投影矩阵相同，主要有以下不同：

正交投影矩阵必为 Hermite矩阵、必为 正规矩阵（ $P^H=P$ ， $P^HP=PP^H$ ）
因此，正交投影矩阵必必有一套正交的特征向量（可酉对角化）、必有实特征值（0和1）、满足 $A\mathbf x=\lambda\mathbf x\Rightarrow A^H\mathbf x=\bar\lambda\mathbf x$ 、奇异值 $\sigma_1,...,\sigma_n=\vert\lambda_1\vert,\ldots,\vert\lambda_n\vert$ （特征值的绝对值）
正交投影矩阵至少为半正定矩阵
原因：正交投影矩阵满足 $P^H=P$ ，且特征值为0和1（特征值 $\ge 0$ ），故为半正定矩阵
[将空间分解为 $\mathbb{C}^n=\mathcal{X}\oplus\mathcal{X}^{\perp}$ ] 唯一对应一个 [正交投影矩阵]，反之亦然

向 $C (P)$ 做投影，斜投影矩阵有无数个，正交投影矩阵则只有一个（ $\mathcal{X}$ 唯一确定其正交补 $\mathcal{X}^{\perp}$ ）
①对于斜投影矩阵 $P$ ，空间被分为 $\mathbb C^n=C(P)\oplus N(P)$ ，我们说矩阵 $P$ 将向量 $\mathbf{v}$ 沿着 $N (P)$ 投影至 $C (P)$ （ $N (P)$ 与 $C (P)$ 不一定正交）
②对于正交投影矩阵 $P$ ，空间被分为 $\mathbb C^n=C(P)\oplus N(P)$ （其中 $N(P)=C(P)^{\perp}$ ），我们可以直接说矩阵 $P$ 将向量 $\mathbf{v}$ （沿着 $N(P)=C(P)^{\perp}$ ）投影至 $C (P)$

正交投影中实际上隐含了两个正交投影矩阵，也将空间分解为两个正交补
① $P$ 将向量正交投影至 $C (P)$ ； $(I - P)$ 将向量正交投影至 $C (I - P)$ ；
② $\mathbb C^n=C(P)\oplus C(I-P)$ ，且 $C(P)^{\perp}=C(I-P)$ （正交补）
③ $\mathbb C^n=C(P)\oplus N(P)$ ，且 $C(P)^{\perp}=N(P)$ （因为 $N (P) = C (I - P)$ ）

如图，任意向量可拆分为 $\mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x}$ ，且 $P\mathbf{x}\perp (I-P)\mathbf{x}$

对于任意的 $\mathbf{x}$ ，正交投影矩阵保证 $\Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert$
这就是说，正交投影 $P\mathbf{x}$ 的长度必不大于原向量 $\mathbf{x}$ 的长度
反过来，任何不会增长向量长度的投影必为正交投影
i.e. 对于投影矩阵 $P=P^2$ ，若对任意 $\mathbf{x}$ 有 $\Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert$ ，则 $P^H=P$
两正交投影矩阵 $P$ 和 $Q$ 正交（ $P^HQ=PQ=0$ ），则
①它们所投影到的空间也正交（ $C (P)$ 与 $C (Q)$ 正交）
②进而有 $Q = I - P$

证明：
若 $P^HQ=0$ 且 $\mathbf{x}\in C(P)$ ， $\mathbf{y}\in C(Q)$ ，则 $\mathbf{x}^{H}\mathbf{y}=(P\mathbf{x})^{H}(Q\mathbf{y})=\mathbf{x}^{H}P^{H}Q\mathbf{y}=0$
若 $C(P)\perp C(Q)$ ，则对于 $Q\mathbf{x}\in C(Q)\subseteq C(P)^{\perp}$ ，有 $P^H(Q\mathbf{x})=\mathbf{0}$ ，即 $P^HQ=0$

如何求向 $C (A)$ 做正交投影的正交投影矩阵

给出列满秩矩阵 $A$ （列向量线性无关），我们希望向列空间 $C (A)$ 做正交投影
对应的正交投影矩阵就是 $P=A(A^TA)^{-1}A^T$ ，可以验证 $P^2=P=P^T$ 、 $C (P) = C (A)$

说明：
①再次强调前提： $\hbox{rank}A=n$ ，此时才有 $A^TA$ 可逆
②注意，其中 $A^TA)^{-1}A^T$ 就是 $A$ 的左逆 $A_{left}^{-1}$
③ $P=A(A^TA)^{-1}A^T$ 中左侧先出现因子 $A$ ，这保证了 $C (P) = C (A)$
推导过程：线代胶囊──正交投影矩阵

假如 $A$ 的列向量是正交化的，公式得到简化：
将QR分解 $A = QR$ 带入 $P=A(A^TA)^{-1}A^T$ ，化简得到 $P=QQ^T$

另外，如果 $P=QQ^{T}=\begin{bmatrix} \mathbf{q}_1^T\\ \vdots\\ \mathbf{q}_k^T \end{bmatrix}\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_k \end{bmatrix}=\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T}$
那么向量 $\mathbf x$ 的投影容易计算： $P\mathbf{x}=(\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T})\mathbf{x}=(\mathbf{q}_1^T\mathbf{x})\mathbf{q}_1+\cdots+(\mathbf{q}_k^T\mathbf{x})\mathbf{q}_k$

注意，这里的正交投影矩阵 $P$ 是唯一的：
即使 $A$ 的列向量改变，只要 $C (A)$ 仍不变、 $A$ 仍列满秩，则 $A$ 仍不变
当 $A$ 为一个向量 $\mathbf{a}$ ，正交投影矩阵退化为 $\displaystyle P=\mathbf{a}(\mathbf{a}^T\mathbf{a})^{-1}\mathbf{a}^T=\frac{\mathbf{a}\mathbf{a}^T}{\mathbf{a}^T\mathbf{a}}$

reference：
直和与投影（前置知识）
特殊矩阵（5）：幂等矩阵
 线代胶囊──正交投影矩阵
 正交投影矩阵的性质与界定
 从线性变换解释最小平方近似（正交投影的应用：最小二乘法）

原文链接：https://blog.csdn.net/Insomnia_X/article/details/128957936

投影矩阵 /幂等矩阵

投影矩阵 /幂等矩阵 的性质

正交投影矩阵

如何求向C ( A ) C(A)C(A)做正交投影的正交投影矩阵

投影矩阵 /幂等矩阵的性质

如何求向 $C (A)$ 做正交投影的正交投影矩阵