可逆矩阵
A ⋅ A − 1 = A − 1 ⋅ A = E A\cdot A^{-1}=A^{-1}\cdot A = EA⋅A−1=A−1⋅A=E
矩阵的几何意义是对一组向量进行变换,包括方向和模长的变化。而逆矩阵表示对其进行逆变化。
矩阵的特征值的和等于矩阵的迹
正交矩阵
正交矩阵满足
A T ⋅ A = E A^{T}\cdot A = EAT⋅A=E,可得A T = A − 1 A^{T}=A^{-1}AT=A−1,因此
A T ⋅ A = A ⋅ A T = E A^{T}\cdot A=A\cdot A^{T}=EAT⋅A=A⋅AT=E
正交矩阵的列向量都是单位向量,且两两正交。对于行向量也是如此。
例如正交矩阵:
[ c o s ( θ ) − s i n ( θ ) s i n ( θ ) c o s ( θ ) ] \left[ \begin{matrix} cos(\theta) & -sin(\theta) \\ sin(\theta) & cos(\theta) \end{matrix} \right][cos(θ)sin(θ)−sin(θ)cos(θ)]
其转置矩阵,同时也是其逆阵
[ c o s ( θ ) − s i n ( θ ) − s i n ( θ ) c o s ( θ ) ] \left[ \begin{matrix} cos(\theta) & -sin(\theta) \\ -sin(\theta) & cos(\theta) \end{matrix} \right][cos(θ)−sin(θ)−sin(θ)cos(θ)]
对于一个方阵A AA,若其列向量相互垂直且模长为1,则A AA为正交阵
实对称矩阵和正定矩阵
首先看正定矩阵的定义:
对于任意非零的向量x xx,和一个对称矩阵A AA,如果有
x T A x > 0 x^{T}Ax>0xTAx>0
则称矩阵A AA是正定矩阵。正定矩阵的含义是:一个向量经过矩阵A AA的变换后,和自身的点积大于0。也就是说,正定矩阵对应的变换不会把变换后的向量变到向量本身所垂直的平面的另一侧。具体到2维的例子就是,怎么变,变换后的向量和自身的夹角都不会大于 90 ° 90\degree90°
- 正定矩阵一定是对称阵
- 对称阵不一定是正定矩阵,例如0矩阵
- 对称阵A AA为正定的充分必要条件是:A的特征值全为正
- 协方差阵是实对称矩阵,可以证明其为半正定矩阵
向量组等价
两个向量组可以互相线性表出,即是第一个向量组中的每个向量都能表示成第二个向量组的向量的线性组合,且第二个向量组中的每个向量都能表示成第一二个向量组的向量的线性组合。
相似矩阵与对角化
设A , B A, BA,B都是n nn阶矩阵,若有可逆矩阵P PP,使
P − 1 A P = B P^{-1}AP=BP−1AP=B
则称A AA与B BB相似。
相似矩阵的几何意义如下:
假设一个矩阵C CC,则:
C B = C P − 1 A P \begin{aligned} CB=CP^{-1}AP \end{aligned}CB=CP−1AP
从上式可以看出,使用B BB对C CC进行变化,等价于先对C CC进行换基,然后进行A AA变化,最后再次进行换基。相似矩阵是在两个不同的基上,对矩阵C CC进行相同的变化
对n nn阶矩阵A AA,寻求相似变换矩阵P PP使P − 1 A P = Λ P^{-1}AP=\LambdaP−1AP=Λ
其中,Λ \LambdaΛ为对角阵,这就称为矩阵A AA的对角化。
若A AA为实对称,则一定可以对角化
证明参看(实)对称矩阵的相似,对角化,正定,特征值等性质的部分汇总及证明:对称阵A AA可以对角化是因为:对于A AA中的任意特征值λ 1 \lambda_{1}λ1,满足其代数重数等于其几何重数,这使得上述特征值分解内容中的X XX中的向量线性无关,即∣ X ∣ ≠ 0 |X|\neq0∣X∣=0,因此可以写成
A X = X ⋅ Λ ⇒ Λ = X − 1 A X AX =X\cdot \Lambda \Rightarrow \Lambda=X^{-1}AXAX=X⋅Λ⇒Λ=X−1AX
对X XX进行施密特正交化,(参看如何理解施密特(Schmidt)正交化),将X XX变为正交阵P PP,其中X XX和P PP是可以相互表示的(参看矩阵等价的几何意义),即存在一个可逆矩阵D DD满足
X = P D − 1 X = PD^{-1}X=PD−1
因此P T A P = P − 1 A P = Λ P^{T}AP=P^{-1}AP=\LambdaPTAP=P−1AP=Λ
其中Λ \LambdaΛ是以A AA的特征值为对角元的对角阵。
特征值分解
对于方阵A n , n A_{n,n}An,n,假设其有n nn个特征值和特征向量,特征值分别为λ 1 , λ 2 , λ 3 ⋯ λ n {\lambda}_{1},{\lambda}_{2},{\lambda}_{3}\cdots{\lambda}_{n}λ1,λ2,λ3⋯λn ,特征向量分别为x 1 , x 2 , x 3 , ⋯ , x n x_{1},x_{2}, x_{3},\cdots,x_{n}x1,x2,x3,⋯,xn,因为A n , n A_{n,n}An,n是一个普通方阵,因此λ 1 , λ 2 , λ 3 ⋯ λ n {\lambda}_{1},{\lambda}_{2},{\lambda}_{3}\cdots{\lambda}_{n}λ1,λ2,λ3⋯λn可能出现重复的多个值,其满足如下所示:
A ⋅ x 1 = λ 1 ⋅ x 1 A ⋅ x 2 = λ 1 ⋅ x 2 A ⋅ x 3 = λ 1 ⋅ x 3 ⋮ A ⋅ x n = λ 1 ⋅ x n A\cdot x_{1}={\lambda}_{1}\cdot x_{1} \\ A\cdot x_{2}={\lambda}_{1}\cdot x_{2} \\ A\cdot x_{3}={\lambda}_{1}\cdot x_{3} \\ \vdots \\ A\cdot x_{n}={\lambda}_{1}\cdot x_{n}A⋅x1=λ1⋅x1A⋅x2=λ1⋅x2A⋅x3=λ1⋅x3⋮A⋅xn=λ1⋅xn
将这些方程组合到一起为:
A ⋅ X = A ⋅ [ x 1 , x 2 , x 3 , ⋯ , x n ] = [ A ⋅ x 1 , A ⋅ x 2 , A ⋅ x 3 , ⋯ , A ⋅ x n ] = [ λ 1 ⋅ x 1 , λ 2 ⋅ x 2 , λ 3 ⋅ x 3 , ⋯ , λ n ⋅ x n ] = [ x 1 , x 2 , x 3 , ⋯ , x n ] ⋅ [ λ 1 0 0 ⋯ 0 0 λ 2 0 ⋯ 0 0 0 λ 3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ 0 0 0 0 ⋯ λ n ] = X ⋅ Λ \begin{aligned} A\cdot X &= A\cdot [x_{1}, x_{2}, x_{3}, \cdots , x_{n}] \\ &=[A\cdot x_{1}, A\cdot x_{2}, A\cdot x_{3}, \cdots, A\cdot x_{n}] \\ &=[{\lambda}_{1}\cdot x_{1}, {\lambda}_{2}\cdot x_{2}, {\lambda}_{3}\cdot x_{3}, \cdots, {\lambda}_{n}\cdot x_{n}] \\ &=[x_{1}, x_{2}, x_{3}, \cdots, x_{n}] \cdot \left[ \begin{matrix} {\lambda}_{1} & 0 & 0 & \cdots & 0\\ 0 & {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 &{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & {\lambda}_{n} \\ \end{matrix} \right] \\ &=X\cdot \Lambda \end{aligned}A⋅X=A⋅[x1,x2,x3,⋯,xn]=[A⋅x1,A⋅x2,A⋅x3,⋯,A⋅xn]=[λ1⋅x1,λ2⋅x2,λ3⋅x3,⋯,λn⋅xn]=[x1,x2,x3,⋯,xn]⋅⎣⎢⎢⎢⎢⎢⎡λ100⋮00λ20⋮000λ3⋮0⋯⋯⋯⋱⋯0000λn⎦⎥⎥⎥⎥⎥⎤=X⋅Λ
然而因为∣ X ∣ |X|∣X∣的值可能为0,即X − 1 X^{-1}X−1可能不存在,因此不可以写成如下形式。
A = X ⋅ Λ ⋅ X − 1 A =X\cdot \Lambda \cdot X^{-1}A=X⋅Λ⋅X−1
如果A AA是对称阵,则X XX中的列向量将线性无关,因此X XX是可逆矩阵,可以写成如下所示:
A = X ⋅ Λ ⋅ X − 1 A =X\cdot \Lambda \cdot X^{-1}A=X⋅Λ⋅X−1
对于上式而言,其中Λ \LambdaΛ是以A AA的特征值为对角元的对角阵,X XX是特征值对应的特征向量,且特征向量互相正交。
对于实对称阵的特征向量,是一个基础解析
- 如果某个特征值的代数重数和几何重数相同,也就是其基础解析之间是互相线性无关且相互垂直的。因此对于X XX中的特征向量选择的时候,使得其模长为1
由此可得
X T ⋅ X = E X^{T}\cdot X =EXT⋅X=E
X T = X − 1 X^{T}=X^{-1}XT=X−1
故可得出,X XX为酉矩阵
因此
A = X ⋅ Λ ⋅ X − 1 = X ⋅ Λ ⋅ X T A =X\cdot \Lambda \cdot X^{-1}=X\cdot \Lambda \cdot X^{T}A=X⋅Λ⋅X−1=X⋅Λ⋅XT
进一步地:
Λ = X − 1 ⋅ A ⋅ X = X T ⋅ A ⋅ X \Lambda =X^{-1} \cdot A \cdot X=X^{T} \cdot A \cdot XΛ=X−1⋅A⋅X=XT⋅A⋅X
实现了对称阵A AA的对角化。
- 施密特正交化:(参看如何理解施密特(Schmidt)正交化)
- 矩阵等价的意义: 矩阵等价的几何意义
特征值分解的几何意义:将特征值分解为正交阵× \times× 对角阵× \times×正交阵,即A = X ⋅ Λ ⋅ X − 1 = X ⋅ Λ ⋅ X T A =X\cdot \Lambda \cdot X^{-1}=X\cdot \Lambda \cdot X^{T}A=X⋅Λ⋅X−1=X⋅Λ⋅XT。其意义为将矩阵A对矩阵的变换,等价为旋转、伸缩、旋转这三个变化。
特征值分解也叫谱分解,其计算过程如下所示:
参看谱分解
有上述计算过程可以看出,对特征向量进行施密特正交化后的矩阵,等价于直接将特征向量进行归一化。
奇异值分解
参看奇异值分解(SVD)
奇异值分解的揭秘(一):矩阵的奇异值分解过程
对于矩阵A m , n A_{m,n}Am,n来说,其形状为( m , n ) (m,n)(m,n),假设n < m n<mn<m,即行大于列,秩为k kk,则k < n < m k<n<mk<n<m。
那么对于A T A A^{T}AATA来说,其形状为( n , n ) (n,n)(n,n)假设v i v_{i}vi为其特征向量,λ i \lambda_{i}λi为其特征值,因此满足:
v i T v i = 1 v_{i}^{T}v_{i}=1viTvi=1
A T A v i = λ i v i A^{T}Av_{i}=\lambda_{i}v_{i}ATAvi=λivi
若V = [ v 1 , v 2 , ⋯ , v n ] V=[v_{1},v_{2},\cdots, v_{n}]V=[v1,v2,⋯,vn],V VV的形状为( n , n ) (n,n)(n,n),则
A T A V = V Λ A^{T}AV=V\LambdaATAV=VΛ
使用A AA对向量V VV进行变化,如下:
A V = A [ v 1 , v 2 , ⋯ , v n ] = [ A v 1 , A v 2 , ⋯ , A v n ] AV=A[v_{1},v_{2},\cdots, v_{n}]=[Av_{1},Av_{2},\cdots, Av_{n}]AV=A[v1,v2,⋯,vn]=[Av1,Av2,⋯,Avn]
则变化后的[ A v 1 , A v 2 , ⋯ , A v n ] [Av_{1},Av_{2},\cdots, Av_{n}][Av1,Av2,⋯,Avn],对其进行如下处理( A v i ) T ( A v j ) = v i T A T A v j = v i T λ j v j = 0 (Av_{i})^{T}(Av_{j})=v_{i}^{T}A^{T}Av_{j}=v_{i}^{T}\lambda_{j}v_{j}=0(Avi)T(Avj)=viTATAvj=viTλjvj=0
即,变化后的方阵的列向量,互相正交。
另外∣ A v i ∣ = ( A v i ) T ( A v i ) = v i T A T A v i = v i T λ i v i = λ i |Av_{i}|=\sqrt{(Av_{i})^{T}(Av_{i})}=\sqrt{v_{i}^{T}A^{T}Av_{i}}=\sqrt{v_{i}^{T}\lambda_{i} v_{i}}=\sqrt{\lambda_{i}}∣Avi∣=(Avi)T(Avi)=viTATAvi=viTλivi=λi
令u i = A v i λ i u_{i}=\frac{Av_{i}}{\sqrt{\lambda_{i}}}ui=λiAvi
可以看出,u i u_{i}ui是一个列向量,其形状为( m , 1 ) (m,1)(m,1),则U = [ u 1 , u 2 , ⋯ , u n ] = [ A v 1 λ 1 , A v 2 λ 2 , , ⋯ , A v n λ n , ] U=[u_{1},u_{2},\cdots,u_{n}]=[\frac{Av_{1}}{ \sqrt{\lambda_{1}}},\frac{Av_{2}}{ \sqrt{\lambda_{2}}},,\cdots, \frac{Av_{n}}{ \sqrt{\lambda_{n}}},]U=[u1,u2,⋯,un]=[λ1Av1,λ2Av2,,⋯,λnAvn,]
因此,U UU的形状为( m , n ) (m,n)(m,n)。其列向量是互相正交的单位向量。
下面来讨论U UU中的向量的特点:
u i = A v i λ i λ i u i = A v i A T A v i = λ i v i A A T A v i = A λ i v i A A T λ i u i = λ i λ i u i A A T u i = λ i u i \begin{aligned} u_{i}&=\frac{Av_{i}}{\sqrt{\lambda_{i}}} \\ \sqrt{\lambda_{i}} u_{i}&=Av_{i} \\ A^{T}Av_{i}&=\lambda_{i}v_{i} \\ AA^{T}Av_{i}&=A\lambda_{i}v_{i} \\ AA^{T}\sqrt{\lambda_{i}} u_{i}&=\lambda_{i}\sqrt{\lambda_{i}} u_{i} \\ AA^{T} u_{i}&=\lambda_{i} u_{i} \\ \end{aligned}uiλiuiATAviAATAviAATλiuiAATui=λiAvi=Avi=λivi=Aλivi=λiλiui=λiui
由此可以看出u i u_{i}ui是A A T AA^{T}AAT的特征向量,λ i \lambda_{i}λi是特征值
另外,对于
A V = A [ v 1 , v 2 , ⋯ , v n ] = [ A v 1 , A v 2 , ⋯ , A v n ] = [ λ 1 u 1 , λ 2 u 2 , ⋯ , λ n u n ] = [ u 1 , u 2 , ⋯ , u n ] [ λ 1 0 0 ⋯ 0 0 λ 2 0 ⋯ 0 0 0 λ 3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ 0 0 0 0 ⋯ λ n ] = [ u 1 , u 2 , ⋯ , u n , ∣ u n + 1 , u n + 2 , ⋯ u m ] [ λ 1 0 0 ⋯ 0 0 λ 2 0 ⋯ 0 0 0 λ 3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ 0 0 0 0 ⋯ λ n 0 0 0 0 0 ⋮ ⋮ ⋮ ⋮ ⋮ 0 0 0 0 0 ] = U Σ \begin{aligned} AV&=A[v_{1},v_{2},\cdots, v_{n}] \\ &=[Av_{1},Av_{2},\cdots, Av_{n}] \\ &=[\sqrt{\lambda_{1}} u_{1}, \sqrt{\lambda_{2}} u_{2}, \cdots, \sqrt{\lambda_{n}} u_{n}] \\ &=[u_{1}, u_{2}, \cdots, u_{n}] \left[ \begin{matrix} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0\\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \end{matrix} \right] \\ &=[u_{1}, u_{2}, \cdots, u_{n}, | u_{n+1}, u_{n+2}, \cdots u_{m}] \left[ \begin{array}{ccccc} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0 \\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \hline 0&0&0&0&0 \\ \vdots&\vdots&\vdots&\vdots&\vdots& \\ 0&0&0&0&0 \\ \end{array} \right] \\ &=U\Sigma \end{aligned} \\AV=A[v1,v2,⋯,vn]=[Av1,Av2,⋯,Avn]=[λ1u1,λ2u2,⋯,λnun]=[u1,u2,⋯,un]⎣⎢⎢⎢⎢⎢⎡λ100⋮00λ20⋮000λ3⋮0⋯⋯⋯⋱⋯0000λn⎦⎥⎥⎥⎥⎥⎤=[u1,u2,⋯,un,∣un+1,un+2,⋯um]⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎡λ100⋮00⋮00λ20⋮00⋮000λ3⋮00⋮0⋯⋯⋯⋱⋯0⋮00000λn0⋮0⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎤=UΣ
其中U = [ u 1 , u 2 , ⋯ , u n , ∣ u n + 1 , u n + 2 , ⋯ u m ] U=[u_{1}, u_{2}, \cdots, u_{n}, | u_{n+1}, u_{n+2}, \cdots u_{m}]U=[u1,u2,⋯,un,∣un+1,un+2,⋯um]
Σ = λ 1 0 0 ⋯ 0 0 λ 2 0 ⋯ 0 0 0 λ 3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ 0 0 0 0 ⋯ λ n 0 0 0 0 0 ⋮ ⋮ ⋮ ⋮ ⋮ 0 0 0 0 0 \Sigma= \begin{array}{ccccc} \sqrt {\lambda}_{1} & 0 & 0 & \cdots & 0 \\ 0 &\sqrt {\lambda}_{2} & 0 & \cdots & 0 \\ 0 & 0 & \sqrt{\lambda}_{3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & 0 \\ 0 & 0 & 0 & \cdots & \sqrt{\lambda}_{n} \\ \hline 0&0&0&0&0 \\ \vdots&\vdots&\vdots&\vdots&\vdots& \\ 0&0&0&0&0 \\ \end{array}Σ=λ100⋮00⋮00λ20⋮00⋮000λ3⋮00⋮0⋯⋯⋯⋱⋯0⋮00000λn0⋮0
其中U UU的形状为( m , n ) (m,n)(m,n),Σ \SigmaΣ的形状也是( m , n ) (m,n)(m,n)
因为U UU的前n nn个列向量是A A T AA^{T}AAT的特征向量,因此对于后添加进去的[ u n + 1 , u n + 2 , ⋯ u m ] [u_{n+1}, u_{n+2}, \cdots u_{m}][un+1,un+2,⋯um],并无特殊要求,也可以取为A A T AA^{T}AAT的特征向量,因此整个矩阵U UU即是矩阵A A T AA^{T}AAT的特征向量集合。又因为A A T AA^{T}AAT是对称阵,因此U UU是正交阵。同时,V VV也是正交阵。
A V = U Σ A = U Σ V − 1 = U Σ V T \begin{aligned} AV&=U\Sigma\\ A&=U\Sigma V^{-1}=U\Sigma V^{T} \end{aligned}AVA=UΣ=UΣV−1=UΣVT
奇异值分解的计算过程参看奇异值分解(SVD)
Hessian矩阵的几何意义
参看Hessian矩阵的几何意义
Hessian矩阵我们已经知道是二阶导数矩阵,有时候二阶导数仍然带有未知数,所以求给定点的Hessian矩阵才有意义,给定坐标后,Hessain矩阵变成常数矩阵,然后就可以求其特征值
- 如果Hessian矩阵所有特征值均为正:开口向上凹的点
- 如果均为负:开口向下凹的点
- 如果有正有负:存在鞍点
- 如果有一项为0:不确定情况。
协方差矩阵
协方差矩阵实质上是一个线性变换,主要思想有如下几点:
- 协方差矩阵是怎么来的:方差表征了沿特征轴方向的离散度,但无法表征特征间的相关性,因此引入协方差来进行描述这种相关性;
- 线性变换由旋转和缩放组成,通过特征值分解的方法可以导出,协方差矩阵等价于对原特征空间的白数据做了一个线性变换;
- 协方差矩阵的最大特征值对应的特征向量,总是指向方差最大的方向;次最大特征值对应的特征向量,正交于最大特征值对应的特征向量,并指向次最大方差指向的方向。