文章目录
前言:这篇blog是《 Linear Algebra and Its Applications》第五章的一些学习笔记。
第五章 特征值与特征向量
1.特征值与特征向量
对方阵A n × n A_{n\times n}An×n,其特征方程表示为A x = λ x ( x ≠ 0 ) Ax=\lambda x~~~(x \neq 0)Ax=λx (x̸=0)其中λ \lambdaλ是标量,也叫特征值(特征根,本征值),x xx是向量,也叫特征向量。
其几何意义:特征向量的方向是一个特殊的方向,在这个方向上进行矩阵A AA的线性变换,等于在这个方向伸缩λ \lambdaλ倍。
方阵一定有特征值,因为方阵的特征多项式在复数域内一定能分解成一次因式,但是方阵不一定有实特征值。
1.1. 求解特征值与特征向量
求解( A − λ I ) x = 0 (A-\lambda I)x=0(A−λI)x=0要求x xx在A − λ I A-\lambda IA−λI的零空间上,所以零空间不为0,所以d e t ( A − λ I ) = 0 det(A-\lambda I)=0det(A−λI)=0求解该方程即可得到特征值λ \lambdaλ,把λ \lambdaλ代回( A − λ I ) x = 0 (A-\lambda I)x=0(A−λI)x=0求解该方程得到特征向量x xx。
1.2. 性质
假设A n × n = { a i j } A_{n \times n}=\{a_{ij}\}An×n={aij}有特征值λ n \lambda_{n}λn与特征向量x n x_{n}xn,则∣ a 11 − λ a i j a 22 − λ … a i j a n n − λ ∣ = ( λ 1 − λ ) ( λ 2 − λ ) … ( λ n − λ ) \left | \begin{matrix} a_{11}-\lambda & ~ & ~ & a_{ij} \\ ~ & a_{22}-\lambda & ~ & ~ \\ ~ & ~ & \dots & ~ \\ a_{ij} & ~ & ~ & a_{nn}-\lambda \\ \end{matrix}\right | =(\lambda_{1}-\lambda)(\lambda_{2}-\lambda)\dots (\lambda_{n}-\lambda)∣∣∣∣∣∣∣∣a11−λ aij a22−λ … aij ann−λ∣∣∣∣∣∣∣∣=(λ1−λ)(λ2−λ)…(λn−λ)
下面证明性质会用到上式。
性质一:λ 1 ⋅ λ 2 ⋅ λ 3 … λ n = d e t ( A ) \lambda_{1}·\lambda_{2}·\lambda_{3}\dots\lambda_{n}=det(A)λ1⋅λ2⋅λ3…λn=det(A)
证明:把λ = 0 \lambda=0λ=0代入上式即可证明。
性质二:λ 1 + λ 2 + λ 3 + ⋯ + λ n = T r ( A ) = a 11 + a 22 + ⋯ + a n n \lambda_{1}+\lambda_{2}+\lambda_{3}+\dots+\lambda_{n}=Tr(A)=a_{11}+a_{22}+\dots +a_{nn}λ1+λ2+λ3+⋯+λn=Tr(A)=a11+a22+⋯+ann
证明:假设把上式等号左右展开,看λ n − 1 \lambda^{n-1}λn−1项的系数,左边= ( − 1 ) n − 1 ( a 11 + a 22 + ⋯ + a n n ) λ n − 1 =(-1)^{n-1}(a_{11}+a_{22}+\dots +a_{nn})\lambda^{n-1}=(−1)n−1(a11+a22+⋯+ann)λn−1=右边=( − 1 ) n − 1 ( λ 1 + λ 2 + ⋯ + λ n ) λ n − 1 (-1)^{n-1}(\lambda_{1}+\lambda_{2}+\dots +\lambda_{n})\lambda^{n-1}(−1)n−1(λ1+λ2+⋯+λn)λn−1,证毕。
性质三:f ( A ) f(A)f(A)的特征值是f ( λ i ) f(\lambda_{i})f(λi),f ( ⋅ ) f(·)f(⋅)是多项式函数
证明:f ( A ) = a n A n + a n − 1 A n − 1 + ⋯ + a 1 A + a 0 f(A)=a_{n}A^{n}+a_{n-1}A^{n-1}+\dots +a_{1}A+a_{0}f(A)=anAn+an−1An−1+⋯+a1A+a0两边右乘特征向量x xx。
f ( A ) x = a n A n x + a n − 1 A n − 1 x + ⋯ + a 2 A 2 x + a 1 A x + a 0 x = a n λ A n − 1 x + a n − 1 λ A n − 2 x + ⋯ + a 2 λ A x + a 1 λ x + a 0 x = a n λ 2 A n − 2 x + a n − 1 λ 2 A n − 3 x + ⋯ + a 2 λ 2 x + a 1 λ x + a 0 x … = a n λ n x + a n − 1 λ n − 1 x + ⋯ + a 2 λ 2 x + a 1 λ x + a 0 x = f ( λ ) x \begin{aligned} f(A)x & =a_{n}A^{n}x+a_{n-1}A^{n-1}x+\dots +a_{2}A^{2}x+a_{1}Ax+a_{0}x \\ & = a_{n}\lambda A^{n-1}x+a_{n-1}\lambda A^{n-2}x+\dots +a_{2}\lambda Ax+a_{1}\lambda x+a_{0}x \\ & = a_{n}\lambda^{2} A^{n-2}x+a_{n-1}\lambda^{2} A^{n-3}x+\dots +a_{2}\lambda^{2}x+a_{1}\lambda x+a_{0}x \\ & \dots \\ & = a_{n}\lambda^{n}x+a_{n-1}\lambda^{n-1}x+\dots +a_{2}\lambda^{2}x+a_{1}\lambda x+a_{0}x \\ & = f(\lambda)x \end{aligned}f(A)x=anAnx+an−1An−1x+⋯+a2A2x+a1Ax+a0x=anλAn−1x+an−1λAn−2x+⋯+a2λAx+a1λx+a0x=anλ2An−2x+an−1λ2An−3x+⋯+a2λ2x+a1λx+a0x…=anλnx+an−1λn−1x+⋯+a2λ2x+a1λx+a0x=f(λ)x
性质四:不同特征根对应特征向量一定线性无关。
证明:设λ 1 \lambda_{1}λ1的一个特征向量x 1 x_{1}x1,λ 2 \lambda_{2}λ2的一个特征向量x 2 x_{2}x2,λ 1 ≠ λ 2 \lambda_{1} \neq \lambda_{2}λ1̸=λ2。
令(1) c 1 x 1 + c 2 x 2 = 0 c_{1}x_{1}+c_{2}x_{2}=0\tag{1}c1x1+c2x2=0(1)(1)左乘A得(2) c 1 A x 1 + c 2 A x 2 = c 1 λ 1 x 1 + c 2 λ 2 x 2 = 0 c_{1}Ax_{1}+c_{2}Ax_{2}=c_{1}\lambda_{1}x_{1}+c_{2}\lambda_{2}x_{2}=0\tag{2}c1Ax1+c2Ax2=c1λ1x1+c2λ2x2=0(2)
(1)左乘λ 1 \lambda_{1}λ1得(3) c 1 λ 1 x 1 + c 2 λ 1 x 2 = 0 c_{1}\lambda_{1}x_{1}+c_{2}\lambda_{1}x_{2}=0 \tag{3}c1λ1x1+c2λ1x2=0(3)
(2)-(3)得c 2 ( λ 2 − λ 1 ) x 2 = 0 c_{2}(\lambda_{2}-\lambda_{1})x_{2}=0c2(λ2−λ1)x2=0,由于λ 2 ≠ λ 1 \lambda_{2}\neq \lambda_{1}λ2̸=λ1,x 2 ≠ 0 x_{2}\neq 0x2̸=0,故c 2 = 0 c_{2}=0c2=0,重复上面方法,消去c 2 c_{2}c2,可得c 1 = 0 c_{1}=0c1=0,故(1)式子成立一定有c 1 = c 2 = 0 c_{1}=c_{2}=0c1=c2=0,所以x 1 , x 2 x_{1},x_{2}x1,x2线性无关。
性质五:Hamilton-Cayley定理,设f ( λ ) = ∣ λ E − A ∣ = λ n + b 1 λ n − 1 + ⋯ + b n − 1 λ + b n f(\lambda)=|\lambda E-A|=\lambda^{n}+b_{1}\lambda^{n-1}+\dots +b_{n-1}\lambda+b_{n}f(λ)=∣λE−A∣=λn+b1λn−1+⋯+bn−1λ+bn则f ( A ) = ∣ λ E − A ∣ = A n + b 1 A n − 1 + ⋯ + b n − 1 A + b n E = 0 f(A)=|\lambda E-A|=A^{n}+b_{1}A^{n-1}+\dots +b_{n-1}A+b_{n}E=0f(A)=∣λE−A∣=An+b1An−1+⋯+bn−1A+bnE=0
2. 特征值分解
2.1. 特征值分解:
设A AA的特征值为λ n \lambda_{n}λn,特征向量为x n x_{n}xn,令Λ = [ λ 1 0 λ 2 … 0 λ n ] \Lambda =\left [ \begin{matrix} \lambda_{1} & ~ & ~ & 0 \\ ~ & \lambda_{2} & ~ & ~ \\ ~ & ~ & \dots & ~ \\ 0 & ~ & ~ & \lambda_{n} \\ \end{matrix} \right ]Λ=⎣⎢⎢⎡λ1 0 λ2 … 0 λn⎦⎥⎥⎤
S = [ ∣ ∣ ∣ x 1 x 2 … x n ∣ ∣ ∣ ] S=\left [ \begin{matrix} | & | & ~ & | \\ x_{1} & x_{2} & \dots & x_{n} \\ | & | & ~ & | \\ \end{matrix} \right ]S=⎣⎡∣x1∣∣x2∣ … ∣xn∣⎦⎤
则 A ⋅ S = ( A ⋅ x 1 , A ⋅ x 2 , … , A ⋅ x n ) = ( λ 1 ⋅ x 1 , λ 2 ⋅ x 2 , … , λ n ⋅ x n ) = S ⋅ Λ \begin{aligned} A·S & =(A·x_{1}, A·x_{2}, \dots ,A·x_{n}) \\ & = (\lambda_{1} ·x_{1}, \lambda_{2} ·x_{2}, \dots ,\lambda_{n} ·x_{n})=S·\Lambda \end{aligned}A⋅S=(A⋅x1,A⋅x2,…,A⋅xn)=(λ1⋅x1,λ2⋅x2,…,λn⋅xn)=S⋅Λ
如果S SS可逆,则A = S Λ S − 1 A=S \Lambda S^{-1}A=SΛS−1
这就把A AA矩阵分解成对角矩阵,但是要求S SS可逆,等价于要求S SS的列向量线性无关,等价于要求 A AA至少有n个线性无关的特征向量,我们需要把这n nn个线性无关的特征向量放到S SS的列向量。
根据1.2.的性质四,我们知道不同特征根的特征向量一定线性无关,所以如果我们知道A AA有n nn个不同的特征根λ \lambdaλ,则A一定可以进行特征值分解,若存在特征根一样的情况,特征向量是否线性无关要具体分析,也有可能有n个线性无关的特征向量,例如下面的矩阵就可以进行特征值分解。[ 0 0 0 0 0 0 0 0 0 ] \left [ \begin{matrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{matrix} \right ]⎣⎡000000000⎦⎤下面的矩阵不可以进行特征值分解。
[ 0 1 0 0 0 0 0 0 0 ] [ 0 1 0 0 0 1 0 0 0 ] \left [ \begin{matrix} 0 & 1 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \\ \end{matrix} \right ] \left [ \begin{matrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 0 & 0 & 0 \\ \end{matrix} \right ]⎣⎡000100000⎦⎤⎣⎡000100010⎦⎤
如果你知道Jordan标准型(后面会讲),就会很清楚这一点。
2.2. 特征值分解应用:差分方程
如果A AA可以进行特征值分解A = S Λ S − 1 A=S\Lambda S^{-1}A=SΛS−1,则A K = S Λ k S − 1 A^{K}=S\Lambda^{k} S^{-1}AK=SΛkS−1,Λ \LambdaΛ是对角矩阵,所以其k次方就是对角线元素分别取k次方。
知道这个前提后,假设我们要求解斐波那契数列,F k = F k + 1 + F k + 2 , F 0 = 0 , F 1 = 1 F_{k}=F_{k+1}+F_{k+2},F_{0}=0,F_{1}=1Fk=Fk+1+Fk+2,F0=0,F1=1,如果我们想求F n F_{n}Fn的值,构造u k = ( F k + 1 F k ) u_{k}=\left ( \begin{matrix} F_{k+1} \\ F_{k} \end{matrix} \right )uk=(Fk+1Fk)则u k + 1 = ( F k + 2 F k + 1 ) = ( F k + 1 + F k F k + 1 ) = ( 1 1 1 0 ) ( F k + 1 F k ) = A ⋅ u k u_{k+1}=\left ( \begin{matrix} F_{k+2} \\ F_{k+1} \end{matrix} \right ) = \left ( \begin{matrix} F_{k+1} +F_{k}\\ F_{k+1} \end{matrix} \right ) = \left ( \begin{matrix} 1 & 1\\ 1 & 0 \end{matrix} \right ) \left ( \begin{matrix} F_{k+1}\\ F_{k} \end{matrix} \right )=A·u_{k}uk+1=(Fk+2Fk+1)=(Fk+1+FkFk+1)=(1110)(Fk+1Fk)=A⋅uk
所以u k = A u k − 1 = A 2 u k − 2 = ⋯ = A k u 0 = S Λ k S − 1 u 0 u_{k}=Au_{k-1}=A^{2}u_{k-2}=\dots=A^{k}u_{0}=S\Lambda^{k}S^{-1}u_{0}uk=Auk−1=A2uk−2=⋯=Aku0=SΛkS−1u0其中u 0 = ( F 1 F 0 ) = ( 1 0 ) u_{0}=\left ( \begin{matrix} F_{1}\\ F_{0} \end{matrix} \right )=\left ( \begin{matrix} 1\\ 0 \end{matrix} \right )u0=(F1F0)=(10)我们在求得u n = S Λ n S − 1 u 0 u_{n}=S\Lambda^{n}S^{-1}u_{0}un=SΛnS−1u0后,取u n u_{n}un的第二个元素即是F n F_{n}Fn的值。
2.2.1. 重要差分方程:Markov方阵
如果A AA是Markov方阵(状态转移矩阵),则A = { a i j } n × n A=\{a_{ij}\}_{n\times n}A={aij}n×n满足,∑ i = 1 n a i k = 1 , 0 ≤ a i k ≥ 1 \sum\limits_{i=1}^{n}a_{ik}=1,0\leq a_{ik} \geq 1i=1∑naik=1,0≤aik≥1,a i j a_{ij}aij表示从状态j jj转移到状态i ii的转移概率。以二阶为例,假如我们知道一个初始状态[ X 0 Y 0 ] \left [ \begin{matrix} X_{0} \\ Y_{0} \end{matrix} \right ][X0Y0]
且知道Markov方阵(状态转移矩阵)A = [ a 00 a 01 a 10 a 11 ] A = \left [ \begin{matrix} a_{00} & a_{01} \\ a_{10} & a_{11} \end{matrix} \right ]A=[a00a10a01a11]则我们可以知道下一时刻的状态为:A [ X 0 Y 0 ] = [ a 00 a 01 a 10 a 11 ] [ X 0 Y 0 ] = [ X 0 a 00 + Y 0 a 01 Y 0 a 10 + Y 0 a 11 ] = [ X 1 Y 1 ] A \left [ \begin{matrix} X_{0} \\ Y_{0} \end{matrix} \right ] = \left [ \begin{matrix} a_{00} & a_{01} \\ a_{10} & a_{11} \end{matrix} \right ]\left [ \begin{matrix} X_{0} \\ Y_{0} \end{matrix} \right ] = \left [ \begin{matrix} X_{0}a_{00} +Y_{0}a_{01}\\ Y_{0}a_{10} +Y_{0}a_{11} \end{matrix} \right ] = \left [ \begin{matrix} X_{1} \\ Y_{1} \end{matrix} \right ]A[X0Y0]=[a00a10a01a11][X0Y0]=[X0a00+Y0a01Y0a10+Y0a11]=[X1Y1]
具体例子可以看blog,这样能够更好理解,这里暂时不讲。
Markov方阵一定有特征根1,且λ = 1 \lambda=1λ=1对应稳态,λ < 1 \lambda<1λ<1对应暂态,如果λ = 1 \lambda=1λ=1是重根,则有多个稳态,最终的稳态是是这些稳态的线性组合。
2.3. 特征值分解应用:微分方程
对于带有方阵的微分方程∂ u ∂ t = A u \frac{\partial u}{\partial t} = Au∂t∂u=Au注意这里的方阵A是作为系数,和对矩阵求导不一样。如果我们要求的是不带方阵的,我们知道的微分方程∂ y ∂ x = a y \frac{\partial y}{\partial x} = ay∂x∂y=ay,则我们可以猜到结果是y = c ⋅ e a x y= c·e^{ax}y=c⋅eax,c cc是常数,同理我们猜测带有方阵的微分方程的解是u ( t ) = e A t ⋅ u ( 0 ) u(t)=e^{At}·u(0)u(t)=eAt⋅u(0),向量u ( 0 ) u(0)u(0)是一个初值,和常数c cc的作用类似,我们对e A t e^{At}eAt进行泰勒展开(矩阵的很多运算可以类比标量的运算,但不是全部,泰勒展开就是可以类比的)e A t = I + A t + ( A t ) 2 2 ! + ( A t ) 3 3 ! + … = S ( I + Λ t + ( Λ t ) 2 2 ! + ( Λ t ) 3 3 ! + …   ) S − 1 = S e Λ t S − 1 = S [ e λ 1 t 0 e λ 2 t … 0 e λ n t ] S − 1 \begin{aligned} e^{At} & =I+At+\frac{(At)^{2}}{2!}+\frac{(At)^{3}}{3!}+\dots \\ & = S(I+\Lambda t+\frac{(\Lambda t)^{2}}{2!}+\frac{(\Lambda t)^{3}}{3!}+\dots)S^{-1} \\ & = Se^{\Lambda t}S^{-1} \\ & = S \left [\begin{matrix} e^{\lambda_{1}t} & & & 0\\ & e^{\lambda_{2}t} & & \\ & & \dots & \\ 0 & & & e^{\lambda_{n}t} \\ \end{matrix} \right ]S^{-1} \end{aligned}eAt=I+At+2!(At)2+3!(At)3+…=S(I+Λt+2!(Λt)2+3!(Λt)3+…)S−1=SeΛtS−1=S⎣⎢⎢⎡eλ1t0eλ2t…0eλnt⎦⎥⎥⎤S−1
所以微分方程的解是u ( t ) = S e Λ t S − 1 u ( 0 ) = ∑ i = 1 N c i e λ t x i u(t)=Se^{\Lambda t}S^{-1} u(0)=\sum \limits_{i=1}^{N}c_{i}e^{\lambda t}x_{i}u(t)=SeΛtS−1u(0)=i=1∑Ncieλtxi
其中c = S − 1 u ( 0 ) c=S^{-1}u(0)c=S−1u(0),c i c_{i}ci是c cc的第i ii个元素,x i x_{i}xi是S SS中第i ii个列向量,也是λ i \lambda_{i}λi对应的特征向量。
例如我们想求解微分方程y ′ ′ ′ − 3 y ′ ′ + 2 y ′ = 0 y'''-3y''+2y'=0y′′′−3y′′+2y′=0则我们可以构造如下的矩阵微分方程u ′ = [ y ′ ′ ′ y ′ ′ y ′ ] = [ 3 − 2 0 1 0 0 0 1 0 ] [ y ′ ′ y ′ y ] = A u u'=\left [ \begin{matrix} y''' \\ y'' \\ y' \end{matrix} \right ]=\left [ \begin{matrix} 3 & -2 & 0 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{matrix} \right ]\left [ \begin{matrix} y'' \\ y'\\ y \end{matrix} \right ]=Auu′=⎣⎡y′′′y′′y′⎦⎤=⎣⎡310−201000⎦⎤⎣⎡y′′y′y⎦⎤=Au
我们进一步讨论微分方程,在t → ∞ t\rightarrow \inftyt→∞时的稳定性,我们知道微分方程的解可以表示成u ( t ) = ∑ i = 1 N c i e λ t x i = c 1 e λ t x 1 + c 2 e λ t x 2 + … c n e λ t x n u(t)=\sum \limits_{i=1}^{N}c_{i}e^{\lambda t}x_{i}=c_{1}e^{\lambda t}x_{1}+c_{2}e^{\lambda t}x_{2}+\dots c_{n}e^{\lambda t}x_{n}u(t)=i=1∑Ncieλtxi=c1eλtx1+c2eλtx2+…cneλtxn。所以微分方程的解有如下三种情况:
情况一:如果所有λ i \lambda_{i}λi的实部小于0 00,则u ( t ) u(t)u(t)稳定到0 00;
情况二:如果λ 1 \lambda_{1}λ1的实部等于0 00,其余λ i \lambda_{i}λi的实部小于0 00,则u ( t ) u(t)u(t)稳定到c 1 x 1 c_{1}x_{1}c1x1;
情况三:如果任一λ i \lambda_{i}λi的实部大于0 00,则u ( t ) u(t)u(t)发散;
特别的,对于2 × 2 2\times 22×2方阵A AA,由于其特征方程d e t ( A − λ I ) = λ 2 − T r a c e ( A ) λ + d e t ( A ) det(A-\lambda I)=\lambda^{2}-Trace(A)\lambda + det(A)det(A−λI)=λ2−Trace(A)λ+det(A)
要求其迹T r a c e ( A ) < 0 Trace(A)<0Trace(A)<0,行列式d e t ( A ) > 0 det(A)>0det(A)>0,A AA构成的微分方程∂ u ∂ t = A u \frac{\partial u}{\partial t} = Au∂t∂u=Au的解才稳定。
3. 复数矩阵
复数矩阵就是元素含有复数的矩阵。在复数域,相当于把实数域的转置T操作,变成了复数域的厄米H操作,厄米操作就是对矩阵求共轭转置。
类比转置操作,厄米操作有如下性质:
性质一:如果复向量x , y x,yx,y正交,则x H y = 0 x^{H}y=0xHy=0;
性质二:复向量内积,∣ ∣ x ∣ ∣ 2 = x H x = ∣ x 1 ∣ 2 + ∣ x 1 ∣ 2 + … ||x||^{2}=x^{H}x=|x_{1}|^{2}+|x_{1}|^{2}+\dots∣∣x∣∣2=xHx=∣x1∣2+∣x1∣2+…
性质三:对复矩阵A , B A,BA,B,则( A B ) H = B H A H (AB)^{H} = B^{H}A^{H}(AB)H=BHAH
复数矩阵最有名的应用,就是FFT(快速傅里叶变换)。
3.1. 三个典型的复数矩阵
复数域:厄米矩阵A: A = A H A=A^{H}A=AH,反厄米矩阵A: A = − A H A=-A^{H}A=−AH,酉矩阵U: U U H = I UU^{H}=IUUH=I
对应实数域:实对称矩阵A: A = A T A=A^{T}A=AT,反实对称矩阵A: A = − A T A=-A^{T}A=−AT,正交矩阵Q: Q Q T = I QQ^{T}=IQQT=I
4. 相似变换
对于方阵A , B A,BA,B,如果存在可逆矩阵M MM,使得B = M − 1 A M B=M^{-1}AMB=M−1AM则称方阵B BB与方阵A AA相似,从A AA到B BB的变换称为相似变换。
如果A , B A,BA,B相似,则A , B A,BA,B有相同的特征值,如果同时A AA有特征向量X XX,则对应的B BB有特征向量M − 1 X M^{-1}XM−1X。证明如下:A X = λ X , 且 A = M B M − 1 AX=\lambda X,且A=MBM^{-1}AX=λX,且A=MBM−1则M B M − 1 X = λ X MBM^{-1}X=\lambda XMBM−1X=λX所以B ( M − 1 X ) = λ ( M − 1 X ) B(M^{-1}X)=\lambda (M^{-1}X)B(M−1X)=λ(M−1X)证毕。
可以说,相似变换把n × n n\times nn×n矩阵空间分割成若干子空间,每个子空间可以当做一个类别,子空间内部矩阵相似,因为相似是可以传递的。相似的矩阵有相同的Jordan标准型。第二章中,我们已经证明,如果我们给定线性变换前后,两个向量空间的基,则这个线性变换可以用矩阵表示,特殊的,如果我们的矩阵是方阵,那么线性变换其实是在一个向量空间内部,针对同一组基的变换。下面我们会证明,相似的矩阵其实是同一个线性变换,只不过选定的基不同。
证明:假设我们有相似变换B = M − 1 A M B=M^{-1}AMB=M−1AM
我们的线性变换是A ~ \widetilde{A}A,原先的基是[ u 1 , u 2 … u n ] [u_{1}, u_{2}\dots u_{n}][u1,u2…un],则A ~ ( [ u 1 , u 2 … u n ] ) = [ u 1 , u 2 … u n ] A \widetilde{A}([u_{1}, u_{2}\dots u_{n}])=[u_{1}, u_{2}\dots u_{n}]AA([u1,u2…un])=[u1,u2…un]A
新的基[ v 1 , v 2 … v n ] [v_{1}, v_{2}\dots v_{n}][v1,v2…vn]与原先的基有变换[ v 1 , v 2 … v n ] = [ u 1 , u 2 … u n ] M 则 [ v 1 , v 2 … v n ] M − 1 = [ u 1 , u 2 … u n ] [v_{1}, v_{2}\dots v_{n}]=[u_{1}, u_{2}\dots u_{n}]M \\ 则[v_{1}, v_{2}\dots v_{n}]M^{-1}=[u_{1}, u_{2}\dots u_{n}][v1,v2…vn]=[u1,u2…un]M则[v1,v2…vn]M−1=[u1,u2…un]
那么我们把线性变换作用到新的v vv基有A ~ ( [ v 1 , v 2 … v n ] ) = A ~ ( [ u 1 , u 2 … u n ] M ) = A ~ ( [ u 1 , u 2 … u n ] ) M = [ u 1 , u 2 … u n ] A M = [ v 1 , v 2 … v n ] M − 1 A M = [ v 1 , v 2 … v n ] B \begin{aligned} \widetilde{A}([v_{1}, v_{2}\dots v_{n}]) & =\widetilde{A}([u_{1}, u_{2}\dots u_{n}]M) \\ & = \widetilde{A}([u_{1}, u_{2}\dots u_{n}])M \\ & = [u_{1}, u_{2}\dots u_{n}]AM \\ & = [v_{1}, v_{2}\dots v_{n}]M^{-1}AM \\ & = [v_{1}, v_{2}\dots v_{n}]B \\ \end{aligned}A([v1,v2…vn])=A([u1,u2…un]M)=A([u1,u2…un])M=[u1,u2…un]AM=[v1,v2…vn]M−1AM=[v1,v2…vn]B
所以,针对线性变换A ~ \widetilde{A}A,如果我们限定变换前后的基为u uu基,则该线性变换可以用矩阵A AA表示;如果我们限定变换前后的基为v vv基,则该线性变换可以用矩阵B BB表示。
证毕。
4.1. 矩阵相似的应用
我们可以利用矩阵相似变换,把矩阵变成对角矩阵,以方便我们的进一步求解。
4.1.1 解微分方程
求解微分方程d u d t = A u \frac{du}{dt}=Audtdu=Au
如果我们知道矩阵A AA有对角相似矩阵B BB,满足B = M − 1 A M B=M^{-1}AMB=M−1AM
则我们可以求得v vv满足u = M v u=Mvu=Mv,则M d v d t = A M v M\frac{dv}{dt}=AMvMdtdv=AMv进一步化简得
d v d t = M − 1 A M v = B v \frac{dv}{dt}=M^{-1}AMv=Bvdtdv=M−1AMv=Bv
由于B BB是对角矩阵,我们可以轻易求得v vv的取值,进而求得u uu的值。
4.1.2 解差分方程
求解差分方程u k + 1 = A u k u_{k+1}=Au_{k}uk+1=Auk
如果我们知道矩阵A AA有对角相似矩阵B BB,满足B = M − 1 A M B=M^{-1}AMB=M−1AM
则我们可以求得v vv满足u = M v u=Mvu=Mv,则M v k + 1 = A M v k Mv_{k+1}=AMv_{k}Mvk+1=AMvk进一步化简得
v k + 1 = M − 1 A M v k = B v k v_{k+1}=M^{-1}AMv_{k}=Bv_{k}vk+1=M−1AMvk=Bvk
由于B BB是对角矩阵,我们可以轻易求得v vv,进而求得u uu的值。
4.2. 矩阵分解
对于任意方阵A AA,一定有复特征值,可以被酉矩阵U UU分解为上三角形式U − 1 A U = T U^{-1}AU=TU−1AU=T,证明过程较为麻烦,下面以A 4 × 4 A_{4 \times 4}A4×4为例进行证明。
证明:
A x 1 = λ 1 x 1 Ax_{1}=\lambda_{1} x_{1}Ax1=λ1x1,λ 1 \lambda_{1}λ1为A AA的特征值,x 1 x_{1}x1为特征向量。
对x 1 x_{1}x1进行单位化,得到q 1 q_{1}q1同样满足A q 1 = λ 1 q 1 Aq_{1}=\lambda_{1}q_{1}Aq1=λ1q1。
找到一组线性无关的向量q 1 , b , c , d q_{1}, b, c, dq1,b,c,d,对其进行施密特正交化法得到q 1 , q 2 , q 3 , q 4 q_{1},q_{2},q_{3},q_{4}q1,q2,q3,q4。
构造酉矩阵U 1 = [ q 1 , q 2 , q 3 , q 4 ] U_{1}=[q_{1},q_{2},q_{3},q_{4}]U1=[q1,q2,q3,q4],则A U 1 = [ A q 1 , A q 2 , A q 3 , A q 4 ] = [ λ 1 q 1 , A q 2 , A q 3 , A q 4 ] AU_{1}=[Aq_{1},Aq_{2},Aq_{3},Aq_{4}]=[\lambda_{1}q_{1},Aq_{2},Aq_{3},Aq_{4}]AU1=[Aq1,Aq2,Aq3,Aq4]=[λ1q1,Aq2,Aq3,Aq4]
则U 1 − 1 A U 1 = U 1 − 1 [ λ 1 q 1 , A q 2 , A q 3 , A q 4 ] = U 1 H [ λ 1 q 1 , A q 2 , A q 3 , A q 4 ] = [ q 1 H q 2 H q 3 H q 4 H ] [ λ 1 q 1 , A q 2 , A q 3 , A q 4 ] = [ λ 1 ∗ ∗ ∗ 0 ∗ ∗ ∗ 0 ∗ ∗ ∗ 0 ∗ ∗ ∗ ] = [ λ 1 ∗ ∗ ∗ 0 0 F 3 × 3 0 ] \begin{aligned} U_{1}^{-1}AU_{1} & =U_{1}^{-1}[\lambda_{1}q_{1},Aq_{2},Aq_{3},Aq_{4}] \\ & = U_{1}^{H}[\lambda_{1}q_{1},Aq_{2},Aq_{3},Aq_{4}] \\ & = \left [ \begin{matrix} q_{1}^{H} \\ q_{2}^{H} \\ q_{3}^{H} \\ q_{4}^{H} \end{matrix}\right ] \left [ \begin{matrix} \lambda_{1}q_{1},Aq_{2},Aq_{3},Aq_{4} \end{matrix}\right ] \\ & = \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & * & * & * \\ 0 & * & * & * \\ 0 & * & * & * \end{matrix}\right ] \\ & = \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & & & \\ 0 & & F_{3 \times 3} & \\ 0 & & & \end{matrix}\right ] \end{aligned}U1−1AU1=U1−1[λ1q1,Aq2,Aq3,Aq4]=U1H[λ1q1,Aq2,Aq3,Aq4]=⎣⎢⎢⎡q1Hq2Hq3Hq4H⎦⎥⎥⎤[λ1q1,Aq2,Aq3,Aq4]=⎣⎢⎢⎡λ1000∗∗∗∗∗∗∗∗∗∗∗∗⎦⎥⎥⎤=⎣⎢⎢⎡λ1000∗∗F3×3∗⎦⎥⎥⎤
∗ *∗表示未知值,也就是我们暂时不关心其取值,对右下角F 3 × 3 F_{3 \times 3}F3×3矩阵,我们继续进行上面的操作,设F q 1 ′ = λ 2 q 1 ′ Fq'_{1}=\lambda_{2}q'_{1}Fq1′=λ2q1′,利用施密特正交化法找到q 2 ′ , q 3 ′ q'_{2},q'_{3}q2′,q3′,设U 2 = [ 1 0 0 0 0 0 q 1 ′ q 2 ′ q 3 ′ 0 ] U_{2}=\left [ \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & & & \\ 0 & q'_{1} & q'_{2} & q'_{3}\\ 0 & & & \end{matrix}\right ]U2=⎣⎢⎢⎡10000q1′0q2′0q3′⎦⎥⎥⎤
则( U 1 A U 1 − 1 ) U 2 = [ λ 1 ∗ ∗ ∗ 0 0 F 3 × 3 0 ] [ 1 0 0 0 0 0 q 1 ′ q 2 ′ q 3 ′ 0 ] = [ λ 1 ∗ ∗ ∗ 0 0 F q 1 ′ F q 2 ′ F q 3 ′ 0 ] = [ λ 1 ∗ ∗ ∗ 0 0 λ 2 q 1 ′ F q 2 ′ F q 3 ′ 0 ] \begin{aligned} (U_{1}AU_{1}^{-1})U_{2} & = \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & & & \\ 0 & & F_{3 \times 3} & \\ 0 & & & \end{matrix}\right ] \left [ \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & & & \\ 0 & q'_{1} & q'_{2} & q'_{3}\\ 0 & & & \end{matrix}\right ] \\ & = \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & & & \\ 0 & Fq'_{1} & Fq'_{2} & Fq'_{3}\\ 0 & & & \end{matrix}\right ] \\ & = \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & & & \\ 0 & \lambda_{2}q'_{1} & Fq'_{2} & Fq'_{3}\\ 0 & & & \end{matrix}\right ] \\ \end{aligned}(U1AU1−1)U2=⎣⎢⎢⎡λ1000∗∗F3×3∗⎦⎥⎥⎤⎣⎢⎢⎡10000q1′0q2′0q3′⎦⎥⎥⎤=⎣⎢⎢⎡λ1000∗Fq1′∗Fq2′∗Fq3′⎦⎥⎥⎤=⎣⎢⎢⎡λ1000∗λ2q1′∗Fq2′∗Fq3′⎦⎥⎥⎤
其中,第二个等号的求解利用了矩阵的分块乘法。又有U 2 − 1 = [ 1 0 0 0 0 q 1 ′ H 0 q 2 ′ H 0 q 3 ′ H ] = U 2 H U_{2}^{-1}=\left [ \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & & q_{1}^{'H} & \\ 0 & & q_{2}^{'H} & \\ 0 & & q_{3}^{'H} & \end{matrix}\right ]=U_{2}^{H}U2−1=⎣⎢⎢⎡100000q1′Hq2′Hq3′H0⎦⎥⎥⎤=U2H
所以U 2 − 1 ( U 1 A U 1 − 1 ) U 2 = [ 1 0 0 0 0 q 1 ′ H 0 q 2 ′ H 0 q 3 ′ H ] [ λ 1 ∗ ∗ ∗ 0 0 λ 2 q 1 ′ F q 2 ′ F q 3 ′ 0 ] = [ λ 1 ∗ ∗ ∗ 0 λ 2 ∗ ∗ 0 0 0 0 F 2 × 2 ′ ] \begin{aligned} U_{2}^{-1}(U_{1}AU_{1}^{-1})U_{2} & =\left [ \begin{matrix} 1 & 0 & 0 & 0 \\ 0 & & q_{1}^{'H} & \\ 0 & & q_{2}^{'H} & \\ 0 & & q_{3}^{'H} & \end{matrix}\right ] \left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & & & \\ 0 & \lambda_{2}q'_{1} & Fq'_{2} & Fq'_{3}\\ 0 & & & \end{matrix}\right ] \\ & =\left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & \lambda_{2} & * & * \\ 0 & 0 & & \\ 0 & 0 & & F'_{2\times 2} \end{matrix}\right ] \end{aligned}U2−1(U1AU1−1)U2=⎣⎢⎢⎡100000q1′Hq2′Hq3′H0⎦⎥⎥⎤⎣⎢⎢⎡λ1000∗λ2q1′∗Fq2′∗Fq3′⎦⎥⎥⎤=⎣⎢⎢⎡λ1000∗λ200∗∗∗∗F2×2′⎦⎥⎥⎤
继续对右下角的F 2 × 2 ′ F'_{2\times 2}F2×2′进行上述操作,找到U 3 , U 4 U_{3},U_{4}U3,U4以及λ 3 , λ 4 \lambda_{3},\lambda_{4}λ3,λ4,则存在U = U 1 U 2 U 3 U 4 U=U_{1}U_{2}U_{3}U_{4}U=U1U2U3U4使得U − 1 A U = [ λ 1 ∗ ∗ ∗ 0 λ 2 ∗ ∗ 0 0 λ 3 ∗ 0 0 0 λ 4 ] U^{-1}AU =\left [ \begin{matrix} \lambda_{1} & * & * & * \\ 0 & \lambda_{2} & * & * \\ 0 & 0 & \lambda_{3}& * \\ 0 & 0 & 0 & \lambda_{4} \end{matrix}\right ]U−1AU=⎣⎢⎢⎡λ1000∗λ200∗∗λ30∗∗∗λ4⎦⎥⎥⎤
若A AA特征向量与特征根为实数,则酉矩阵U UU简化为正交矩阵Q QQ。
4.3. Normal矩阵
normal矩阵N NN,满足N H N = N N H N^{H}N=NN^{H}NHN=NNH,下面介绍六个基本normal矩阵。
实数域:实对称矩阵A: A = A T A=A^{T}A=AT,反实对称矩阵A: A = − A T A=-A^{T}A=−AT,正交矩阵Q: Q Q T = I QQ^{T}=IQQT=I
复数域:厄米矩阵A: A = A H A=A^{H}A=AH,反厄米矩阵A: A = − A H A=-A^{H}A=−AH,酉矩阵U: U U H = I UU^{H}=IUUH=I
注意实数域与复数域是对应的。
当然不只有上面几种normal矩阵,利用分块的性质,我们还可以轻松地构造,例如下面的矩阵也是normal矩阵[ Q 0 0 A ] \left[ \begin{matrix} Q & 0 \\ 0 & A\end{matrix} \right ][Q00A]
normal矩阵的特殊之处在于,如果对normal矩阵进行4.2. 介绍的矩阵分解,我们得到的会是对角矩阵,即U − 1 N U = T = D U^{-1}NU=T=DU−1NU=T=D,下面简单证明。
证明:
T T H = U − 1 N U ⋅ U H N H U = U − 1 N N H U = U − 1 N H N U = U H N H U ⋅ U H N U = ( U H N U ) H ⋅ U H N U = T H T \begin{aligned} TT^{H} & =U^{-1}NU·U^{H}N^{H}U \\ & = U^{-1}NN^{H}U \\ & = U^{-1}N^{H}NU \\ & = U^{H}N^{H}U·U^{H}NU \\ & = (U^{H}NU)^{H}·U^{H}NU \\ & = T^{H}T \end{aligned}TTH=U−1NU⋅UHNHU=U−1NNHU=U−1NHNU=UHNHU⋅UHNU=(UHNU)H⋅UHNU=THT
所以T TT也是normal矩阵,对于一个normal矩阵,如是上三角矩阵,一定也是对角矩阵。证毕。
4.4. 谱定理(spectral thorem)
我了解谱定理是从矩阵分解的角度了解的,感觉不是很彻底,这部分可能问题较大,可以不看。
谱定理是4.2的矩阵分解,针对实对称矩阵的特殊形式。实对称矩阵可以被分解成Q Λ Q T Q\Lambda Q^{T}QΛQT,Λ \LambdaΛ是特征根对角矩阵(可重复),Q QQ是正交的特征向量方阵。
注意谱定理A = Q Λ Q T A=Q\Lambda Q^{T}A=QΛQT与特征值分解A = S Λ S − 1 A=S\Lambda S^{-1}A=SΛS−1不同,特征值分解要求S SS列向量线性无关,谱定理要求Q QQ列向量单位正交,注意线性无关不一定正交,例如[ 1 , 1 , 0 ] [1,1,0][1,1,0]与[ 1 , 0 , 0 ] [1,0,0][1,0,0],两者线性无关但不正交。
谱定理使用时,要像4.2.的证明那样求解。
4.5. Jordan标准型-最一般形式的最简型
Jordan标准型曾被认为是线性代数的巅峰,但由于其在实际应用中不宜使用,且随后发明了强大的SVD分解,Jordan标准型逐渐的被边缘化,SVD成为线性代数的巅峰。
在矩阵特征值分解中,我们要求待分解矩阵A n × n A_{n\times n}An×n至少有n个线性无关的特征向量,如果A至多有s个线性无关特征向量,s < n s < ns<n,这样的矩阵称为有缺陷的矩阵(defective matrices),但是这样的矩阵也可以用类似特征分解的方法分解到一个最简单形式,这个最简形式就是Jordan标准型。J = M − 1 A M = [ J 1 … J s ] J=M^{-1}AM=\left [ \begin{matrix} J_{1} & & & \\ & \dots & & \\ & & & J_{s}\end{matrix} \right ]J=M−1AM=⎣⎡J1…Js⎦⎤
其中,J i , i = 1 … s J_{i},i=1\dots sJi,i=1…s称为Jordan块J i = [ λ i 1 λ i 1 λ i … 1 λ i 1 λ i ] J_{i} = \left [ \begin{matrix} \lambda_{i} & 1 & & & & \\ & \lambda_{i} & 1 & & & \\ & & \lambda_{i} & & & \\ & & & \dots &1 & \\ & & & & \lambda_{i} & 1\\ & & & & & \lambda_{i}\\ \end{matrix} \right ]Ji=⎣⎢⎢⎢⎢⎢⎢⎡λi1λi1λi…1λi1λi⎦⎥⎥⎥⎥⎥⎥⎤
在一个Jordan块中,有同样的特征值,对应同一个特征向量,不同的Jordan块对应不同的特征向量,但是不同的Jordan块可以有相同的特征值。可见对于一个有缺失的矩阵,其Jordan型会在每一个Jordan块的次对角线上放1。
有相同的特征根的矩阵不一定相似,例如相似到下面的两个Jordan标准型的矩阵,特征值都为2。
[ 2 1 2 1 2 2 1 2 1 2 ] \left [ \begin{matrix} 2 & 1 & & & & \\ & 2 & 1 & & & \\ & & 2 & & & \\ & & & 2 &1 & \\ & & & & 2& 1\\ & & & & & 2\\ \end{matrix} \right ]⎣⎢⎢⎢⎢⎢⎢⎡2121221212⎦⎥⎥⎥⎥⎥⎥⎤[ 2 1 2 2 1 2 1 2 1 2 ] \left [ \begin{matrix} 2 & 1 & & & & \\ & 2 & & & & \\ & & 2 & 1 & & \\ & & & 2 &1 & \\ & & & & 2 & 1\\ & & & & & 2\\ \end{matrix} \right ]⎣⎢⎢⎢⎢⎢⎢⎡2122121212⎦⎥⎥⎥⎥⎥⎥⎤
所以,可以说相似的矩阵可以化简到同一个Jordan标准型。
4.5.1. 应用
和特征值分解类似,Jordan标准型也可以用于求解微分方程和差分方程。
d u d t = A u ⟹ u ( t ) = e A t u ( 0 ) = M e J t M − 1 u ( 0 ) \frac{du}{dt}=Au \Longrightarrow u(t)=e^{At}u(0)=Me^{Jt}M^{-1}u(0)dtdu=Au⟹u(t)=eAtu(0)=MeJtM−1u(0)
u k + 1 = A u k ⟹ u k = A k u o = M J k M − 1 u 0 u_{k+1}=Au_{k} \Longrightarrow u_{k}=A^{k}u_{o}=MJ^{k}M^{-1}u_{0}uk+1=Auk⟹uk=Akuo=MJkM−1u0
这里需要计算J JJ中Jordan块J i k J_{i}^{k}Jik,计算方法如下J i = λ i I + N = λ i [ 1 1 1 … ] + [ 0 1 0 1 0 1 … ] J_{i}=\lambda_{i}I+N=\lambda_{i}\left [ \begin{matrix} 1 & & &\\ & 1 & & \\ & & 1 & \\ & & & \dots \end{matrix} \right ]+\left [ \begin{matrix} 0& 1 & &\\ & 0 & 1 & \\ & & 0 & 1 \\ & & & \dots \end{matrix} \right ]Ji=λiI+N=λi⎣⎢⎢⎡111…⎦⎥⎥⎤+⎣⎢⎢⎡010101…⎦⎥⎥⎤
利用二项式定理展开J i k = λ i k I + C k 1 λ i k − 1 N + C k 2 λ i k − 2 N 2 J_{i}^{k}=\lambda_{i}^{k}I+C_{k}^{1}\lambda_{i}^{k-1}N+C_{k}^{2}\lambda_{i}^{k-2}N^{2}Jik=λikI+Ck1λik−1N+Ck2λik−2N2
其中N以N 6 × 6 N_{6\times 6}N6×6为例,N 6 × 6 = [ 0 1 0 1 0 1 0 1 0 1 0 ] N_{6\times 6}=\left [ \begin{matrix} 0 & 1 & & & & \\ & 0 & 1 & & & \\ & & 0 & 1& & \\ & & & 0 &1 & \\ & & & & 0 & 1\\ & & & & &0\\ \end{matrix} \right ]N6×6=⎣⎢⎢⎢⎢⎢⎢⎡01010101010⎦⎥⎥⎥⎥⎥⎥⎤
N 2 N^{2}N2等于次对角线移动到第三对角线
N 6 × 6 2 = [ 0 0 1 0 0 1 0 0 1 0 0 1 0 0 0 ] N^{2}_{6\times 6}=\left [ \begin{matrix} 0 & 0 & 1& & & \\ & 0 & 0 &1 & & \\ & & 0 & 0& 1& \\ & & & 0 &0& 1\\ & & & & 0 & 0\\ & & & & &0\\ \end{matrix} \right ]N6×62=⎣⎢⎢⎢⎢⎢⎢⎡000100100100100⎦⎥⎥⎥⎥⎥⎥⎤
N 3 N^{3}N3等于次对角线移动到第四对角线
N 6 × 6 3 = [ 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 0 0 0 ] N^{3}_{6\times 6}=\left [ \begin{matrix} 0 & 0 & 0& 1& & \\ & 0 & 0 &0 & 1& \\ & & 0 & 0& 0&1 \\ & & & 0&0& 0\\ & & & & 0 & 0\\ & & & & &0\\ \end{matrix} \right ]N6×63=⎣⎢⎢⎢⎢⎢⎢⎡000000100010001000⎦⎥⎥⎥⎥⎥⎥⎤
依次向上移动即可
计算e J i t e^{J_{i}t}eJit类似,利用泰勒展开e J i t = e ( λ i I + N ) t = e λ i I t e N t = e λ i I t [ I + t N + ( t N ) 2 2 ! + …   ] e^{J_{i}t}=e^{(\lambda_{i} I +N)t}=e^{\lambda_{i} It}e^{ Nt}=e^{\lambda_{i} It}[I+tN+\frac{(tN)^{2}}{2!}+\dots]eJit=e(λiI+N)t=eλiIteNt=eλiIt[I+tN+2!(tN)2+…]
4.6. 涉及相似的矩阵分解
- 矩阵A AA可对角化,且有n个独立的特征向量,则S − 1 A S = Λ S^{-1}AS=\LambdaS−1AS=Λ(特征值分解);
- A AA是随意方阵,存在酉矩阵U UU,使得U − 1 A U = T U^{-1}AU=TU−1AU=T(相似分解的最一般形式);
- A AA是normal矩阵,存在酉矩阵U UU,使得U − 1 A U = Λ U^{-1}AU=\LambdaU−1AU=Λ;
- A AA是随意方阵,进行Jordan块对角化,M − 1 A M = J M^{-1}AM=JM−1AM=J(特征值分解的最一般性);