如何将矩阵化为约旦标准型_线性代数预习自学笔记-22:若尔当标准型

上一篇:线性代数预习自学笔记-21:根子空间分解

一、若尔当块与若尔当标准型

简单总结一下我们在上一篇中得到的成果:一个矩阵不能对角化的原因实质上是其所有特征子空间的直和不能充满整个作用空间,因而我们使用了“根子空间”这个推广概念(特征子空间是它的子空间),并发现任一方阵(线性算子)的所有根子空间的直和就是整个空间,做到了特征子空间做不到的事情;而可对角化矩阵,就是那些对于其任一特征值

,都有特征子空间=根子空间的矩阵。

仔细琢磨,这似乎与我们前面提到的一个论断非常相似:方阵任一特征值的几何重数小于等于代数重数,矩阵可对角化当且仅当其所有特征值的几何重数都等于代数重数。

据此提出关于代数重数的意义的一个猜想?

不过暂时将这个猜想放在一旁,我们先解决一个近在眼前的问题。既然根子空间的直和是全空间,那么就可以通过根子空间来寻找空间的一组基;回想我们定义根子空间的动机——推广对角化的概念,让所有矩阵都能相似于某类形式简洁的矩阵。这就是说,对每个线性算子,都能找到一组基,使得它在这组基下的表达是最简的。

因此,需要解决的问题就是:这类“形式简洁”的矩阵究竟是什么形式(即如何找这组基)?是否真的能使所有矩阵都相似于这类矩阵?

要解决这两个问题,首先留意由于根子空间的和是直和,所以我们如果对于每个根子空间找到一组基,那么将每个根子空间的基“拼”到一起,就是全空间的一组基了,因此下面我们就只需关注向量空间

上的线性算子
的某个根子空间
。而且由于根子空间是不变子空间,所以我们可以随时将
的作用域限制在
上,看作
上的线性算子。

既然要从根子空间中找基,那就必然要关注根子空间中的向量——广义特征向量的定义,而其中的核心就是这个式子:

借助对这个式子的变形,我们还提出了广义特征向量链(下面简称特征向量链):

链上的所有向量也都在

中,而这条链最后的向量
,就是线性算子
的特征向量;并且我们还知道(定理21.1)这条链里的向量都是线性无关的。

当然,这条链可能还可以往前拓展,也就是某个存在

,使得

或等价地写成

但由于

是有限维的,因此这条链不会无限拓展下去,它必然有一个“头”和一个“尾”,链尾部就是一般的特征向量。(特征向量链也可以看作是从一般特征向量往头部“逆生长”的结果。)

这样一来,假设我们要开始找

的一组基,若我们找到第一个向量
,它是包含着它的特征向量链的“头”(从而这样的链是唯一的),那么整个链中的元素都可以加入到这组基里面。对于这些向量,不妨设
的指数为
(这意味着链中有
个元素),并令
,那么就有

假设已经找到了一组包含

的基,
在这组基下的表示矩阵是
,且可知
在这组基下的坐标向量就是
,因而上式可改写为

写成矩阵形式就是

这样就得到了

的显式表达,可以发现它与对角矩阵有些相似,表现为对角线上都是特征值
,但
的每个对角线元素下面还多了一个
。事实上,
就是一个若尔当块。

定义形如

矩阵称为
若尔当块

如果

的一组基里的向量可以被组织成若干个
包含“尾”的特征向量链,那么
(在
上的限制)在这组基下的矩阵表示矩阵
就会形如(分块形式)

定义

均为若尔当块,则形如

矩阵称为
若尔当标准型(Jordan standard form)
若尔当标准型的特征是:对角线上为任意元素,下方(也有写在上方的;事实上,只要重排基向量的顺序就可以得到这样的若尔当标准型)次对角线上为1或0,其它元素均为0。

如果再将各个根子空间

的基拼起来作为全空间
的一组基,则
在这组基下的表示矩阵将是

其中

可以发现

也是若尔当标准型。

但可惜的是,对于第二个向量

,我们不能保证它的特征向量链上的每个元素都与第一条链中的
无关,即使
与它们无关。这是因为线性算子
是幂零算子,进而必然有零特征值,故其核空间维数大于
,由秩-零度定理,其像空间维数小于
,也就是说必然有两个线性无关的向量被映射为了线性相关的向量,这两个向量的特征向量链就是例证。

这意味着如果要将链上的元素加入到基中,特征向量链不一定能走到尾。其实,特征向量链的线性无关的尾的最大个数就等于特征子空间的维数,也就是相应特征值的几何重数。我们想要从这些“尾”(也就是一般特征向量)“生长”出可以能构成全空间的基的特征向量链,但这似乎没有那么容易证明。

二、若尔当标准型分解

不过尽管如此,我们依然有别的方法证明这个结论,那就是我们之前在证明根子空间分解时用过的数学归纳法。

定理22.1

为一线性算子,
属于
的一个根子空间,
上必然有下面一组向量作基:

这些向量且满足

。从而
(在
上的限制 )在这组基下的表示矩阵为

其中

若尔当块,对角线上元素均为

该定理描述的就是我们前面所讲的内容(

的一组基里的向量可以被组织成若干个包含“尾”的特征向量链):上面基所排成的阵列的每一列就是一条特征向量链,且最后一行的元素分别为其所在链的尾部。

先注意到

下也是不变的(因其分别在
下不变),因此可以将
的作用域限制在
上(后面都是这么做)。记

限制在
上(而不是全空间
)的像集,则由于
下不变,故
;并且
下也不变,因为对任意

都有

,因此

准备工作完成,接下来我们对

的维数用数学归纳法。若
,取
作为基,并由于
下不变,故可设
。由定义,存在正整数
使得

,因此
的满足条件的基(此时
)。

若定理对

成立,下面考虑
的情况。

上是幂零算子,必然有零特征值,故
,由秩-零度定理,
下不变,则
可以看作
限制在其上时的根子空间(换句话说,若
上幂零,那么显然
上也幂零),由归纳假设,
上有一组基

并由定义,存在

使得

并注意到

,这意味着
,且它们线性无关。将它们扩充为
的一组基,也就是

而向量组

在用

变换后是
的一组基,因此这两个向量组里总共有

个向量,它们都属于

而且我们还可以证明它们线性无关;如果承认这点,那么上面两个向量组拼起来就组成了

的一组基。这就满足了定理条件,即数学归纳法成立。
总结一下我们在该证明中做了什么:用归纳假设取像空间
的一组基,然后往向量组中加入
个原像,再加入
的一些向量(使得整个向量组中含有核空间的一组基),所得的向量组即为所求。

为证明该结论,我们推广地证明对任何线性算子

,其像空间的一组基向量的原像(各取一个)与其核空间中一组基向量都是线性无关的。

即,若向量

满足
的一组基向量,而向量
,则这
个向量线性无关。

这是简单的,因为若设

则对等式两边同时作用

,就有

由于它们是

的一组基,故
。因此

同样由于它们是一组基向量,

,故这
个向量线性无关。

结合根子空间分解定理,我们就可以得到下面的最终结论:

定理22.2(表述一)

为一线性算子,则存在
的一组基,使得
上的表示矩阵为若尔当标准型。
(表述二)任何复方阵
都相似于一个若尔当标准型。即存在可逆矩阵
和若尔当标准型
,使得
至此,我们终于回到了矩阵。

我们来研究这个若尔当标准型

和原矩阵
的关系。先写出
的形式:

其中每个小若尔当形

矩阵,且对角线上的元素都为
,由根子空间分解定理,
就是
的所有互不相同的特征值,也就是
的所有互不相同的特征值。若尔当标准型
是三角矩阵,因此容易求得其特征多项式

也就是说,特征值

的代数重数
就是小若尔当形
的阶数,而这个若尔当形正是线性算子
在其根子空间
上的表示矩阵——也就是说,代数重数
就是
的根子空间
的维数。
这就是在本篇文章开头以猜想形式所提示的。

自然而然,几何重数不大于代数重数

的论断就不证自明了:特征子空间是根子空间的子空间。

此外,观察矩阵

的形式,我们还可以得到对
的特征值
的几何重数的另一个刻画:即
的若尔当标准型
中包含的(对角线为
的)若尔当块的数目。这是因为(以
为例):

而对于

的对角块
(对角线上元素仍为非零);而对
来说,观察其包含的若尔当块

这意味着

。也就是说,每一个对角元素为
的若尔当块,都会使
在减去
后的秩减少
;而其它特征值的若尔当块则对
减去
后的秩没有影响。假设有
个对角元素为
的若尔当块,则
为方阵
的大小),故

根据定义,此即特征值

的几何重数。

从定理22.2的证明方法中可以看出一些问题:我们证明了若尔当标准型存在,但对于一个特定的矩阵,我们去如何求解它?换句话说,如何确定次对角线上哪些元素是0,哪些元素是1?转移矩阵

又该如何确定?

事实上,若要学习有关特定矩阵的若尔当标准型的求解办法,还需要下一点功夫(求解法也不只有一种);另外,我们这里所采用的的证明走的是几何路径,而若尔当标准型还有另外一种代数路径的推导方法,不过那就是

矩阵理论的内容了,这些容我们稍后再谈。我们目前所知道的,是每个线性算子确实都可以有一个极简的表示方法;或者说,每个矩阵都确实能相似于一个形式非常简单的矩阵,而这个极简的形式也已经被我们发掘出来;这种形式上的统一性,已然是一个十分震撼的成果。
而且,若做过一定的题目,就会发现即使我们不知道如何具体求出这个若尔当标准型,也不影响我们在数学证明和研究中应用它。(很多时候我们也并不想求解它,因为即使知道了方法,它也具有相当的计算量和复杂性。其实,有兴趣的读者可以从“广义特征向量”的定义出发琢磨出若尔当标准型的一个求解方法。)

版权声明:本文为weixin_34723270原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。