范数与导数
向量范数
定义
:
称一个从向量空间R n R^nRn到实数域R RR的非负函数∣ ∣ ⋅ ∣ ∣ ||·||∣∣⋅∣∣为范数,如果它满足:
(1) 正定性:对于所有的v ∈ R n v \in R^nv∈Rn,有∣ ∣ v ∣ ∣ ≥ 0 ||v|| \geq 0∣∣v∣∣≥0,且∣ ∣ v ∣ ∣ = 0 ||v||=0∣∣v∣∣=0当且仅当v = 0 v=0v=0;
(2) 齐次性:对于所有的v ∈ R n v \in R^nv∈Rn和α ∈ R \alpha \in Rα∈R,有∣ ∣ α v ∣ ∣ = ∣ α ∣ ∣ ∣ v ∣ ∣ ||\alpha v||=|\alpha|||v||∣∣αv∣∣=∣α∣∣∣v∣∣;
(3) 三角不等式:对于所有的v , w ∈ R n v,w \in R^nv,w∈Rn,有∣ ∣ v + w ∣ ∣ ≤ ∣ ∣ v ∣ ∣ + ∣ ∣ w ∣ ∣ ||v+w|| \leq ||v|| + ||w||∣∣v+w∣∣≤∣∣v∣∣+∣∣w∣∣。
l p ( p ≥ 1 ) l_p(p \geq 1)lp(p≥1)范数:
∣ ∣ v ∣ ∣ p = ( ∣ v 1 ∣ p + ∣ v 2 ∣ p + . . . + ∣ v n ∣ p ) 1 p (1) ||v||_p=(|v_1|^p+|v_2|^p+...+|v_n|^p)^{\frac{1}{p}} \tag 1∣∣v∣∣p=(∣v1∣p+∣v2∣p+...+∣vn∣p)p1(1)
当p = ∞ p= \inftyp=∞时,l ∞ l_{\infty}l∞范数定义为:
∣ ∣ v ∣ ∣ ∞ = m a x i ∣ v i ∣ (2) ||v||_{\infty}=max_{i} |v_i| \tag 2∣∣v∣∣∞=maxi∣vi∣(2)
在不引起歧义的情况下,我们有时省略l 2 l_2l2范数的角标,记为∣ ∣ ⋅ ∣ ∣ ||·||∣∣⋅∣∣。
对向量的l 2 l_2l2范数,我们有常用的柯西(C a u c h y CauchyCauchy)不等式:
设a , b ∈ R n a,b \in R^na,b∈Rn,则:
∣ a T b ∣ ≤ ∣ ∣ a ∣ ∣ 2 ∣ ∣ b ∣ ∣ 2 (3) |a^{T}b| \leq ||a||_2||b||_2 \tag 3∣aTb∣≤∣∣a∣∣2∣∣b∣∣2(3)
等号成立当且仅当a aa与b bb线性相关。
矩阵范数
和向量范数类似,矩阵范数是定义在矩阵空间上的非负函数,并且满足正定性、齐次性和三角不等式。向量的l p l_plp范数可以比较容易地推广到矩阵的l p l_plp范数。
当p = 1 p=1p=1时,矩阵A ∈ R m × n A \in R^{m \times n}A∈Rm×n的l 1 l_1l1范数定义为:
∣ ∣ A ∣ ∣ 1 = ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ (4) ||A||_1=\sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}| \tag 4∣∣A∣∣1=i=1∑mj=1∑n∣aij∣(4)
即∣ ∣ A ∣ ∣ 1 ||A||_1∣∣A∣∣1为A AA中所有元素绝对值的和。当p = 2 p=2p=2时,此时得到的是矩阵的F r o b e n i u s FrobeniusFrobenius范数,记为∣ ∣ A ∣ ∣ F ||A||_F∣∣A∣∣F。它可以看成是向量的l 2 l_2l2范数的推广,即所有元素平方和开根号:
∣ ∣ A ∣ ∣ F = T r ( A A T ) = ∑ i , j a i j 2 (5) ||A||_F=\sqrt{Tr(AA^T)}=\sqrt{\sum_{i,j} a_{ij}^2} \tag 5∣∣A∣∣F=Tr(AAT)=i,j∑aij2(5)
这里,T r ( X ) Tr(X)Tr(X)表示方阵X XX的迹(矩阵主对角线所有元素之和)。
矩阵的F FF范数具有正交不变性,即对于任意的正交矩阵U ∈ R m × m U \in R^{m \times m}U∈Rm×m,V ∈ R n × n V \in R^{n \times n}V∈Rn×n,我们有:
∣ ∣ U A V ∣ ∣ F 2 = T r ( U A V V T A T U T ) = T r ( U A A T U T ) = T r ( A A T U T U ) = T r ( A A T ) = ∣ ∣ A ∣ ∣ F 2 (6) ||UAV||_{F}^{2}=Tr(UAVV^TA^TU^T)=Tr(UAA^TU^T) \\ =Tr(AA^TU^TU)=Tr(AA^T)=||A||_{F}^{2} \tag 6∣∣UAV∣∣F2=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=∣∣A∣∣F2(6)
其中第三个等号成立是因为:
T r ( A B ) = T r ( B A ) (7) Tr(AB)=Tr(BA) \tag 7Tr(AB)=Tr(BA)(7)
这里将U UU看作A AA,将A A T U T AA^TU^TAATUT看作B BB。
矩阵范数还可以由向量范数诱导出来,一般称为这种范数为算子范数。给定矩阵A ∈ R m × n A \in R^{m \times n}A∈Rm×n,以及m mm维和n nn维空间的向量范数∣ ∣ ⋅ ∣ ∣ ( m ) ||·||_{(m)}∣∣⋅∣∣(m)和∣ ∣ ⋅ ∣ ∣ ( n ) ||·||_{(n)}∣∣⋅∣∣(n),其诱导的矩阵范数定义如下:
∣ ∣ A ∣ ∣ ( m , n ) = m a x x ∈ R n , ∣ ∣ x ∣ ∣ ( n ) = 1 ∣ ∣ A x ∣ ∣ ( m ) (8) ||A||_{(m,n)}=max_{x \in R^n , ||x||_{(n)}=1} \ ||Ax||_{(m)} \tag 8∣∣A∣∣(m,n)=maxx∈Rn,∣∣x∣∣(n)=1 ∣∣Ax∣∣(m)(8)
容易验证∣ ∣ ⋅ ∣ ∣ ( m , n ) ||·||_{(m,n)}∣∣⋅∣∣(m,n)满足范数的定义。如果将∣ ∣ ⋅ ∣ ∣ ( m ) ||·||_{(m)}∣∣⋅∣∣(m)和∣ ∣ ⋅ ∣ ∣ ( n ) ||·||_{(n)}∣∣⋅∣∣(n)都取为相应向量空间的l p l_plp范数,我们可以得到矩阵的p pp范数。
∣ ∣ A ∣ ∣ 2 = m a x x ∈ R n , ∣ ∣ x ∣ ∣ 2 = 1 ∣ ∣ A x ∣ ∣ 2 (9) ||A||_2=max_{x \in R^n , ||x||_2=1} \ ||Ax||_2 \tag 9∣∣A∣∣2=maxx∈Rn,∣∣x∣∣2=1 ∣∣Ax∣∣2(9)
矩阵的2-范数是该矩阵的最大奇异值。
奇异值的解释
:
设A AA为m ∗ n m*nm∗n阶矩阵,A ∗ A A^{*}AA∗A的n nn个特征值的非负平方根叫作A AA的奇异值。A ∗ A^{*}A∗表示A AA的共轭转置矩阵,如果把A ∗ A A^{*}AA∗A的特征值记为λ i ( A ∗ A ) \lambda_i(A^{*}A)λi(A∗A),则:
σ i ( A ) = λ i ( A ∗ A ) (10) \sigma_i(A)=\sqrt{\lambda_i(A^{*}A)} \tag {10}σi(A)=λi(A∗A)(10)
根据算子范数的定义,所有算子范数都满足如下性质(相容性):
∣ ∣ A x ∣ ∣ ( m ) ≤ ∣ ∣ A ∣ ∣ ( m , n ) ∣ ∣ x ∣ ∣ ( n ) (11) ||Ax||_{(m)} \leq ||A||_{(m,n)} ||x||_{(n)} \tag {11}∣∣Ax∣∣(m)≤∣∣A∣∣(m,n)∣∣x∣∣(n)(11)
即∣ ∣ ⋅ ∣ ∣ ( m , n ) ||·||_{(m,n)}∣∣⋅∣∣(m,n)与∣ ∣ ⋅ ∣ ∣ ( m ) ||·||_{(m)}∣∣⋅∣∣(m)和∣ ∣ ⋅ ∣ ∣ ( n ) ||·||_{(n)}∣∣⋅∣∣(n)是相容的。
核范数
:
给定矩阵A ∈ R m × n A \in R_{m \times n}A∈Rm×n,其核范数定义为:
∣ ∣ A ∣ ∣ ∗ = ∑ i = 1 r σ i (12) ||A||_{*}=\sum_{i=1}^{r} \sigma_i \tag {12}∣∣A∣∣∗=i=1∑rσi(12)
其中σ i , i = 1 , 2 , . . . , r \sigma_i,i=1,2,...,rσi,i=1,2,...,r为A AA的所有非零奇异值,r = r a n k ( A ) r=rank(A)r=rank(A)。
矩阵的内积
对于矩阵空间R m × n R^{m \times n}Rm×n的两个矩阵A AA和B BB,除了定义它们各自的范数以外,我们还可以定义它们之间的内积。范数一般用来衡量矩阵的模的大小,而内积一般用来表征两个矩阵(或其张成的空间)之间的夹角。
F r o b e n i u s FrobeniusFrobenius内积:
< A , B > = d e f T r ( A B T ) = ∑ i = 1 m ∑ j = 1 n a i j b i j (13) <A,B> \overset{def}{=} Tr(AB^T) = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij} b_{ij} \tag {13}<A,B>=defTr(ABT)=i=1∑mj=1∑naijbij(13)
易知该内积为两个矩阵逐分量相乘的和,因而满足内积的定义。当A = B A=BA=B时,< A , B > <A,B><A,B>等于矩阵A AA的F FF范数的平方。
矩阵范数的柯西不等式
:
设A , B ∈ R m × n A,B \in R^{m \times n}A,B∈Rm×n,则:
∣ < A , B > ∣ ≤ ∣ ∣ A ∣ ∣ F ∣ ∣ B ∣ ∣ F (14) |<A,B>| \leq ||A||_F ||B||_F \tag {14}∣<A,B>∣≤∣∣A∣∣F∣∣B∣∣F(14)
等号成立当且仅当A AA和B BB线性相关。
导数部分:
简介
:
为了分析可微最优化问题的性质,我们需要知道目标函数和约束函数的导数信息.在算法设计中,当优化问题没有显式解时,我们也往往通过函数值和导数信息来构造容易求解的子问题.利用目标函数和约束函数的导数信息,可以确保构造的子问题具有很好的逼近性质,从而构造各种各样有效的算法.
梯度
给定函数f : R n → R f: R^n \rightarrow Rf:Rn→R,且f ff在点x xx的一个领域内有意义,若存在向量g ∈ R n g \in R^ng∈Rn满足:
l i m p → 0 f ( x + p ) − f ( x ) − g T p ∣ ∣ p ∣ ∣ = 0 (1) \underset{p \rightarrow 0}{lim} \frac{f(x+p)-f(x)-g^Tp}{||p||} = 0 \tag 1p→0lim∣∣p∣∣f(x+p)−f(x)−gTp=0(1)
其中∣ ∣ ⋅ ∣ ∣ ||·||∣∣⋅∣∣是任意的向量范数,就称f ff在点x xx处可微。此时g gg称为f ff在点x xx处的梯度,记作▽ f ( x ) \bigtriangledown f(x)▽f(x)。如果对区域D DD上的每个点x xx都有▽ f ( x ) \bigtriangledown f(x)▽f(x)存在,则称为f ff在D DD上可微。
若f ff在点x xx处的梯度存在,令p = ε e i p=\varepsilon e_ip=εei,e i e_iei是第i ii个分量为1的单位向量,可知▽ f ( x ) \bigtriangledown f(x)▽f(x)的第i ii个分量为∂ f ( x ) ∂ x i \frac{\partial f(x)}{\partial x_i}∂xi∂f(x),因此,
▽ f ( x ) = [ ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , . . . , ∂ f ( x ) ∂ x n ] T (2) \bigtriangledown f(x)=[\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},...,\frac{\partial f(x)}{\partial x_n}]^T \tag 2▽f(x)=[∂x1∂f(x),∂x2∂f(x),...,∂xn∂f(x)]T(2)
如果只关心对一部分变量的梯度,可以通过对▽ \bigtriangledown▽加下标来表示。例如,▽ x f ( x , y ) \bigtriangledown_xf(x,y)▽xf(x,y)表示为y yy视为常数时f ff关于x xx的梯度。
海瑟矩阵
如果函数f ( x ) : R n → R f(x): R^n \rightarrow Rf(x):Rn→R在点x xx处的二阶偏导数∂ 2 f ( x ) ∂ x i ∂ x j i , j = 1 , 2 , . . . , n \frac{\partial^2f(x)}{\partial x_i \partial x_j} i,j=1,2,...,n∂xi∂xj∂2f(x)i,j=1,2,...,n都存在,则:
▽ 2 f ( x ) = [ ∂ 2 f ( x ) ∂ x 1 2 ∂ 2 f ( x ) ∂ x 1 ∂ x 2 ∂ 2 f ( x ) ∂ x 1 ∂ x 3 . . . ∂ 2 f ( x ) ∂ x 1 ∂ x n ∂ 2 f ( x ) ∂ x 2 ∂ x 1 ∂ 2 f ( x ) ∂ x 2 2 ∂ 2 f ( x ) ∂ x 2 ∂ x 3 . . . ∂ 2 f ( x ) ∂ x 2 ∂ x n . . . . . . . . . . . . . . . ∂ 2 f ( x ) ∂ x n ∂ x 1 ∂ 2 f ( x ) ∂ x n ∂ x 2 ∂ 2 f ( x ) ∂ x n ∂ x 3 . . . ∂ 2 f ( x ) ∂ x n 2 ] \bigtriangledown^2 f(x)= \left[ \begin{array}{cc} \frac{\partial^2f(x)}{\partial x_1^2} & \frac{\partial^2f(x)}{\partial x_1 \partial x_2} & \frac{\partial^2f(x)}{\partial x_1 \partial x_3} & ... & \frac{\partial^2f(x)}{\partial x_1 \partial x_n} \\ \frac{\partial^2f(x)}{\partial x_2 \partial x_1} & \frac{\partial^2f(x)}{\partial x_2^2} & \frac{\partial^2f(x)}{\partial x_2 \partial x_3} & ... & \frac{\partial^2f(x)}{\partial x_2 \partial x_n} \\ ... & ... & ... & ... & ... \\ \frac{\partial^2f(x)}{\partial x_n \partial x_1} & \frac{\partial^2f(x)}{\partial x_n \partial x_2} & \frac{\partial^2f(x)}{\partial x_n \partial x_3} & ... & \frac{\partial^2f(x)}{\partial x_n^2} \end{array} \right ]▽2f(x)=⎣⎡∂x12∂2f(x)∂x2∂x1∂2f(x)...∂xn∂x1∂2f(x)∂x1∂x2∂2f(x)∂x22∂2f(x)...∂xn∂x2∂2f(x)∂x1∂x3∂2f(x)∂x2∂x3∂2f(x)...∂xn∂x3∂2f(x)............∂x1∂xn∂2f(x)∂x2∂xn∂2f(x)...∂xn2∂2f(x)⎦⎤
称为f ff在点x xx处的海瑟矩阵。