范数与导数

范数与导数

向量范数

定义
称一个从向量空间R n R^nRn到实数域R RR的非负函数∣ ∣ ⋅ ∣ ∣ ||·||∣∣∣∣为范数,如果它满足:
(1) 正定性:对于所有的v ∈ R n v \in R^nvRn,有∣ ∣ v ∣ ∣ ≥ 0 ||v|| \geq 0∣∣v∣∣0,且∣ ∣ v ∣ ∣ = 0 ||v||=0∣∣v∣∣=0当且仅当v = 0 v=0v=0
(2) 齐次性:对于所有的v ∈ R n v \in R^nvRnα ∈ R \alpha \in RαR,有∣ ∣ α v ∣ ∣ = ∣ α ∣ ∣ ∣ v ∣ ∣ ||\alpha v||=|\alpha|||v||∣∣αv∣∣=α∣∣∣v∣∣
(3) 三角不等式:对于所有的v , w ∈ R n v,w \in R^nv,wRn,有∣ ∣ v + w ∣ ∣ ≤ ∣ ∣ v ∣ ∣ + ∣ ∣ w ∣ ∣ ||v+w|| \leq ||v|| + ||w||∣∣v+w∣∣∣∣v∣∣+∣∣w∣∣
l p ( p ≥ 1 ) l_p(p \geq 1)lp(p1)范数:
∣ ∣ v ∣ ∣ p = ( ∣ v 1 ∣ p + ∣ v 2 ∣ p + . . . + ∣ v n ∣ p ) 1 p (1) ||v||_p=(|v_1|^p+|v_2|^p+...+|v_n|^p)^{\frac{1}{p}} \tag 1∣∣vp=(v1p+v2p+...+vnp)p1(1)
p = ∞ p= \inftyp=时,l ∞ l_{\infty}l范数定义为:
∣ ∣ v ∣ ∣ ∞ = m a x i ∣ v i ∣ (2) ||v||_{\infty}=max_{i} |v_i| \tag 2∣∣v=maxivi(2)

在不引起歧义的情况下,我们有时省略l 2 l_2l2范数的角标,记为∣ ∣ ⋅ ∣ ∣ ||·||∣∣∣∣

对向量的l 2 l_2l2范数,我们有常用的柯西(C a u c h y CauchyCauchy)不等式:
a , b ∈ R n a,b \in R^na,bRn,则:
∣ a T b ∣ ≤ ∣ ∣ a ∣ ∣ 2 ∣ ∣ b ∣ ∣ 2 (3) |a^{T}b| \leq ||a||_2||b||_2 \tag 3aTb∣∣a2∣∣b2(3)
等号成立当且仅当a aab bb线性相关。

矩阵范数

和向量范数类似,矩阵范数是定义在矩阵空间上的非负函数,并且满足正定性、齐次性和三角不等式。向量的l p l_plp范数可以比较容易地推广到矩阵的l p l_plp范数。
p = 1 p=1p=1时,矩阵A ∈ R m × n A \in R^{m \times n}ARm×nl 1 l_1l1范数定义为:
∣ ∣ A ∣ ∣ 1 = ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ (4) ||A||_1=\sum_{i=1}^{m} \sum_{j=1}^{n} |a_{ij}| \tag 4∣∣A1=i=1mj=1naij(4)
∣ ∣ A ∣ ∣ 1 ||A||_1∣∣A1A AA中所有元素绝对值的和。当p = 2 p=2p=2时,此时得到的是矩阵的F r o b e n i u s FrobeniusFrobenius范数,记为∣ ∣ A ∣ ∣ F ||A||_F∣∣AF。它可以看成是向量的l 2 l_2l2范数的推广,即所有元素平方和开根号:
∣ ∣ A ∣ ∣ F = T r ( A A T ) = ∑ i , j a i j 2 (5) ||A||_F=\sqrt{Tr(AA^T)}=\sqrt{\sum_{i,j} a_{ij}^2} \tag 5∣∣AF=Tr(AAT)=i,jaij2(5)
这里,T r ( X ) Tr(X)Tr(X)表示方阵X XX的迹(矩阵主对角线所有元素之和)。
矩阵的F FF范数具有正交不变性,即对于任意的正交矩阵U ∈ R m × m U \in R^{m \times m}URm×mV ∈ R n × n V \in R^{n \times n}VRn×n,我们有:
∣ ∣ U A V ∣ ∣ F 2 = T r ( U A V V T A T U T ) = T r ( U A A T U T ) = T r ( A A T U T U ) = T r ( A A T ) = ∣ ∣ A ∣ ∣ F 2 (6) ||UAV||_{F}^{2}=Tr(UAVV^TA^TU^T)=Tr(UAA^TU^T) \\ =Tr(AA^TU^TU)=Tr(AA^T)=||A||_{F}^{2} \tag 6∣∣UAVF2=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=∣∣AF2(6)
其中第三个等号成立是因为:
T r ( A B ) = T r ( B A ) (7) Tr(AB)=Tr(BA) \tag 7Tr(AB)=Tr(BA)(7)
这里将U UU看作A AA,将A A T U T AA^TU^TAATUT看作B BB
矩阵范数还可以由向量范数诱导出来,一般称为这种范数为算子范数。给定矩阵A ∈ R m × n A \in R^{m \times n}ARm×n,以及m mm维和n nn维空间的向量范数∣ ∣ ⋅ ∣ ∣ ( m ) ||·||_{(m)}∣∣(m)∣ ∣ ⋅ ∣ ∣ ( n ) ||·||_{(n)}∣∣(n),其诱导的矩阵范数定义如下:
∣ ∣ A ∣ ∣ ( m , n ) = m a x x ∈ R n , ∣ ∣ x ∣ ∣ ( n ) = 1   ∣ ∣ A x ∣ ∣ ( m ) (8) ||A||_{(m,n)}=max_{x \in R^n , ||x||_{(n)}=1} \ ||Ax||_{(m)} \tag 8∣∣A(m,n)=maxxRn,∣∣x(n)=1 ∣∣Ax(m)(8)
容易验证∣ ∣ ⋅ ∣ ∣ ( m , n ) ||·||_{(m,n)}∣∣(m,n)满足范数的定义。如果将∣ ∣ ⋅ ∣ ∣ ( m ) ||·||_{(m)}∣∣(m)∣ ∣ ⋅ ∣ ∣ ( n ) ||·||_{(n)}∣∣(n)都取为相应向量空间的l p l_plp范数,我们可以得到矩阵的p pp范数。
∣ ∣ A ∣ ∣ 2 = m a x x ∈ R n , ∣ ∣ x ∣ ∣ 2 = 1   ∣ ∣ A x ∣ ∣ 2 (9) ||A||_2=max_{x \in R^n , ||x||_2=1} \ ||Ax||_2 \tag 9∣∣A2=maxxRn,∣∣x2=1 ∣∣Ax2(9)
矩阵的2-范数是该矩阵的最大奇异值。
奇异值的解释
A AAm ∗ n m*nmn阶矩阵,A ∗ A A^{*}AAAn nn个特征值的非负平方根叫作A AA的奇异值。A ∗ A^{*}A表示A AA的共轭转置矩阵,如果把A ∗ A A^{*}AAA的特征值记为λ i ( A ∗ A ) \lambda_i(A^{*}A)λi(AA),则:
σ i ( A ) = λ i ( A ∗ A ) (10) \sigma_i(A)=\sqrt{\lambda_i(A^{*}A)} \tag {10}σi(A)=λi(AA)(10)
根据算子范数的定义,所有算子范数都满足如下性质(相容性):
∣ ∣ A x ∣ ∣ ( m ) ≤ ∣ ∣ A ∣ ∣ ( m , n ) ∣ ∣ x ∣ ∣ ( n ) (11) ||Ax||_{(m)} \leq ||A||_{(m,n)} ||x||_{(n)} \tag {11}∣∣Ax(m)∣∣A(m,n)∣∣x(n)(11)
∣ ∣ ⋅ ∣ ∣ ( m , n ) ||·||_{(m,n)}∣∣(m,n)∣ ∣ ⋅ ∣ ∣ ( m ) ||·||_{(m)}∣∣(m)∣ ∣ ⋅ ∣ ∣ ( n ) ||·||_{(n)}∣∣(n)是相容的。
核范数
给定矩阵A ∈ R m × n A \in R_{m \times n}ARm×n,其核范数定义为:
∣ ∣ A ∣ ∣ ∗ = ∑ i = 1 r σ i (12) ||A||_{*}=\sum_{i=1}^{r} \sigma_i \tag {12}∣∣A=i=1rσi(12)
其中σ i , i = 1 , 2 , . . . , r \sigma_i,i=1,2,...,rσi,i=1,2,...,rA AA的所有非零奇异值,r = r a n k ( A ) r=rank(A)r=rank(A)

矩阵的内积

对于矩阵空间R m × n R^{m \times n}Rm×n的两个矩阵A AAB BB,除了定义它们各自的范数以外,我们还可以定义它们之间的内积。范数一般用来衡量矩阵的模的大小,而内积一般用来表征两个矩阵(或其张成的空间)之间的夹角
F r o b e n i u s FrobeniusFrobenius内积:
< A , B > = d e f T r ( A B T ) = ∑ i = 1 m ∑ j = 1 n a i j b i j (13) <A,B> \overset{def}{=} Tr(AB^T) = \sum_{i=1}^{m} \sum_{j=1}^{n} a_{ij} b_{ij} \tag {13}<A,B>=defTr(ABT)=i=1mj=1naijbij(13)
易知该内积为两个矩阵逐分量相乘的和,因而满足内积的定义。当A = B A=BA=B时,< A , B > <A,B><A,B>等于矩阵A AAF FF范数的平方。
矩阵范数的柯西不等式
A , B ∈ R m × n A,B \in R^{m \times n}A,BRm×n,则:
∣ < A , B > ∣ ≤ ∣ ∣ A ∣ ∣ F ∣ ∣ B ∣ ∣ F (14) |<A,B>| \leq ||A||_F ||B||_F \tag {14}<A,B>∣∣AF∣∣BF(14)
等号成立当且仅当A AAB BB线性相关。

导数部分
简介:
为了分析可微最优化问题的性质,我们需要知道目标函数和约束函数的导数信息.在算法设计中,当优化问题没有显式解时,我们也往往通过函数值和导数信息来构造容易求解的子问题.利用目标函数和约束函数的导数信息,可以确保构造的子问题具有很好的逼近性质,从而构造各种各样有效的算法.

梯度

给定函数f : R n → R f: R^n \rightarrow Rf:RnR,且f ff在点x xx的一个领域内有意义,若存在向量g ∈ R n g \in R^ngRn满足:
l i m p → 0 f ( x + p ) − f ( x ) − g T p ∣ ∣ p ∣ ∣ = 0 (1) \underset{p \rightarrow 0}{lim} \frac{f(x+p)-f(x)-g^Tp}{||p||} = 0 \tag 1p0lim∣∣p∣∣f(x+p)f(x)gTp=0(1)
其中∣ ∣ ⋅ ∣ ∣ ||·||∣∣∣∣是任意的向量范数,就称f ff在点x xx可微。此时g gg称为f ff在点x xx处的梯度,记作▽ f ( x ) \bigtriangledown f(x)f(x)如果对区域D DD上的每个点x xx都有▽ f ( x ) \bigtriangledown f(x)f(x)存在,则称为f ffD DD上可微
f ff在点x xx处的梯度存在,令p = ε e i p=\varepsilon e_ip=εeie i e_iei是第i ii个分量为1的单位向量,可知▽ f ( x ) \bigtriangledown f(x)f(x)的第i ii个分量为∂ f ( x ) ∂ x i \frac{\partial f(x)}{\partial x_i}xif(x),因此,
▽ f ( x ) = [ ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , . . . , ∂ f ( x ) ∂ x n ] T (2) \bigtriangledown f(x)=[\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},...,\frac{\partial f(x)}{\partial x_n}]^T \tag 2f(x)=[x1f(x),x2f(x),...,xnf(x)]T(2)
如果只关心对一部分变量的梯度,可以通过对▽ \bigtriangledown加下标来表示。例如,▽ x f ( x , y ) \bigtriangledown_xf(x,y)xf(x,y)表示为y yy视为常数时f ff关于x xx的梯度。

海瑟矩阵

如果函数f ( x ) : R n → R f(x): R^n \rightarrow Rf(x):RnR在点x xx处的二阶偏导数∂ 2 f ( x ) ∂ x i ∂ x j i , j = 1 , 2 , . . . , n \frac{\partial^2f(x)}{\partial x_i \partial x_j} i,j=1,2,...,nxixj2f(x)i,j=1,2,...,n都存在,则:
▽ 2 f ( x ) = [ ∂ 2 f ( x ) ∂ x 1 2 ∂ 2 f ( x ) ∂ x 1 ∂ x 2 ∂ 2 f ( x ) ∂ x 1 ∂ x 3 . . . ∂ 2 f ( x ) ∂ x 1 ∂ x n ∂ 2 f ( x ) ∂ x 2 ∂ x 1 ∂ 2 f ( x ) ∂ x 2 2 ∂ 2 f ( x ) ∂ x 2 ∂ x 3 . . . ∂ 2 f ( x ) ∂ x 2 ∂ x n . . . . . . . . . . . . . . . ∂ 2 f ( x ) ∂ x n ∂ x 1 ∂ 2 f ( x ) ∂ x n ∂ x 2 ∂ 2 f ( x ) ∂ x n ∂ x 3 . . . ∂ 2 f ( x ) ∂ x n 2 ] \bigtriangledown^2 f(x)= \left[ \begin{array}{cc} \frac{\partial^2f(x)}{\partial x_1^2} & \frac{\partial^2f(x)}{\partial x_1 \partial x_2} & \frac{\partial^2f(x)}{\partial x_1 \partial x_3} & ... & \frac{\partial^2f(x)}{\partial x_1 \partial x_n} \\ \frac{\partial^2f(x)}{\partial x_2 \partial x_1} & \frac{\partial^2f(x)}{\partial x_2^2} & \frac{\partial^2f(x)}{\partial x_2 \partial x_3} & ... & \frac{\partial^2f(x)}{\partial x_2 \partial x_n} \\ ... & ... & ... & ... & ... \\ \frac{\partial^2f(x)}{\partial x_n \partial x_1} & \frac{\partial^2f(x)}{\partial x_n \partial x_2} & \frac{\partial^2f(x)}{\partial x_n \partial x_3} & ... & \frac{\partial^2f(x)}{\partial x_n^2} \end{array} \right ]2f(x)=x122f(x)x2x12f(x)...xnx12f(x)x1x22f(x)x222f(x)...xnx22f(x)x1x32f(x)x2x32f(x)...xnx32f(x)............x1xn2f(x)x2xn2f(x)...xn22f(x)
称为f ff在点x xx处的海瑟矩阵。


版权声明:本文为linjing_zyq原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。