最优化计算方法 – 源码巴士

#最优化计算方法
本文记录了博主在学习《最优化计算方法》时的总结，主要侧重于与深度学习相关的内容，更新于2018.09.17。
书目信息：《最优化计算方法》，黄正海等著，出版时间2015.02，科学出版社。

更多内容，欢迎加入星球讨论。
在这里插入图片描述

文章目录

##第1章引论
###最优化问题概述
最优化要解决的问题：在一定限制条件下使得所关心的指标达到最优。
最优化问题的基本数学模型：

$KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ &\min \quad &f…$

其中 $x\in \mathbb R^n$ 称为决策向量，函数 $f:\mathbb R^n \to \mathbb R$ 称为目标函数，函数 $c_i(\cdot)(i \in I)$ 称为不等式约束函数，函数 $c_i(\cdot)(i\in E)$ 称为等式约束函数，不等式 $c_i(x)\geq0(i\in I)$ 称为不等式约束，方程 $c_i(x)=0(i\in E)$ 称为等式约束， $I$ 称为不等式约束的指标集， $E$ 称为等式约束的指标集。记：

\begin{split}
\mathscr F:=\left{ x\in \mathbb R^n \left\vert
\begin{aligned}
& c_i(x)\geq 0,\quad \forall i\in I={1,2,\cdot\cdot\cdot,p};\
& c_i(x)=0,\quad \forall i\in E={p+1,p+2,\cdot\cdot\cdot,m}
\end{aligned}
\right. \right}
\end{split}

称 $\mathscr F$ 为上述最优化问题的可行域， $\mathscr F$ 中的每个点 $x$ 称为上述最优化问题的一个可行点。若 $\mathscr F=\varnothing$ ，则称上述最优化问题不可行；否则，称问题是可行的。

因此，上述最优化问题就是在可行域 $\mathscr F$ 中找到一个点 $x$ ，使其对应的 $f (x)$ 的值不大于任何其他 $\mathscr F$ 中的点对应的目标函数值。

**定义：**假设可行域 $\mathscr F$ 由上式给出：
（i）若 $x^*\in \mathscr F$ ，且对所有的 $x\in \mathscr F$ 恒有 $f(x^*)\leq f(x)$ ，则称 $x^*$ 为上述最优化问题的一个全局解；
（ii）若 $x^*\in \mathscr F$ ，且对所有的 $x\in \mathscr F/\ {x^*}$ 恒有 $f(x^*)\lt f(x)$ ，则称 $x^*$ 为上述最优化问题的严格全局最优解；
（iii）若 $x^*\in \mathscr F$ ，且存在 $x^*$ 的某个邻域
$\mathscr N_\varepsilon (x^*)"=\left\{x\in \mathbb R^n \left\vert \Vert x-x^*\Vert \lt \varepsilon \right. \right\}，\varepsilon 为正实数且\Vert\cdot\Vert表示某种范数$
使得对所有的 $x\in \mathscr F \cap\mathscr N_\varepsilon(x^*)$ 恒有 $f(x^*)\leq f(x)$ ，那么称 $x^*$ 为上述最优化问题的一个局部最优解。
（iv）若 $x^*\in \mathscr F$ ，且存在 $x^*$ 的某个邻域 $\mathscr N_\varepsilon(x^*)$ ，使得对所有的 $x\in\mathscr F \cap \mathscr N_\varepsilon(x^*)/\ {x^*}$ 恒有 $f(x^*)\lt f(x)$ ，那么称 $x^*$ 为为上述最优化问题的一个严格局部最优解。

**定义：**对于上述最优化问题，称其最优解 $x^*$ 对应的目标函数值 $f(x^*)$ 为此优化问题的最优值。

最优解不一定存在，存在也不一定唯一，但如果存在最优解，那么最优值一定唯一。最优化问题也常被写成：

\begin{split}
\min\left{f(x) \left\vert
\begin{aligned}
& c_i(x)\geq 0,\quad \forall i\in I={1,2,\cdot\cdot\cdot,p};\
& c_i(x)=0,\quad \forall i\in E={p+1,p+2,\cdot\cdot\cdot,m}
\end{aligned}
\right. \right}
\end{split}

###预备知识
约定向量取列向量形式，即 $x\in \mathbb R^n$ 是指 $x$ 具有如下形式：

\begin{split}
x:=(x_1,x_2,\cdot\cdot\cdot)^T=
\left(
\begin{aligned}
&x1\
&x2\
&\cdot\
&\cdot\
&\cdot\
&x_n
\end{aligned}
\right)
\end{split}

对任意的 $x,y\in \mathbb R^n$ ，常用的内积 $\langle x,y\rangle$ 定义为：
$\langle x,y\rangle:=\sum_{i=1}^nx_iy_i=x^Ty$

常用的向量范数：
$l_1-范数$ ： $\Vert x\Vert_1=\sum_{i=1}^n\vert x_i\vert$
$l_2-范数$ ： $\Vert x\Vert_2=\sqrt{x^Tx}=\sqrt{\sum_{i=1}^nx_i^2}$
$l_\infty-范数$ ： $\Vert x\Vert_\infty=\max \{\vert x_i\vert \vert i\in \{1,2,\cdot\cdot\cdot,n\}\}$

一般地，对于 $p\in \left[1,\infty\right)$ ， $l_p-范数$ 定义为：
$\Vert x_p \Vert=\left( \sum_{i=1}^n\vert x_i\vert^p\right)^{1/p}$

各范数之间的关系有：
$\Vert x \Vert _\infty \leq \Vert x\Vert _2 \leq \Vert x \Vert _1 \leq n\Vert x\Vert _\infty$

常用的矩阵范数
假设 $A\in \mathbb R^{n\times n}$ 是对称正定矩阵，那么向量的椭球范数 $\Vert\cdot\Vert_A$ 定义如下：
$\Vert x \Vert _A:=\sqrt{x^TAx},\quad\forall x \in \mathbb R^n$

对于任意的 $A=(a_{ij})_{n\times n}\in \mathbb R^{n\times n}$ ，常用的矩阵范数是Frobenius范数，定义为：
$\Vert A\Vert _F:=\sqrt{\sum_{i=1}^n\sum_{j=1}^na_{ij}^2}=\sqrt{Tr(A^TA)}$
其中， $Tr(A^TA)$ 表示矩阵 $A^TA$ 的迹，即 $A^TA$ 的所有主对角线元素之和，也等于 $A^TA$ 的所有特征值之和。

另一个常用的矩阵范数是由向量所诱导的矩阵范数，也称算子范数，定义为：
$\Vert A \Vert:=\max_{x\in \mathbb R^n/\ \{0\}}\frac{\Vert Ax\Vert}{\Vert x\Vert},\quad \forall A\in \mathbb R^{n\times n}$
其中， $\Vert \cdot\Vert$ 是某种向量范数。
特别地，对于任意的 $A\in \mathbb R ^{n\times n}$ ，有：

由向量 $l_1-范数$ 诱导的矩阵范数（列范数）为 $\Vert A \Vert _1 = \max \left\{ \sum_{i=1}^n\vert a_{ij}\vert \left\vert j\in \{1,2,\cdot\cdot\cdot,n\}\right. \right\}$
由向量 $l_\infty-范数$ 诱导的矩阵范数（行范数）为 $\Vert A \Vert _\infty = \max \left\{ \sum_{j=1}^n\vert a_{ij}\vert \left\vert i\in \{1,2,\cdot\cdot\cdot,n\}\right. \right\}$
由向量 $l_2-范数$ 诱导的矩阵范数（谱范数）为 $KaTeX parse error: Got function '\max' with no arguments as subscript at position 33: …= \sqrt{\lambda_̲\max(A^TA)}$ ，其中 $KaTeX parse error: Got function '\max' with no arguments as subscript at position 8: \lambda_̲\max(A^TA)$ 表示矩阵 $A^TA$ 的最大特征值。

矩阵范数满足相容性条件，常用的不等式有Cauchy-Schwarz不等式，广义Cauchy-Schwarz不等式，Young不等式，Holder不等式，Minkowski不等式。

函数的可微性
如果函数 $f$ 是二阶连续可微，那么函数 $f$ 在点 $x$ 处的二阶导数组成的矩阵称为Hesse阵。
给定多变量向量值函数 $F$ ，如果其在 $x$ 处连续可微，那么函数 $F$ 在点 $x$ 处的一阶导数矩阵称为Jacobi矩阵。

###凸集、凸函数、凸规划
凸集
给定非空集合 $\mathscr F \subseteq \mathbb R^n$ 。如果对任意的 $x,y\in \mathscr F$ 以及任意的实数 $\alpha \in [0,1]$ 都有
$\alpha x+(1+\alpha)y\in \mathscr F$
那么，称 $\mathscr F$ 为 $\mathbb R^n$ 中的一个凸集。若凸集 $\mathscr F$ 为开集，则称为开凸集；若凸集 $\mathscr F$ 为闭集，则称为闭凸集。

空集 $\varnothing$ 通常被规定为凸集。

凸集分离定理
假设 $\mathscr F_1, \mathscr F_2 \subseteq \mathbb R^n$ 为两个非空凸集。如果存在非零向量 $w\in\mathbb R^n$ 和实数 $t$ ，使得
（i）对任意的 $x\in\mathscr F_1$ 和 $y\in \mathscr F_2$ ，都有 $w^Tx\geq t$ 且 $w^Ty\leq t$ ，则称超平面 $\pi := \{x\in \mathbb R^n \vert w^Tx=t\}$ 分离集合 $\mathscr F_1$ 和 $\mathscr F_2$ ；
（ii）对任意的 $x\in\mathscr F_1$ 和 $y\in \mathscr F_2$ ，都有 $w^Tx\gt t$ 且 $w^Ty\lt t$ ，则称超平面 $\pi := \{x\in \mathbb R^n \vert w^Tx=t\}$ 严格分离集合 $\mathscr F_1$ 和 $\mathscr F_2$ 。

Farkas引理
设 $A\in \mathbb R^{m\times n}$ 且 $b\in \mathbb R^n$ ，考虑不等式组
$Ax\leq0,\quad b^Tx\gt 0$
和等式不等式组
$A^Ty=b,\quad y\geq0$
那么，上述两式有且仅一组有解。

原文链接：https://blog.csdn.net/ShuqiaoS/article/details/82732186