[学习笔记] - 非线性规划

最优化问题

最优化问题的数学模型一般形式为

\begin{aligned} min &\qquad f_0(\mathbf{x}) & \\ s.t. &\qquad f_i(\mathbf{x}) = 0, &i = 1, \cdots, m \\ &\qquad f_i(\mathbf{x}) \geq 0 &i = m + 1, \cdots, p \end{aligned}

无约束最优化问题：无任何约束的最优化问题

\begin{aligned} min &\qquad f(\mathbf{x}),\quad \mathbf{x} \in \mathbb{R}^n \end{aligned}

约束最优化问题：只要问题中存在任何约束条件，就称为约束最优化问题
等式约束问题：只有等式的约束的情况

\begin{aligned} min &\qquad f(\mathbf{x}) & \\ s.t. &\qquad f_i(\mathbf{x}) = 0, &i = 1, \cdots, m \end{aligned}

不等式约束问题：只有不等式的约束的情况

\begin{aligned} min &\qquad f(\mathbf{x}) & \\ s.t. &\qquad f_i(\mathbf{x}) \geq 0, &i = 1, \cdots, m \end{aligned}

二次规划问题：所有约束都是 $\mathbf{x}$ 的线性函数的时候

\begin{aligned} min &\qquad f(\mathbf{x})=\frac{1}{2}\mathbf{x}^TG\mathbf{x} + \mathbf{c}^T\mathbf{x} + d& \\ s.t. &\qquad A_i\mathbf{x} = \mathbf{b}_1 \\ &\qquad A_2\mathbf{x} \geq \mathbf{b}_2 \end{aligned}

可行点：点满足最优化模型中所有约束条件
可行域：所有可行点的全体

最优化问题一般很难解决
一般解决方法多少有一些妥协
- 非常长的计算时间
- 不是总是能找到结果

凸优化问题

\begin{aligned} min &\qquad f_0(\mathbf{x}) & \\ s.t. &\qquad f_i(\mathbf{x}) < 0, &i = 1, \cdots, m \\ &\qquad \mathbf{a}^T_i\mathbf{x} = \mathbf{b}_i, &i = 1, \cdots, p \end{aligned}

上述优化问题中， $f_i(\mathbf{x})$ 是凸函数，此类问题称为凸优化问题
对比优化文图：目标函数和不等式约束为凸函数，等式约束时仿射函数的优化问题属于凸优化问题。

凸优化的最优解集是凸集
凸优化的局部最优解都是全局最优解

优化问题隐式约束

\mathbf{x} \in \mathcal{D} = \bigcap^m_{i=0} f_i \cap \bigcap^p_{i=2} \mathbf{dom} h_i

$\mathcal{D}$ ：问题的定义域，定义域外返回： $+\infty$
$f_i(\mathbf{x}) \leq 0, h_i(\mathbf{x}) = 0$ 是显性约束条件
问题是有约束，如果没有显性约束条件 $(m=p=0)$

相同的优化问题

2个问题可以是等价的，如果其中一个解能轻易的从另外一个问题中获得

例子

\begin{aligned} min &\qquad f_0(\mathbf{x}) & \\ s.t. &\qquad f_i(\mathbf{x}) < 0, &i = 1, \cdots, m \\ &\qquad \mathbf{a}^T_i\mathbf{x} = \mathbf{b}_i, &i = 1, \cdots, p \end{aligned}

和

\begin{aligned} min &\qquad f_0(F\mathbf{z} + \mathbf{x}_0) & \\ s.t. &\qquad f_i(F\mathbf{z} + \mathbf{x}_0) < 0, &i = 1, \cdots, m \end{aligned}

是等价的，其中 $F, \mathbf{x}_0$ 对于一些 $\mathbf{z}$ 满足

\begin{aligned} min &\qquad f_0(A_0\mathbf{x} + \mathbf{b}_0) & \\ s.t. &\qquad f_i(A_i\mathbf{x} + \mathbf{b}_0) < 0, &i = 1, \cdots, m \end{aligned}

等价于

\begin{aligned} min &\qquad f_0(\mathbf{y_0}) & \\ s.t. &\qquad f_i(\mathbf{y_i}) < 0, &i = 1, \cdots, m \\ &\qquad \mathbf{y_i} = A_i\mathbf{x} + \mathbf{b}_i, &i = 1, \cdots, m \end{aligned}

优化问题基本概念

凸集：定义目标函数和约束函数的定义域。
凸函数：定义优化相关函数的凸性限制。
凸优化：中心内容的标准描述。
凸优化问题求解：核心内容。相关算法，梯度下降法、牛顿法、内点法等。
对偶问题：将一般优化问题转化为凸优化问题的有效手段，求解凸优化问题的有效方法。

convexity means non-negative curvature, it means it curves up.

超平面

设 $D_1, D_2$ 为两个非空凸集，若存在 $\mathbf{a} \neq 0, \forall \beta \in \mathbb{R}$ ，使得

\begin{aligned} H = \lbrace \mathbf{x} \in \mathbb{R}^n\ |\ \mathbf{a}^T\mathbf{x} = \beta \rbrace \end{aligned}

分离了集合 $D_1$ 和 $D_2$ ，称 $H$ 为超平面

\begin{aligned} \forall \mathbf{d} \in D_1 \rightarrow \mathbf{a}^T\mathbf{d} \geq \beta \\ \forall \mathbf{d} \in D_2 \rightarrow \mathbf{a}^T\mathbf{d} \leq \beta \end{aligned}

二维分割需要一条线，三维分割需要一个面，所以 $N$ 维分割需要 $N-1$ 维的超平面
超平面可以表示为 $\mathbf{a}^T\mathbf{x} = \beta$

多面体

多面体被定义为有限个线性等式和不等式的解集

\mathcal{P} = \lbrace x\ |\ a^Tx \leq b_j, j = 1,2,\cdot,m, c^T_j = d_j, j= 1,2,\cdot,p \rbrace

几何上来看，多面体是有限个半空间和超平面的交集
多面体是凸集，有界多面体也成为多胞形，表示为 $\mathcal{P} = \lbrace \mathbf{x}\ |\ A\mathbf{x} \leq b, C\mathbf{x} = d \rbrace$
以下几何都是多面体
- 仿射几何
  - 子空间
  - 超平面
  - 直线
- 射线
- 线段
- 半空间

向量不等式

符号： $\preceq, >$
代表 $\mathbb{R}^m$ 上的向量不等式或分量不等式

\begin{aligned} \mathbf{u} &\preceq \mathbf{v} \\ &\text{表示} \\ u_i \leq v_i, &\quad 1 = 1,2,\cdots,m \end{aligned}

广义不等式

称锥 $K \subseteq \mathbb{R}^n$ 为正常锥，如果它满足下列条件

$K$ 是凸的
$K$ 是闭的
$K$ 是实的，即具有非空内部
$K$ 是尖的，即不包含直线（ $\mathbf{x} \in K, -\mathbf{x} \in K \Rightarrow \mathbf{x} = 0$ ）

正常锥 $K$ 可以用来定义广义不等式，即 $\mathbb{R}^n$ 上的偏序关系

\mathbf{x} \preceq_K \mathbf{y} \Leftrightarrow \mathbf{y} - \mathbf{x}

单纯形

单纯体是一类多面体，设 $k+1$ 个点 $v_0, \cdot, v_k \in \mathbf{R}^n$ 仿射独立，即

v_1 - v_0, \cdot, v_k - v_0

线性独立，则这些点决定了一个单纯形

\begin{aligned} C &= \mathbf{conv}\lbrace v_0,\cdot, v_k\rbrace \\ &= \lbrace \theta_0v_0,\cdot, \theta_0v_k\ |\ \theta > 0, \mathbf{1}^T\theta = 1\rbrace \end{aligned}

其中 $\mathbf{1}$ 表示所有分量均为1的向量
这个单纯形的仿射维数为 $k$ ，称为 $\mathbf{R}^n$ 空间的 $k$ 维单纯形
常见单纯性
- 1维单纯形：一条线段
- 2维单纯形：一个三角形
- 3维单纯形：一个四面体

锥

对于任意 $x \in C$ 和 $\theta \geq 0$ 都有 $\theta{}x \in C$ ，我们称集合 $C$ 是锥或者非负齐次。
如果集合C是锥，并且是凸的，则称C为凸锥，即对 $\forall x_1, x_2 \in C$ 和 $\theta{}_1, \theta{}_2 \geq 0$ ，都有

\theta_1x_1 + \theta_2x_2 \in C

在几何上，具有此类形式的点构成了二维的扇形，这个扇形以0为顶点，边通过 $x_1$ 和 $x_2$

半正定锥

用 $S^n$ 表示对称 $n \times n$ 矩阵的集合，即

S^n_+ = \lbrace X \in \mathbb{R}^{n\times n} | X = X^T \rbrace

这是一个维数为 $n(n+1)/2$ 的向量空间，我们用 $S^n_+$ 表示对称半正定矩阵的集合

S^n_+ = \lbrace X \in S^n | X > 0 \rbrace

用 $S^n_{++}$ 表示对称正定矩阵的集合

S^n_{++} = \lbrace X \in S^n | X \succ 0 \rbrace

$R_+$ ：表示非负实数
$R_{++}$ ：表示正实数

极点

设 $S$ 为非空集合， $\mathbf{x} \in S$ ，若 $\mathbf{x}$ 不能表示成 $S$ 中两个不同点的凸组合，即

\mathbf{x} = \lambda \mathbf{x}_1 + (1 - \lambda)\mathbf{x}_2, \quad \lambda \in (0, 1). \mathbf{x}_1, \mathbf{x}_2 \in S

则必有 $\mathbf{x} = \mathbf{x}_1 = \mathbf{x}_2$ ，则称 $\mathbf{x}$ 是凸集 $S$ 的极点

极方向

设 $S$ 为 $\mathbb{R}^n$ 中的闭凸集， $\mathbf{d}$ 为非零向量，如果对 $S$ 中的每一个 $\mathbf{x}$ ，都有射线

\lbrace \mathbf{x} + \lambda\mathbf{d}\ |\ \lambda \leq 0 \rbrace \subset S

则称向量 $\mathbf{d}$ 为 $S$ 的方向，又设 $\mathbf{d}_1, \mathbf{d}_2$ 为 $S$ 的两个反向，若对任意整数 $\lambda$ ，有 $\mathbf{d}_1 \neq \lambda\mathbf{d}_2$ ，则称 $\mathbf{d}_1, \mathbf{d}_2$ 是两个不同的方向，若 $S$ 的方向 $\mathbf{d}$ 不能表示成集合的两个不同方向的正的线性组合，则称 $\mathbf{d}$ 为 $S$ 的极方向

有界集不存在方向，也不存在极方向，无界集才有方向的概念

凸集

凸集（convex set）是一个点集合，其中每两点之间的直线点都落在该点集合中。

设 $\mathbf{S} \in \mathbb{R}^n$ (实或复向量空间的集), 若对于所有 $\mathbf{x}, \mathbf{y} \in \mathbf{S}$ ，和所有 $\lambda \in [0, 1]$ 存在 $\lambda \mathbf{x} +(1 - \lambda)\mathbf{y} \in \mathbf{S}$ ，则 $\mathbf{S}$ 是凸集，其中 $\lambda \mathbf{x} +(1 - \lambda)\mathbf{y}$ 称作点 $\mathbf{x},\mathbf{y}$ 之间的凸连接

例子：

设 $A \in \mathbb{R}^{m \times n}, b \in \mathbb{R}^n$ ，证明 $\mathbf{S} = \lbrace \mathbf{x} \in \mathbb{R}^n | A\mathbf{x} = \mathbf{b}, \mathbf{x} \geq 0 \rbrace{}$ 是凸集。

证明流程：

\begin{cases} \mathbf{x}, \mathbf{y} \in \mathbf{S} \\ \lambda \in [0, 1] \end{cases} \Leftrightarrow \begin{pmatrix} A\mathbf{x}=b, \mathbf{x} \geq 0 \\ A\mathbf{y}=b, \mathbf{y} \geq 0 \end{pmatrix}

\mathbf{w} = \lambda \mathbf{x}+(1 - \lambda)\mathbf{y} \in \mathbf{S} \Leftrightarrow (A\mathbf{w} = \mathbf{b}, \mathbf{w} \geq 0)

典型的凸集

线段，射线，直线
超平面，半空间
仿射集
欧几里得球，范数球，椭球等
凸锥，范数锥等

凸函数

函数 $f: \mathbb{R}^n \rightarrow \mathbb{R}$ 定义域 $\mathbf{dom} f$ 是凸集，且对于 $\forall{} \mathbf{x}, \mathbf{y} \in \mathbf{dom} f$ 和 $\forall\theta, 0\leq \theta \leq 1$ 有

f(\theta{}\mathbf{x} + (1-\theta)\mathbf{y}) \leq \theta{}f(\mathbf{x}) + (1-\theta)f(y)

则称函数 $f$ 是凸函数

凸函数与凸集合的关系：

下水平集：函数 $f$ 的下水平集 $C_a = \lbrace \mathbf{x} \in \mathbf{dom} f\ |\ f(\mathbf{x}) \leq a\rbrace$ 是其定义域的子集，凸函数的下水平集是凸集
上镜图：函数 $f: \mathbb{R}^n \rightarrow \mathbb{R}$ 的上镜图 $\mathbf{epi} f = \lbrace(\mathbf{x}, t)\ |\ \mathbf{x} \in \mathbf{dom} f, f(\mathbf{x}) \leq t\rbrace$ ，他是 $\mathbb{R}^{n+1}$ 空间的子集。

狭义凸函数

f(\theta{}\mathbf{x} + (1-\theta)\mathbf{y}) < \theta{}f(\mathbf{x}) + (1-\theta)f(\mathbf{y})

凸函数与凸集合的关系

定理：如果 $S$ 是 $\mathbb{R}^n$ 中的一个凸集， $f$ 是定义在 $S$ 上的凸函数，则 $f$ 在 $S$ 内部连续

凸函数与凸集的关系：一个函数是凸函数，当且仅当其上镜图是凸集

典型凸函数

线性函数和仿射函数： $f(\mathbf{x}) = \mathbf{a}^T\mathbf{x} + b$
指数函数
负熵
范数： $\parallel \mathbf{x}\parallel _p$

设 $f, g: \mathbb{R}^n \rightarrow \mathbb{R}$ 是凸函数， $\lambda > 0$

$f + g$
$\lambda f$
$\max(f, g)$

都是凸函数

函数	式子	$\nabla f(\mathbf{x})$	$\nabla^2 f(\mathbf{x})$
二次型	$f(\mathbf{x}) = \frac{1}{2}\mathbf{x}^TP\mathbf{x} + q^T\mathbf{x} +r$	$\nabla f(\mathbf{x}) = P\mathbf{x} + q$	$\nabla^2 f(\mathbf{x})=P$
最小二乘	$f(\mathbf{x}) =\parallel A\mathbf{x}- b\parallel ^2_2$	$\nabla f(\mathbf{x}) = 2A^T(A\mathbf{x} - b)$	$\nabla^2 f(\mathbf{x})=2A^TA$

凸函数性质

凸函数的重要特性：任意局部最优解也是全局最优解

设 $f: \mathbb{R}^n \rightarrow \mathbb{R}$

$\mathbf{x}^*$ 全局的最小解： $f(\mathbf{x}^*) \leq f(\mathbf{x}), \forall \mathbf{x} \in \mathbb{R}^n$
$\mathbf{x}^*$ 局部的最小解： $\exists \varepsilon > 0, f(\mathbf{x}^*) \leq f(\mathbf{x}), \forall \mathbf{x} \rightarrow |\mathbf{x}^* - \mathbf{x}| < \varepsilon$

一般来说：找到局部的最小解即可

一阶条件

可微函数 $f$ 是凸函数的充要条件是

定义域 $\mathbf{dom} f$ 是凸集
对于 $\forall{} \mathbf{x},\mathbf{y} \in \mathbb{R}$ 有

[\nabla{}f(\mathbf{x}) - \nabla{}f(\mathbf{y})]^T(\mathbf{x} - \mathbf{y}) \geq 0

对于 $\forall{} \mathbf{x},\mathbf{y} \in \mathbf{dom} f$ 有

f(\mathbf{y}) \geq f(\mathbf{x}) + \nabla f(\mathbf{x})^T(\mathbf{y}-\mathbf{x})

$f(\mathbf{x}) + \nabla f(\mathbf{x})^T(\mathbf{y}-\mathbf{x})$ 即函数 $f(\mathbf{y})$ 在点 $\mathbf{x}$ 附近的Taylor近似。对于一个凸函数

其一阶Taylor近似实质上是原函数的一个全局下估计
某函数的一阶Taylor近似总是全局下估计，则这个函数是凸的

简单的来说：对于函数在定义域的任意取值，函数的值都大于或等于对这个函数在这一点的一阶近似

二阶条件

函数 $f$ 的二阶偏导函数称为函数 $f$ 的Hessian矩阵（黑塞矩阵）
对于函数 $f$ 定义域 $\mathbf{dom} f$ 内任意一点，其Hessian矩阵存在，则函数 $f$ 是凸函数的充要条件是

\forall \mathbf{x} \in \mathbf{dom} f \rightarrow \nabla^2 f(\mathbf{x}) > 0

同理可以等价于：

Hessian矩阵是半正定矩
对于 $\mathbb{R}$ 上的函数，可以简化为 $f''(\mathbf{x}) \geq 0$ （ $f$ 导函数非减）
从几何上理解就是函数图像在点 $\mathbf{x}$ 处有正（向上）的曲率

保凸运算

非负加权求和

如果函数 $f_1$ 和 $f_2$ 都是凸函数，则 $f_1 + f_2$ 也是凸函数

复合仿射映射

假设函数 $f: \mathbb{R}^n \rightarrow \mathbb{R}, A \in \mathbb{R}^{n\times m}$ ，以及 $b \in \mathbb{R}^n$ ，定义 $g: \mathbb{R}^m \rightarrow \mathbb{R}$ 为

g(\mathbf{x}) = f(A\mathbf{x} + b)

其中 $\mathbf{dom} g = \lbrace \mathbf{x}\ |\ A\mathbf{x} + b \in \mathbf{dom} f \rbrace$

若函数 $f$ 是凸函数，则函数 $g$ 是凸函数
若函数 $f$ 是凹函数，则函数 $g$ 是凹函数

逐点最小和逐点下确界

如果函数 $f_1$ 和 $f_2$ 均为凸函数，则二者的逐点最小函数 $f$

f(\mathbf{x}) = \min(f_1(\mathbf{x}), f_2(\mathbf{x}))

其定义域为 $\mathbf{dom} f = \mathbf{dom} f_1 \cap \mathbf{dom} f_2$ ，仍然时凸函数

证明：

$\forall \theta \in [0, 1], \mathbf{x}, \mathbf{y} \in \mathbf{dom} f$ ，则

\begin{aligned} f(\theta{}\mathbf{x} + (1 - \theta)\mathbf{y}) &=\min(f_1(\theta{}\mathbf{x} + (1 - \theta)\mathbf{y}), f_2(\theta{}\mathbf{x} + (1 - \theta)\mathbf{y})) \\ &\leq\min(\theta{}f_1(\mathbf{x}) + (1 - \theta)f_1(\mathbf{y}), \theta{}f_2(\mathbf{x}) + (1-\theta)f_2(\mathbf{y})) \\ &\leq \theta{}\min(f_1(\mathbf{x}), f_2(\mathbf{x})) + (1 - \theta)\min(f_1(\mathbf{y}), f_2(\mathbf{y})) \\ &=\theta{}f(\mathbf{x}) + (1-\theta)f(\mathbf{y}) \end{aligned}

同理，可得出

f(\mathbf{x}) = \min(f_1(\mathbf{x}), f_2(\mathbf{x}), \cdots, f_m(\mathbf{x}))

仍然是凸函数

铸点最大的性质可以扩展至无限个凸函数的逐点下确界。如果对于任意 $y \in \mathcal{A}$ ，函数 $f(x,y)$ 关于 $x$ 都是凸的，则函数 $g$

g(x) = \inf_{y \in \mathcal{A}}f(x,y)

关于 $x$ 也是凸函数，定义域为

\mathbf{dom} g = \lbrace x\ |\ (x, y) \in \mathbf{dom} f \forall y \in \mathcal{A}, \inf_{y \in \mathcal{A}} f(x, y) < \infty \rbrace

$\inf$ ：最大下界

$\forall s \in S \Rightarrow s \geq \inf(S)$

证明：

\begin{aligned} f(\theta{}\mathbf{x}_1 + (1 - \theta)\mathbf{x}_2) &=\inf f(\theta{}\mathbf{x}_1 + (1 - \theta)\mathbf{x}_2, \mathbf{y}) \\ &\leq f(\theta{}\mathbf{x}_1 + (1 - \theta)\mathbf{x}_2, \theta{}\mathbf{y}_1 + (1-\theta)\mathbf{y}_2) \\ &\leq \theta{}f(\mathbf{x}_1, \mathbf{y}_1) + (1 - \theta)f(\mathbf{x}_2, \mathbf{y}_2) \\ &=\theta{}g(\mathbf{x}_1) + (1-\theta)g(\mathbf{x}_2) + \epsilon \end{aligned}

对 $\forall \epsilon$ 成立，于是

f(\theta{}\mathbf{x}_1 + (1 - \theta)\mathbf{x}_2) = \theta{}g(\mathbf{x}_1) + (1-\theta)g(\mathbf{x}_2)

逐点最大和逐点上确界

如果函数 $f_1$ 和 $f_2$ 均为凸函数，则二者的逐点最大函数 $f$

f(\mathbf{x}) = \max(f_1(\mathbf{x}), f_2(\mathbf{x}))

其定义域为 $\mathbf{dom} f = \mathbf{dom} f_1 \cap \mathbf{dom} f_2$ ，仍然时凸函数

证明：

$\forall \theta \in [0, 1], \mathbf{x}, \mathbf{y} \in \mathbf{dom} f$ ，则

\begin{aligned} f(\theta{}\mathbf{x} + (1 - \theta)\mathbf{y}) &=\max(f_1(\theta{}\mathbf{x} + (1 - \theta)\mathbf{y}), f_2(\theta{}\mathbf{x} + (1 - \theta)\mathbf{y})) \\ &\leq\max(\theta{}f_1(\mathbf{x}) + (1 - \theta)f_1(\mathbf{y}), \theta{}f_2(\mathbf{x}) + (1-\theta)f_2(\mathbf{y})) \\ &\leq \theta{}\max(f_1(\mathbf{x}), f_2(\mathbf{x})) + (1 - \theta)\max(f_1(\mathbf{y}), f_2(\mathbf{y})) \\ &=\theta{}f(\mathbf{x}) + (1-\theta)f(\mathbf{y}) \end{aligned}

同理，可得出

f(\mathbf{x}) = \max(f_1(\mathbf{x}), f_2(\mathbf{x}), \cdots, f_m(\mathbf{x}))

仍然是凸函数

铸点最大的性质可以扩展至无限个凸函数的逐点上确界。如果对于任意 $y \in \mathcal{A}$ ，函数 $f(x,y)$ 关于 $x$ 都是凸的，则函数 $g$

g(x) = \sup_{y \in \mathcal{A}}f(x,y)

关于 $x$ 也是凸函数，定义域为

\mathbf{dom} g = \lbrace x\ |\ (x, y) \in \mathbf{dom} f \forall y \in \mathcal{A}, \sup_{y \in \mathcal{A}} f(x, y) < \infty \rbrace

$\sup$ ：最小上界

$\forall s \in S ⇒ s \leq \sup(S)$

标量复合函数

假设函数 $f: \mathbb{R}^n \rightarrow \mathbb{R}, h: \mathbb{R} \rightarrow \mathbb{R}$ ，令

f(\mathbf{x}) = h(g(\mathbf{x}))

满足以下条件的时， $f$ 是凸函数

$h$ 是凸函数， $g$ 是凸函数， $\tilde{h}$ 是非减的
$h$ 是凸函数， $g$ 是凹函数， $\tilde{h}$ 是非增的
$\tilde{h}$ ：extended value extension of $h$

证明：

f''(\mathbf{x}) = h''(g(\mathbf{x}))g'(\mathbf{x})^2 + h'(g(\mathbf{x}))g''(\mathbf{x})

在实数域上，若 $g$ 是凸函数，则 $g'' > 0$ ，若 $h$ 是凸函数且非减，则 $h'' \geq 0, h' \geq 0$ ，可以得出 $f'' \geq 0$ ，即函数 $f$ 是凸函数

$h$	$g$	$f$
凸函数，非减	凸函数	凸函数
凸函数，非增	凹函数	凸函数
凹函数，非减	凹函数	凹函数
凹函数，非增	凸函数	凹函数

矢量复合函数

f(\mathbf{x}) = h(g(\mathbf{x})) = h(g_1(\mathbf{x}), g_2(\mathbf{x}), \cdots, g_k(\mathbf{x}))

满足以下条件的时， $f$ 是凸函数

$h$ 是凸函数， $g$ 是凸函数， $\tilde{h}$ 对于每个参数都是非减的
$h$ 是凸函数， $g$ 是凹函数， $\tilde{h}$ 对于每个参数都是非增的
$\tilde{h}$ ：extended value extension of $h$

证明：

f''(\mathbf{x}) = g'(\mathbf{x})^T\nabla^2h(g(\mathbf{x}))g'(\mathbf{x}) + \nabla h(g(\mathbf{x}))^Tg''(\mathbf{x})

Jensen不等式及其扩展

基本不等式，也称Jensen不等式，如果 $f$ 是凸函数，对于任意 $0 \leq \theta \leq 1$

f(\theta{}\mathbf{x} + (1 - \theta)\mathbf{y}) \leq \theta{}f(\mathbf{x}) + (1 - \theta)f(\mathbf{y})

如果 $f$ 是凸函数，对于任意 $\mathbf{z} \in \mathbf{dom} f$ ，有

\begin{aligned} f(\mathbf{E}\mathbf{z}) &\leq \mathbf{E}f(\mathbf{z}) \\ &\Downarrow \\ f(\theta_1x_1 + \cdots + \theta_kx_k) &\leq \theta_1f(x_1) + \cdots + \theta_kf(x_k) \\ \theta_1 + &\cdots + \theta_k = 1 \end{aligned}

共轭函数

方向导数

设 $S$ 是 $\mathbf{R}^n$ 中的一个集合， $f$ 是定义在 $S$ 上的实函数， $\overline{\mathbf{x}} \in \int S$ （表示集合 $S$ 的内部）， $\mathbf{d}$ 是非零向量， $f$ 在 $\overline{\mathbf{x}}$ 沿着方向 $\mathbf{d}$ 的方向导数 $Df(\overline{\mathbf{x}}; \mathbf{d})$ 定义为

Df(\overline{\mathbf{x}}; \mathbf{d}) = \lim_{\lambda \rightarrow 0} \frac{f(\overline{\mathbf{x}} + \lambda \mathbf{d}) - f(\overline{\mathbf{x}})}{\lambda}

$f$ z在 $\overline{x}$ 处沿着方向 $d$ 的右侧导数

Df(\overline{\mathbf{x}}; \mathbf{d}) = \lim_{\lambda \rightarrow 0^+} \frac{f(\overline{\mathbf{x}} + \lambda \mathbf{d}) - f(\overline{\mathbf{x}})}{\lambda}

$f$ z在 $\overline{x}$ 处沿着方向 $d$ 的左侧导数

Df(\overline{\mathbf{x}}; \mathbf{d}) = \lim_{\lambda \rightarrow 0^-} \frac{f(\overline{\mathbf{x}} + \lambda \mathbf{d}) - f(\overline{\mathbf{x}})}{\lambda}

-D^+f(\overline{\mathbf{x}}; -\mathbf{d}) = D^-f(\overline{\mathbf{x}}; \mathbf{d})

如果对某个 $\overline{x}$ 和方向 $\mathbf{d}$ 有

D^+f(\overline{\mathbf{x}}; \mathbf{d}) = D^-f(\overline{\mathbf{x}}; \mathbf{d})

则存在方向导数

若方向 $\mathbf{d}$ 为单位向量 $\mathbf{e}_i$ ，则 $f$ 在 $\overline{x}$ 处沿方向导数正好等于 $f$ 对 $x_i$ 的偏导数
如果 $f$ 在 $\overline{x}$ 可微，则 $f$ 在 $\overline{x}$ 处沿任何方向 $\overline{d}$ 的方向导数是有限的 $\Rightarrow Df(\overline{\mathbf{x}}, \mathbf{d}) = \mathbf{d}^T\nabla f(\overline{\mathbf{x}})$

设 $f$ 是一个凸函数， $x \in \mathbb{R}^n$ ，在 $x$ 处函数 $f(x)$ 取有极值，则 $f$ 在 $x$ 处沿任何方向 $\mathbf{d}$ 的左侧导数及左侧导数都存在

梯度

定义函数： $f: \mathbb{R}^n \rightarrow \mathbb{R}$
函数 $f$ 的梯度为

\nabla f(\mathbf{x}) = \begin{pmatrix} \frac{\partial f}{\partial x_1} \\ \vdots \\ \frac{\partial f}{\partial x_n} \end{pmatrix} \in \mathbb{R}^n

是一个矢量
其方向上的方向导数最大，其大小正好是此最大方向导数
所有方向导数中会存在并且只存在一个最大值
偏导数连续才有梯度存在

通俗的来说，二维平面函数每个点只有一个切线，三位平面上一个点有无数个切线，而梯度就是这个点导数最大的切线的矢量。

梯度方向是函数变化率最大的方向

Hessian矩阵

函数 $f$ 所有二阶偏导数都存在并在定义域内连续，那么函数 $f$ 的Hessian矩阵为

\nabla^2f(\mathbf{x}) = [\text{成分}(i, j) = \frac{\partial^2 f}{\partial x_i x_j}\text{的矩阵}]

Hessian矩阵是对称矩阵
Hessian矩阵的特征值形容其在该点附近特征向量方向的凹凸性，特征值越大，凸性越强。

假设在开集 $S \subset \mathbb{R}^n$ 上 $f \in C^2(S)$ ，则 $f$ 在 $\overline{\mathbf{x}} \in S$ 的一阶泰勒展开式为

f(\mathbf{x}) = f(\overline{\mathbf{x}}) + \nabla f(\overline{\mathbf{x}})^T(\mathbf{x} - \overline{\mathbf{x}}) + o(\parallel \mathbf{x} - \overline{\mathbf{x}} \parallel)

其中 $o(\parallel \mathbf{x} - \overline{\mathbf{x}} \parallel)$ 是当 $\parallel \mathbf{x} - \overline{\mathbf{x}} \parallel \rightarrow 0$ 时，关于 $\parallel \mathbf{x} - \overline{\mathbf{x}} \parallel$ 的高阶无穷小量

二阶泰勒展开式为

f(\mathbf{x}) = f(\overline{\mathbf{x}}) + \nabla f(\overline{\mathbf{x}})^T(\mathbf{x} - \overline{\mathbf{x}}) + \frac{1}{2}(\mathbf{x} - \overline{\mathbf{x}})^T \nabla^2f(\overline{\mathbf{x}})(\mathbf{x} - \overline{\mathbf{x}}) + o(\parallel \mathbf{x} - \overline{\mathbf{x}} \parallel^2)

其中 $o(\parallel \mathbf{x} - \overline{\mathbf{x}} \parallel^2)$ 是当 $\parallel \mathbf{x} - \overline{\mathbf{x}} \parallel^2 \rightarrow 0$ 时，关于 $\parallel \mathbf{x} - \overline{\mathbf{x}} \parallel^2$ 的高阶无穷小量

Hessian矩阵相关公式

设 $\mathbf{c}, Q \in \mathbb{R}^n$

$\nabla(\mathbf{c}^T\mathbf{x}) = \mathbf{c}$
$\nabla(\mathbf{x}Q^T\mathbf{x})=Q+Q^T\mathbf{x}=2Q\mathbf{x}$
$\nabla^2(\mathbf{x}^TQ\mathbf{x})=Q+Q^T=2Q$
$\nabla f(\mathbf{x})=Q\mathbf{x}+\mathbf{c},\ \nabla^2f(\mathbf{x})=Q$

二次函数的Hessian矩阵

二次函数可以写成以下形式

f(\mathbf{x}) = \frac{1}{2}\mathbf{x}A\mathbf{x}+ \mathbf{b}^T\mathbf{x} + c

其中 $A$ 是对称矩阵， $b$ 是 $n$ 维向量
梯度： $\nabla f(\mathbf{x} = A \mathbf{x} + \mathbf{b}$
Hessian矩阵： $\nabla^2 f(x) = A$

无约束优化问题

设函数 $f: \mathbb{R}^n \rightarrow \mathbb{R}$ 是二次可微函数（意味着 $\mathbf{dom}f$ 是开集），求解

\begin{aligned} min &\qquad f(\mathbf{x}) \end{aligned}

由于函数可微，则最优点 $\mathbf{x}^*$ 应该满足

\begin{aligned} f(\mathbf{x}^*) = 0, \quad (\mathbf{x}^*: local\ min) \end{aligned}

可以通过解析求解最优性方程
采用迭代算法求解方程 $f(\mathbf{x}^*) = 0$

即计算点列 $\mathbf{x}_{0},\mathbf{x}_{1},\cdots,\mathbf{x}_{k} \in \mathbf{dom}f$
使 $k \rightarrow \infty$ 时， $f(\mathbf{x}_{k}) \rightarrow \inf_xf(\mathbf{x})$
当 $f(\mathbf{x}_{k}) - \inf_xf(\mathbf{x}) \leq \varepsilon$ 时，算法终止， $\varepsilon$ 容许误差值

停留点

2变量的情况：

条件	结果
$\begin{cases}f_{xx}f_{yy} - f_{xy}^2 > 0\\f_{xx} > 0\end{cases}$	极大点
$\begin{cases}f_{xx}f_{yy} - f_{xy}^2 > 0\\f_{xx} < 0\end{cases}$	极小点
$f_{yy} - f_{xy}^2 < 0$	鞍点
$f_{yy} - f_{xy}^2 = 0$	不确定

多变量的情况：

条件	结果
$\nabla f(\mathbf{x}) = 0, \nabla^2f(\mathbf{x})$ 正定矩阵	局部极小点
$\nabla f(\mathbf{x}) = 0, \nabla^2f(\mathbf{x})$ 负定矩阵	局部极大点
$\nabla f(\mathbf{x}) = 0, \nabla^2f(\mathbf{x})$ 不定矩阵	鞍点
$\det \nabla^2f(\mathbf{x}) = 0$	不确定

泰勒定理

设 $f: \mathbb{R}^n \rightarrow \mathbb{R}$ ，设 $\Delta \mathbf{d} \in \mathbb{R}^n$ ，存在 $t \in (0,1)$ ，有

阶数	公式	对应方法
$C^1$ 函数	$f(\mathbf{x} + \Delta \mathbf{d}) = f(\mathbf{x}) + \nabla f(\mathbf{x} + t\Delta \mathbf{d})^T\Delta \mathbf{d}$	最速下降法
$C^2$ 函数	$f(\mathbf{x} + \Delta \mathbf{d}) = f(\mathbf{x}) + \nabla f(\mathbf{x} + t\Delta \mathbf{d})^T\Delta \mathbf{d} + \frac{1}{2}\Delta \mathbf{d}^T\nabla^2f(\mathbf{x} + t\Delta \mathbf{d})\Delta \mathbf{d}$	牛顿法，拟牛顿法

一阶近似的最优解

其意义是：函数从 $f(\mathbf{x}) \rightarrow f(\mathbf{x} + \Delta \mathbf{d})$ 的变化等于 $f$ 在某一点的梯度和向量 $\Delta \mathbf{d}$ 的点积，这个点总能在 $\mathbf{x}$ 和 $\mathbf{x}+\Delta \mathbf{d}$ 之间找到，但是每个 $\Delta \mathbf{d}$ 对应着不同的 $t$ ，如果允许一定误差的话，可以用 $\nabla f(\mathbf{x})$ 代替 $\nabla f(\mathbf{x}+t\Delta \mathbf{d})$ 进行估测，即

f(\mathbf{x} + \Delta \mathbf{d}) = f(\mathbf{x}) + \nabla f(\mathbf{x})^T\Delta \mathbf{d}

因为

[f(\mathbf{x}) + \nabla f(\mathbf{x})^T\Delta \mathbf{d}] - [f(\mathbf{x}) + \nabla f(\mathbf{x} + t\Delta \mathbf{d})^T\Delta \mathbf{d}] = (\nabla f(\mathbf{x}) - \nabla f(\mathbf{x} + t\Delta \mathbf{d}))^T\Delta \mathbf{d}

如果 $\Delta \mathbf{d}$ 足够小，那么 $\nabla f(\mathbf{x}) - \nabla f(\mathbf{x} + t\Delta \mathbf{d})$ 也足够小，从而误差也同样小

在几何上的表现为，假设 $f$ 是一个一维函数，上诉做法即在点 $(\mathbf{x}, f(\mathbf{x}))$ 做一条切线（一阶泰勒展开），在 $\Delta \mathbf{d}$ 足够小的情况下，这条切线和实际函数非常接近

泰勒定理为我们提供了一种搜索一个函数极小点的方法，我们可以选择一个初始点 $\mathbf{x}_0$ ，如果选择一个方向 $\Delta \mathbf{d} \in \mathbb{R}$ 且满足 $\nabla f(\mathbf{x})^T\Delta\mathbf{d} < 0$ ，则存在 $t > 0$ ，使得

f(\mathbf{x} + t\Delta \mathbf{d}) < f(\mathbf{x})

如此迭代下去， $f(\mathbf{x})$ 的取值会越来越小，最后收敛到一个局部最小点，这样的方法称作直线搜索，其主要问题就是找到

搜索步径
比例因子

二阶近似的最优解

同理一阶近似的最优解，

1次： $f(\mathbf{x} + d) = f(\mathbf{x}^*) + \nabla f(\mathbf{x})^Td + \text{残差}$
2次： $f(\mathbf{x} + d) = f(\mathbf{x}^*) + \nabla f(\mathbf{x})^Td + \frac{1}{2}d^T\nabla^2f(\mathbf{x})d + \text{残差}$
1元： $f(\mathbf{x} + d) = f(\mathbf{x}) + f'(\mathbf{x})d + \frac{1}{2}f''(\mathbf{x})^Td^2 + \text{残差}$

下降方法

\begin{aligned} goal &\qquad \nabla f(\mathbf{x}^*) = 0, \quad (\mathbf{x}^*: local\ min) \end{aligned}

本算法将产生一个优化点列 $\mathbf{x}_{k}, k =1,2,\cdots$ ，其中

\mathbf{x}_{k+1} = \mathbf{x}_{k} + t_{k}\Delta \mathbf{d}_{k}

并且 $t_{k} > 0$ （除非 $\mathbf{x}_{k}$ 已经是最优点）

搜索步径： $\Delta \mathbf{d}_{k}$
比例因子： $t_{k}$ 第 $k$ 次迭代的步进

只要 $\mathbf{x}_{k}$ 不是最优点，则有

f(\mathbf{x}_{k+1}) < f(\mathbf{x}_{k})

对于 $\mathbf{x}_{k} \in \mathbf{dom}f$ ，由凸性可知

\begin{aligned} \nabla f(\mathbf{x}_{k})^T(\mathbf{y} - \mathbf{x}_{k}) &\geq 0 \\ \mathbf{y} - \mathbf{x}_{k} &\geq 0 \\ \mathbf{y} &\geq \mathbf{x}_{k} \\ f(\mathbf{y}) &\geq f(\mathbf{x}_{k}) \end{aligned}

因此下降方法中搜索方向必须满足

\begin{aligned} \nabla f(\mathbf{x}_{k})^T\Delta \mathbf{d}_{k} < 0 \end{aligned}

即

\lim_{t \rightarrow +0}\frac{f(\mathbf{x}_{k} + t_{k}\Delta \mathbf{d}_{k}) - f(\mathbf{x}_{k})}{t_{k}} < 0

也就是负梯度方向的夹角必须是锐角（毕竟锐角才是向下的），这样的方向叫做下降方向

下降方法算法

求解初期点 $\mathbf{x} \in \mathbf{dom}f, k := 0$
重复进行：

停止条件： $\parallel\nabla f(\mathbf{x}_{k})\parallel < \varepsilon$
决定下降方向： $\Delta \mathbf{d}$
直线探索，选择步长： $t > 0$
计算下一个点： $\mathbf{x}_{k+1} = \mathbf{x}_{k} + t_{k}\Delta \mathbf{d}_{k}$
$k := k + 1$

精确直线搜索

有时候我们会用一种叫做精确直线搜索的方法，其中 $t$ 是通过沿着射线 $\lbrace \mathbf{x} + t\Delta \mathbf{d} | t \geq 0 \rbrace$ 优化 $f$ 而确定的

t = \arg{}\min_{s\geq 0} f(\mathbf{x} + s\Delta \mathbf{d})

考虑正定对称矩阵 $A \in \mathbb{R}^{n\times n}$ ， $\mathbf{b} \in \mathbb{R}^n$ ，求解二次型函数

min \quad f(\mathbf{x}) = \frac{1}{2}\mathbf{x}^TA\mathbf{x} + \mathbf{b}^T\mathbf{x}

根据下降方法的定义，函数将变为 $f(\mathbf{x}_{k} + s\Delta \mathbf{d}_{k})$ ，将这个形式写作 $\phi(a)$

\begin{aligned} \phi(a) &= f(\mathbf{x}_k + a\Delta \mathbf{d}_k) \\ &= \frac{1}{2}(\mathbf{x}_k + a\Delta \mathbf{d}_k)^TA(\mathbf{x}_k + a\Delta \mathbf{d}_k) + \mathbf{b}^T(\mathbf{x}_k + a\Delta \mathbf{d}_k) \\ &= \frac{1}{2}(\Delta\mathbf{d}^T_kA\Delta\mathbf{d}_k)a^2 + (\Delta\mathbf{d}^T_k\nabla f(\mathbf{x}_k))a + f(\mathbf{x}_k) \end{aligned}

这是一个关于 $a$ 的二次函数，其中 $\nabla f(\mathbf{x}) = A\mathbf{x} + \mathbf{b}$ ，由于 $A$ 是正定矩阵，可以知道 $\Delta\mathbf{d}^T_kA\Delta\mathbf{d}_k > 0$ ，为了求得 $\phi(a)$ 的最小值，求得使 $\frac{d}{da}\phi(a) = 0$ 的 $a$ 即可

\frac{d}{da}\phi(a) = (\Delta\mathbf{d}^T_kA\Delta\mathbf{d}_k)a + \Delta\mathbf{d}^T_k \nabla f(\mathbf{x}_k) = 0

解得

a_k = -\frac{\Delta\mathbf{d}^T_k \nabla f(\mathbf{x}_k)}{\Delta\mathbf{d}^T_kA\Delta\mathbf{d}_k}

这里 $\Delta\mathbf{d}^T_k \nabla f(\mathbf{x}_k) < 0$ ，所以 $a_k > 0$

回溯直线搜索（Armijo条件）

实践中主要采用非精确直线搜索方法，因为实际中精确直线搜索一般无法使用，沿着射线 $\lbrace \mathbf{x} + t\Delta \mathbf{d}\ |\ t \geq 0 \rbrace$ 优化 $f$ 确定步长，只要 $f$ 有足够的减少即可

回溯直线搜索算法

确定参数 $a \in (0, 0.5), \beta \in (0, 1), t = 1, k := 0$
重复进行：

如果 $f(\mathbf{x} + t\Delta \mathbf{d}) > f(\mathbf{x}) + at\nabla f(\mathbf{x})^T\Delta \mathbf{d}$ ，则 $t := \beta t, k := k + 1$
否则返回 $t$

回溯直线搜索收束性

由于 $\Delta \mathbf{d}$ 是降下方向， $\nabla f(\mathbf{x})^T\Delta \mathbf{d} < 0$ ，所以只要满足 $t$ 足够小，就一定有

\begin{aligned} f(\mathbf{x} + t\Delta \mathbf{d}) &\approx f(\mathbf{x}) + t\nabla f(\mathbf{x})^T\Delta \mathbf{d} \\ &< f(\mathbf{x}) + at\nabla f(\mathbf{x})^T\Delta \mathbf{d} \end{aligned}

因此回溯直线搜索方法最终会停止

常数 $a$ 表示可以接受的 $f$ 的减少量占基于线性外推预测的减少量比值
$a$ $a$ 需要小于 $0.5$ $0.5$
- 正常一般在 $0.01 \sim 0.3$ 之间，表示我们可以接受的 $f$ 的减少量在基于线性外推预测的减少量的 $1\%$ 和 $30\%$ 之间
$\beta$ $β$ 正常取值：
- 接近 $0.1$ ：非常粗糙的搜索
- 接近 $0.8$ ：不太粗糙的搜索

Wolfe条件

Wolfe条件是在Armijo条件基础之上的条件。

Wolfe条件算法

确定参数 $0 < a_1 < a_2 < 0.5, \beta \in (0, 1), t = 1, k := 0$
重复进行：

如果

\begin{aligned} f(\mathbf{x} + t\Delta \mathbf{d}) &> f(\mathbf{x}) + a_1t\nabla f(\mathbf{x})^T\Delta \mathbf{d} \\ a_2\nabla f(\mathbf{x})^T \Delta \mathbf{d} &> \nabla f(\mathbf{x} + t\Delta \mathbf{d})^T\Delta \mathbf{d} \end{aligned}

则 $t := \beta t, k := k + 1$ ，否则返回 $t$

直线搜索方法的收敛性

为了获得全局最优解，我们需要得到

搜索步径
比例因子

其中最速下降方向 $-\nabla f(\mathbf{x}_{k})$ 与搜索步径 $\Delta \mathbf{d}$ 的夹角为

\cos \theta_{k} = \frac{-\nabla f(\mathbf{x}_{k})^T\Delta \mathbf{d}}{\parallel-\nabla f(\mathbf{x}_{k})\parallel\cdot\parallel\Delta \mathbf{d}\parallel}

利普希茨连续条件（Zoutendijk条件）

假定函数 $f$ 是在 $\mathbb{R}^n$ 下有界，且在初始点 $\mathbf{x}_0$ 的开集合 $N = \lbrace \mathbf{x}\ |\ f(\mathbf{x}) \leq f(\mathbf{x}_0)$ 上连续可导，那么 $\forall \mathbf{x}, \mathbf{y} \in N, \exists L$ ，使得

\parallel \nabla f(\mathbf{x}) - \nabla f(\mathbf{y}) \parallel \leq L\parallel \mathbf{x} - \mathbf{y} \parallel

其中 $L$ 称为利普希茨定数，不等式称为利普希茨连续，当下降法，比例因子满足Wolfe条件的时候，其点阵 $\mathbf{x}_{k}, k =1,2,\cdots$ ，满足以下不等式

\sum^\infty_{k=0}(\frac{\nabla f(\mathbf{x}_{k})^T \mathbf{d}_{k}}{\parallel \mathbf{d}_{k} \parallel})^2 < \infty

化简后得到Zoutendijk条件

\sum^\infty_{k=0}(\parallel\nabla f(\mathbf{x}_{k})\parallel\cdot\cos \theta_{k})^2 < \infty

由无限级数的收束条件可得

\begin{gathered} \lim_{k\rightarrow\infty}\frac{\nabla f(\mathbf{x}_{k})^T \mathbf{d}_{k}}{\parallel \mathbf{d}_{k} \parallel} = 0 \\ \Updownarrow \\ \lim_{k\rightarrow\infty} \parallel \nabla f(\mathbf{x}_{k})^T \parallel\cdot\cos \theta_{k} = 0 \end{gathered}

如果对于 $\forall k$ ，存在 $\delta > 0$ 使得 $\cos \theta_{k} \geq \delta$ ，则

\lim_{k\rightarrow\infty} \parallel \nabla f(\mathbf{x}_{k})^T \parallel = 0

上式展现了生成点阵的全局的收束性，也就是说，满足 $\forall k$ ，存在 $\delta > 0$ 使得 $\cos \theta_{k} \geq \delta$ 的点阵 $\mathbf{x}_{k}, k =1,2,\cdots$ 如果存在，则

\liminf_{k\rightarrow\infty} \parallel \nabla f(\mathbf{x}_{k})^T \parallel = 0

梯度下降方法

\begin{aligned} goal &\qquad \nabla f(\mathbf{x}^*) = 0, \quad (\mathbf{x}^*: local\ min) \end{aligned}

本算法用负梯度作搜索方向，即

\Delta \mathbf{d}_k = -\nabla f(\mathbf{x}_k)

梯度下降方法算法

求解初期点 $\mathbf{x} \in \mathbf{dom}f, k := 0$
重复进行：

停止条件： $\parallel\nabla f(\mathbf{x}_k)\parallel < \varepsilon$
决定下降方向： $\Delta \mathbf{d}_k = -\nabla f(\mathbf{x}_k)$
通过精确或回溯直线探索，选择步长 $t > 0$
计算下一个点： $\mathbf{x}_{k+1} = \mathbf{x}_k + t_k\Delta \mathbf{d}_k$
$k := k + 1$

梯度下降方法收敛性

// TODO

最速下降方法

对 $f(\mathbf{x} + \mathbf{v})$ 在 $\mathbf{x}$ 处进行一阶泰拉展开

f(\mathbf{x} + \mathbf{v}) \approx \hat{f}(\mathbf{x} + \mathbf{v}) = f(\mathbf{x}) + \nabla f(\mathbf{x})^T \mathbf{v}

$\nabla f(\mathbf{x})^T \mathbf{v}$ $\nabla f (x)^{T} v$ ：是 $f$ $f$ 在 $\mathbf{x}$ $x$ 处沿方向 $\mathbf{v}$ $v$ 的方向导数
- 近似给出了 $f$ 沿小的步径 $\mathbf{v}$ 会发生的变化
- 如果方向导数是负数，则步径 $\mathbf{v}$ 是下降方向

如选择 $\mathbf{v}$ 使其方向导数尽可能小

由于方向导数 $\nabla f(\mathbf{x})^T \mathbf{v}$ $\nabla f (x)^{T} v$ 是 $\mathbf{v}$ $v$ 的线性函数
- $\mathbf{v} \rightarrow +\infty$ ，则方向导数充分小
- 为了使问题有意义，还必须限制 $\mathbf{v}$ 的大小

我们定义一个规范化的最速下降方向

\Delta \mathbf{d}_{nsd} = \arg \min \lbrace \nabla f(\mathbf{x})^T\mathbf{v}\ |\ \parallel \mathbf{v} \parallel = 0\rbrace

一个最速下降方向使因为上述优化问题可能有多个最优解
一个规范化的最速下降方向 $\Delta \mathbf{d}_{nsd}$ 是一个能使 $f$ 的线性近似下降最多的具有单位范数的步径

我们也可以把规范化的最速下降方向 $\Delta \mathbf{d}_{nsd}$ 定义为

\Delta \mathbf{d}_{nsd} = \arg \min \lbrace \nabla f(\mathbf{x})^T\mathbf{v}\ |\ \parallel \mathbf{v} \parallel \leq 0\rbrace

单位球体中在 $-\nabla f(\mathbf{x})$ 的方向上投影最长的方向

还可以将规范化的最速下降方向乘以一个特殊的比例因子，从而考虑下述非规范的最速下降方向 $\Delta \mathbf{d}_{sd}$

\begin{aligned} \Delta \mathbf{d}_{sd} &= \parallel \nabla f(\mathbf{x}) \parallel_* \nabla f(\mathbf{x})^T \Delta \mathbf{d}_{nsd} \\ &= -\parallel \nabla f(\mathbf{x}) \parallel^2_* \end{aligned}

最速下降方法使用最速下降方向作为直线搜索方向

最速下降方法算法

求解初期点 $\mathbf{x} \in \mathbf{dom}f, k := 0$
重复进行：

停止条件： $\parallel\nabla f(\mathbf{x}_k)\parallel < \varepsilon$
决定下降方向： $\Delta \mathbf{d}_{sd}$ 或者 $\Delta \mathbf{d}_{nsd}$
通过精确或回溯直线探索，选择步长 $t > 0$
计算下一个点： $\mathbf{x}_{k+1} = \mathbf{x}_k + t_k\Delta \mathbf{d}_{sd/nsd}$
$k := k + 1$

如果采用精确直线搜索方向，下降方向的比例因子不起作用，因此规范化或非规范化的方向都能用

采用Euclid范数：
- $\Delta \mathbf{d}_{sd} = - \nabla f(\mathbf{x})$
采用二次范数：
- $\Delta \mathbf{d}_{nsd} = -(\nabla f(\mathbf{x})^TP^{-1}\nabla f(\mathbf{x}))^{-1/2}P^{-1}\nabla f(\mathbf{x})$
- $\Delta \mathbf{d}_{sd} = -P^{-1}\nabla f(\mathbf{x})$

最速下降方法收敛性

// TODO

牛顿法

牛顿法采用的是二阶近似，见二阶近似的最优解

牛顿步径

对于 $\mathbf{x} \in \mathbf{dom} f$ ，称向量

\Delta \mathbf{d}_{nt} = -\nabla^2f(\mathbf{x})^{-1}\nabla f(\mathbf{x})

为 $f$ 在 $\mathbf{x}$ 处的牛顿步径

除非 $\nabla f(\mathbf{x}) = 0$ ，从 $\nabla^2f(\mathbf{x})$ 的正当性可知 $\nabla f(\mathbf{x})^T\Delta \mathbf{d}_{nt}$ 为下降方向

\nabla f(\mathbf{x})^T\Delta \mathbf{d}_{nt} = -\nabla f(\mathbf{x})^T\nabla^2f(\mathbf{x})^{-1}\nabla f(\mathbf{x}) < 0

牛顿法算法

求解初期点 $\mathbf{x} \in \mathbf{dom}f, k := 0$
重复进行：

停止条件： $\parallel\nabla f(\mathbf{x}_k)\parallel < \varepsilon$
决定牛顿方向： $\Delta \mathbf{d}_{nt}$
计算下一个点： $\mathbf{x}_{k+1} = \mathbf{x}_k + \Delta \mathbf{d}_{nt}$
$k := k + 1$

牛顿减量

对于原始牛顿法，由于没有比例因子，对于非二次型目标函数，有时会使函数值上升，表明原始牛顿法不能保证函数值稳定的下降，于是我们定义

\lambda(z) = \begin{cases} (\nabla f(\mathbf{x})^T \nabla^2 f(\mathbf{x})^{-1}\nabla f(\mathbf{x}))^{1/2} \\ or \\ (\Delta \mathbf{d}_{nt}^T \nabla^2 f(\mathbf{x})\Delta \mathbf{d}_{nt})^{1/2} \end{cases}

为 $\mathbf{x}$ 处的牛顿减量，我们可以将牛顿减量与二阶近似联系到一起

f(\mathbf{x}) - \inf_y\hat{f}(\mathbf{x}) = f(\mathbf{x}) - \hat{f}(\mathbf{x} + \Delta \mathbf{d}_{nt}) = \frac{1}{2}\lambda (\mathbf{x})^2

另外牛顿减量也出现在回溯直线搜索中，即

\nabla f(\mathbf{x})^T \Delta \mathbf{d}_{nt} = -\lambda (\mathbf{x})^2

这是在回溯直线搜索中使用的常数，也可以解释为 $f$ 在 $\mathbf{x}$ 处沿牛顿步径方向的方向导数

-\lambda(\mathbf{x})^2 = \nabla f(\mathbf{x})^T \Delta \mathbf{d}_{nt} = \frac{d}{dt}f(\mathbf{x} + \Delta \mathbf{d}_{nt}t)\Big |_{t=0}

阻尼牛顿法

在原始牛顿法的基础上，引入比例因子 $\lambda$ ，也就是牛顿减量

\lambda_k = \argmin_{\lambda \in \mathbb{R}}f(\mathbf{x}_k + \lambda\Delta \mathbf{d}_{nt})

阻尼牛顿法算法

求解初期点 $\mathbf{x} \in \mathbf{dom}f, k := 0$

重复进行：

计算牛顿步径和减量
1. $\lambda^2 = \nabla f(\mathbf{x})^T \nabla^2 f(\mathbf{x})^{-1}\nabla f(\mathbf{x})$
2. $\Delta \mathbf{d}_{nt} = -\nabla^2f(\mathbf{x})^{-1}\nabla f(\mathbf{x})$
如果 $\lambda^2/2 \leq \epsilon$ ，则停止
通过回溯直线探索，选择步长 $t > 0$
计算下一个点： $\mathbf{x}_{k+1} = \mathbf{x}_{k} + t\Delta \mathbf{d}_{nt}$
$k := k + 1$

拟牛顿法

在牛顿法的迭代中，需要计算Hessian矩阵

此计算时间复杂度较大
有时候Hessian矩阵不是正定矩阵

于是我们可以使用一个 $n$ 阶矩阵 $G_k = G(\mathbf{x}_{k})$ 来近似代替 $\nabla^2 f(\mathbf{x})^{-1}$ ，且必须和 $\nabla^2 f(\mathbf{x})$ 由相同的性质即正定对称矩阵

由

f(\mathbf{x} + \Delta \mathbf{d}) = f(\mathbf{x}) + \nabla f(\mathbf{x} + t\Delta \mathbf{d})^T\Delta \mathbf{d} + \frac{1}{2}\Delta \mathbf{d}^T\nabla^2f(\mathbf{x} + t\Delta \mathbf{d})\Delta \mathbf{d}

得到

f(\mathbf{x} ) \approx f(\mathbf{x}_{k+1}) + \nabla f(\mathbf{x}_{k+1})^T(\mathbf{x} - \mathbf{x}_{k+1}) + \frac{1}{2}(\mathbf{x} - \mathbf{x}_{k+1})^T\nabla^2f(\mathbf{x}_{k+1})(\mathbf{x} - \mathbf{x}_{k+1})

此时，对两边取梯度

\nabla f(\mathbf{x}) \approx \nabla f(\mathbf{x}_{k+1}) + \nabla^2f(\mathbf{x}_{k+1})(\mathbf{x} - \mathbf{x}_{k+1})

取 $\mathbf{x} = \mathbf{x}_{k}$ ，化简可得

\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}) \approx \nabla^2f(\mathbf{x}_{k+1})(\mathbf{x}_{k+1} - \mathbf{x}_{k})

上述就是拟牛顿法，当我们对 $\nabla^2f(\mathbf{x}_{k+1})$ 做近似 $B_{k+1}$ ，即可得到

\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}) \approx B_{k+1}(\mathbf{x}_{k+1} - \mathbf{x}_{k})

拟牛顿法（DFP）

该算法通过对迭代的方法，对 $\nabla^2f(\mathbf{x}_{k+1})^{-1}$ 做近似，其格式为

D_{k+1} = D_{k} + \Delta D_{k}, \quad k = 0,1,2,\cdots

其中 $D_{0}$ 一般取单位矩阵 $I$ ，我们将 $\Delta D_{k}$ 待定为

\Delta D_{k} = a\mathbf{u}\mathbf{u}^T + \beta \mathbf{v}\mathbf{v}^T

其中 $a, \beta$ 为待定系数， $\mathbf{u}, \mathbf{v}$ 为待定向量，这种形式保证了矩阵的对称性，我们将其带入式子中

\begin{aligned} \mathbf{x}_{k+1} - \mathbf{x}_{k} &= (D_{k} + \Delta D_{k})(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})) \\ &= (D_{k} - a\mathbf{u}\mathbf{u}^T + \beta \mathbf{v}\mathbf{v}^T)(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})) \end{aligned}

其中注意到以下式子，我们进行以下的赋值

\begin{cases} a\mathbf{u}^T(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})) = 1 \\ \beta \mathbf{v}^T(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})) = -1 \end{cases}

得到

\begin{cases} a = \frac{1}{\mathbf{u}^T(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}))} \\ \beta = \frac{-1}{\mathbf{v}^T(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}))} \end{cases}

我们再将上面的式子代回去，可以得到

\mathbf{u} - \mathbf{v} = (\mathbf{x}_{k+1} - \mathbf{x}_{k}) - D_{k}(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}))

为了使上式成立，我们可以取

\begin{cases} \mathbf{u} = (\mathbf{x}_{k+1} - \mathbf{x}_{k}) \\ \mathbf{v} = D_{k}(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})) \end{cases}

再将此带入到 $a, \beta$ 进行求值

\begin{aligned} a &= \frac{1}{(\mathbf{x}_{k+1} - \mathbf{x}_{k})^T(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}))} \\ \beta &= \frac{-1}{(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}))^T \cdot D_{k} \cdot (\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}))} \end{aligned}

令 $\mathbf{s} = \mathbf{x}_{k+1} - \mathbf{x}_{k}, \mathbf{y} = \nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})$ ，得到

\nabla D_{k+1} = \frac{\mathbf{s}_k\mathbf{s}^T_k}{\mathbf{s}^T_k\mathbf{y}_k} - \frac{D_{k}\mathbf{y}_k(D_{k}\mathbf{y}_k)^T}{\mathbf{y}_k^TD_{k}\mathbf{y}_k}

DFP算法

求解初期点 $\mathbf{x} \in \mathbf{dom}f, k := 0, D_{0} = I$
重复进行：

停止条件： $\parallel\nabla f(\mathbf{x}_k)\parallel < \varepsilon$
决定下降方向： $\Delta \mathbf{d}_{nt} = -D_{k} \nabla f(\mathbf{x}_{k})$
计算比例因子
1. 利用直线搜索得到步长： $\lambda_k$
2. 令 $\mathbf{s}_k = \lambda_k\Delta\mathbf{d}_{nt}$
3. 计算下一个点： $\mathbf{x}_{k+1} = \mathbf{x}_k + \mathbf{s}_k$
令 $\mathbf{y}_k = \nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})$
计算 $D_{k+1} = D_{k} + \frac{\mathbf{s}_k\mathbf{s}^T_k}{\mathbf{s}^T_k\mathbf{y}_k} - \frac{D_{k}\mathbf{y}_k\mathbf{y}_k^TD_{k}}{\mathbf{y}_k^TD_{k}\mathbf{y}_k}$
$k := k + 1$

拟牛顿法（BFGS）

BFGS算法与DFP算法完全类似，只是把 $\mathbf{s}, \mathbf{y}$ 的位置进行了对调

B_{k+1} = B_{k} + \Delta B_{k}, \quad k = 0,1,2,\cdots

其中 $B_{0}$ 一般取单位矩阵 $I$ ，我们将 $\Delta B_{k}$ 待定为

\Delta B_{k} = a\mathbf{u}\mathbf{u}^T + \beta \mathbf{v}\mathbf{v}^T

其中 $a, \beta$ 为待定系数， $\mathbf{u}, \mathbf{v}$ 为待定向量，这种形式保证了矩阵的对称性，我们将其带入式子中

\begin{aligned} \nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}) &= (B_{k} + \Delta B_{k})(\mathbf{x}_{k+1} - \mathbf{x}_{k}) \\ &= (B_{k} - a\mathbf{u}\mathbf{u}^T + \beta \mathbf{v}\mathbf{v}^T)(\mathbf{x}_{k+1} - \mathbf{x}_{k}) \end{aligned}

我们进行以下的赋值

\begin{cases} a\mathbf{u}^T(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})) = 1 \\ \beta \mathbf{v}^T(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})) = -1 \end{cases}

得到

\begin{cases} a = \frac{1}{\mathbf{u}^T(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}))} \\ \beta = \frac{-1}{\mathbf{v}^T(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}))} \end{cases}

我们再将上面的式子代回去，可以得到

\mathbf{u} - \mathbf{v} = (\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})) - B_{k}(\mathbf{x}_{k+1} - \mathbf{x}_{k})

为了使上式成立，我们可以取

\begin{cases} \mathbf{u} = \nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}) \\ \mathbf{v} = B_{k}(\mathbf{x}_{k+1} - \mathbf{x}_{k}) \end{cases}

再将此带入到 $a, \beta$ 进行求值

\begin{aligned} a &= \frac{1}{(\nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k}))^T(\mathbf{x}_{k+1} - \mathbf{x}_{k})} \\ \beta &= \frac{-1}{(\mathbf{x}_{k+1} - \mathbf{x}_{k})^T \cdot B_{k} \cdot (\mathbf{x}_{k+1} - \mathbf{x}_{k})} \end{aligned}

令 $\mathbf{s} = \mathbf{x}_{k+1} - \mathbf{x}_{k}, \mathbf{y} = \nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})$ ，得到

\nabla B_{k} = \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k} - \frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k}

BFGS算法

求解初期点 $\mathbf{x} \in \mathbf{dom}f, k := 0, B_{0} = I$
重复进行：

停止条件： $\parallel\nabla f(\mathbf{x}_k)\parallel < \varepsilon$
决定下降方向： $\Delta \mathbf{d}_{nt} = -(B_{k})^{-1} \nabla f(\mathbf{x}_{k})$
计算比例因子
1. 利用直线搜索得到步长： $\lambda_k$
2. 令 $\mathbf{s}_k = \lambda_k\Delta\mathbf{d}_{nt}$
3. 计算下一个点： $\mathbf{x}_{k+1} = \mathbf{x}_k + \mathbf{s}_k$
令 $\mathbf{y}_k = \nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})$
计算 $B_{k+1} = B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k} - \frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k}$
$k := k + 1$

Sherman-Morrison公式

这是线性代数中，这是求解逆矩阵的一种方法
设 $\mathbf{A} \in \mathbb{R}^{n \times n}$ 为可逆矩阵， $\mathbf{u}, \mathbf{v}$ 为列向量，则当

\begin{cases} \mathbf{v}^TA^{-1}\mathbf{u} \neq -1 \\ \mathbf{u}^T\mathbf{v} \neq -1 \end{cases}

则

(A + \mathbf{u}\mathbf{v}^T)^{-1} = A^{-1} - \frac{A^{-1}\mathbf{v}\mathbf{v}^TA^{-1}}{1 + \mathbf{v}^TA^{-1}\mathbf{u}}

证明：

令 $X=A+\mathbf{u}\mathbf{v}^{T}, Y= A^{-1}- \frac{A^{-1}\mathbf{u}\mathbf{v}^{T}A^{-1}}{1+\mathbf{v}^{T}A^{-1}\mathbf{u}}$

\begin{aligned} XY&=(A+\mathbf{u}\mathbf{v}^{T})\left(A^{-1}-\frac{A^{-1}\mathbf{u}\mathbf{v}^{T}A^{-1}}{1+\mathbf{v}^{T}A^{-1}\mathbf{u}}\right)\\ &=AA^{-1}+\mathbf{u}\mathbf{v}^{T}A^{-1}-\frac{AA^{-1}\mathbf{u}\mathbf{v}^{T}A^{-1}+\mathbf{u}\mathbf{v}^{T}A^{-1}\mathbf{u}\mathbf{v}^{T}A^{-1}}{1+\mathbf{v}^{T}A^{-1}\mathbf{u}}\\ &=I+\mathbf{u}\mathbf{v}^{T}A^{-1}-\frac{\mathbf{u}\mathbf{v}^{T}A^{-1}+\mathbf{u}\mathbf{v}^{T}A^{-1}\mathbf{u}\mathbf{v}^{T}A^{-1}}{1+\mathbf{v}^{T}A^{-1}\mathbf{u}}\\ &=I+\mathbf{u}\mathbf{v}^{T}A^{-1}-\frac{\mathbf{u}(1+\mathbf{v}^{T}A^{-1}\mathbf{u})\mathbf{v}^{T}A^{-1}}{1+\mathbf{v}^{T}A^{-1}\mathbf{u}}\\ &=I+\mathbf{u}\mathbf{v}^{T}A^{-1}-\mathbf{u}\mathbf{v}^{T}A^{-1}\\ &=I\end{aligned}

Sherman-Morrison公式应用

$A = I$

令 $A=I$ ，则有 $I + \mathbf{u}\mathbf{v}^T$ 可逆当且仅当 $\mathbf{v}^T\mathbf{u} = -1$

(I + \mathbf{u}\mathbf{v}^T)^{-1} = I - \frac{\mathbf{u}\mathbf{v}^T}{1 + \mathbf{v}^T\mathbf{u}}

若 $\mathbf{v} = \mathbf{u}$ ，则 $1 + \mathbf{u}^T\mathbf{u} > 0$ ，所以 $I + \mathbf{u}\mathbf{u}^T$ 可逆

(I + \mathbf{u}\mathbf{u}^T)^{-1} = I - \frac{\mathbf{u}\mathbf{u}^T}{1 + \mathbf{u}^T\mathbf{u}}

拟牛顿法（H-BFGS）

还可以通过近似Hessian逆矩阵，进一步优化BFGS方法

\begin{aligned} B_{k+1} &= B_{k} + \Delta B_{k} \\ &= \color{purple}{B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}}\color{black} - \frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k} \\ B^{-1}_{k+1} &= \Big ((\color{purple}{B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}}\color{black}) - \frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k} \Big )^{-1} \\ &= (\color{purple}{B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}}\color{black})^{-1} - \frac{(\color{purple}{B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}}\color{black})^{-1}(-\frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k})(\color{purple}{B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}}\color{black})^{-1}}{1 + \frac{-(B_{k}\mathbf{s}_k)^T(\color{purple}{B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}}\color{black})^{-1}(B_{k}\mathbf{s}_k)}{\mathbf{s}_k^TB_{k}\mathbf{s}_k}} \\ &= (\color{purple}{B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}}\color{black})^{-1} + (\color{purple}{B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}}\color{black})^{-1}\frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k-(B_{k}\mathbf{s}_k)^T(\color{purple}{B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}}\color{black})^{-1}(B_{k}\mathbf{s}_k)}(\color{purple}{B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}}\color{black})^{-1} \end{aligned}

令 $(B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k}) = H$ ，化简得到

B^{-1}_{k+1} = H^{-1} + H^{-1}\frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k-(B_{k}\mathbf{s}_k)^T(H^{-1})(B_{k}\mathbf{s}_k)}H^{-1}

我们再来看看 $H = (B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k})$

\begin{aligned} H^{-1} &= (B_{k} + \frac{\mathbf{y}_k\mathbf{y}^T_k}{\mathbf{y}^T_k\mathbf{s}_k})^{-1} \\ &= B^{-1}_k - \frac{B^{-1}\frac{\mathbf{y}\mathbf{y}^T}{\mathbf{y}^T\mathbf{s}}B^{-1}}{1 + \frac{1}{\mathbf{y}^T\mathbf{s}}\mathbf{y}^TB^{-1}\mathbf{y}} \\ &= B^{-1}_k - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}} \end{aligned}

我们现在关注 $H^{-1}\frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k-(B_{k}\mathbf{s}_k)^T(H^{-1})(B_{k}\mathbf{s}_k)}H^{-1}$

\begin{aligned} &H^{-1}\frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k-(B_{k}\mathbf{s}_k)^T(H^{-1})(B_{k}\mathbf{s}_k)}H^{-1} \\ =& (B^{-1}_k - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}})\frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k-(B_{k}\mathbf{s}_k)^T(B^{-1}_k - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}})(B_{k}\mathbf{s}_k)}(B^{-1}_k - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}}) \\ =& (B^{-1}_k - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}})\frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k - \mathbf{s}_k^TB_{k}\mathbf{s}_k + \frac{\mathbf{s}^T\mathbf{y}\mathbf{y}^T\mathbf{s}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}}}(B^{-1}_k - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}}) \\ =& \frac{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}}{\mathbf{s}^T\mathbf{y}\mathbf{y}^T\mathbf{s}}(B^{-1}_k - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}})B\mathbf{s}\mathbf{s}^TB(B^{-1}_k - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}}) \\ =& \frac{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}}{\mathbf{s}^T\mathbf{y}\mathbf{y}^T\mathbf{s}}(\mathbf{s}\mathbf{s}^TB - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}})(B^{-1}_k - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}}) \\ =& \frac{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}}{\mathbf{s}^T\mathbf{y}\mathbf{y}^T\mathbf{s}}(\mathbf{s}\mathbf{s}^T - \frac{\mathbf{s}\mathbf{s}^T\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}} - \frac{B^{-1}\mathbf{y}\mathbf{y}^T\mathbf{s}\mathbf{s}^T}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}} + \frac{B^{-1}\mathbf{y}\mathbf{y}^T\mathbf{s}\mathbf{s}^T\mathbf{y}\mathbf{y}^TB^{-1}}{(\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black})^2}) \\ =& \frac{(\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black})\mathbf{s}\mathbf{s}^T}{\mathbf{s}^T\mathbf{y}\mathbf{y}^T\mathbf{s}} - \frac{\mathbf{s}\mathbf{s}^T\mathbf{y}\mathbf{y}^TB^{-1}}{\mathbf{s}^T\mathbf{y}\mathbf{y}^T\mathbf{s}} - \frac{B^{-1}\mathbf{y}\mathbf{y}^T\mathbf{s}\mathbf{s}^T}{\mathbf{s}^T\mathbf{y}\mathbf{y}^T\mathbf{s}} + \frac{B^{-1}\mathbf{y}\mathbf{y}^T\mathbf{s}\mathbf{s}^T\mathbf{y}\mathbf{y}^TB^{-1}}{(\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black})\mathbf{s}^T\mathbf{y}\mathbf{y}^T\mathbf{s}} \\ =& \frac{(\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black})\mathbf{s}\mathbf{s}^T}{\mathbf{s}^T\mathbf{y}\mathbf{y}^T\mathbf{s}} - \frac{\mathbf{s}\mathbf{y}^TB^{-1}}{\mathbf{s}^T\mathbf{y}} - \frac{B^{-1}\mathbf{y}\mathbf{s}^T}{\mathbf{s}^T\mathbf{y}} + \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}} \end{aligned}

于是

\begin{aligned} B^{-1}_{k+1} &= H^{-1} + H^{-1}\frac{B_{k}\mathbf{s}_k(B_{k}\mathbf{s}_k)^T}{\mathbf{s}_k^TB_{k}\mathbf{s}_k-(B_{k}\mathbf{s}_k)^T(H^{-1})(B_{k}\mathbf{s}_k)}H^{-1} \\ &= H^{-1} + \frac{(\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black})\mathbf{s}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}\mathbf{y}^T\mathbf{s}} - \frac{\mathbf{s}\mathbf{y}^TB^{-1}}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}} - \frac{B^{-1}\mathbf{y}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}} + \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}} \\ &= B^{-1}_k - \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}} + \frac{(\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black})\mathbf{s}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}\mathbf{y}^T\mathbf{s}} - \frac{\mathbf{s}\mathbf{y}^TB^{-1}}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}} - \frac{B^{-1}\mathbf{y}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}} + \frac{B^{-1}\mathbf{y}\mathbf{y}^TB^{-1}}{\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black}} \\ &= B^{-1}_k + \frac{(\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black})\mathbf{s}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}\mathbf{y}^T\mathbf{s}} - \frac{\mathbf{s}\mathbf{y}^TB^{-1}}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}} - \frac{B^{-1}\mathbf{y}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}} \\ &=(I - \frac{\mathbf{s}\mathbf{y}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}})B^{-1}-B^{-1}\frac{\mathbf{y}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}} + \frac{(\color{purple}{\mathbf{y}^T\mathbf{s} + \mathbf{y}^TB^{-1}\mathbf{y}}\color{black})\mathbf{s}\mathbf{s}^T}{(\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black})^2} \\ &=(I - \frac{\mathbf{s}\mathbf{y}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}})B^{-1}-(I - \frac{\mathbf{s}\mathbf{y}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}})B^{-1}\frac{\mathbf{y}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}} + \frac{\mathbf{s}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}} \\ &=(I - \frac{\mathbf{s}\mathbf{y}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}})B^{-1}(I - \frac{\mathbf{y}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}}) + \frac{\mathbf{s}\mathbf{s}^T}{\color{blue}{\mathbf{s}^T\mathbf{y}}\color{black}} \end{aligned}

通过使用2次公式，最终得到

B^{-1}_{k+1} = (I - \frac{\mathbf{s}\mathbf{y}^T}{\mathbf{s}^T\mathbf{y}})B^{-1}(I - \frac{\mathbf{y}\mathbf{s}^T}{\mathbf{s}^T\mathbf{y}}) + \frac{\mathbf{s}\mathbf{s}^T}{\mathbf{s}^T\mathbf{y}}

H-BFGS算法

求解初期点 $\mathbf{x} \in \mathbf{dom}f, k := 0, D_{0} = I$
重复进行：

停止条件： $\parallel\nabla f(\mathbf{x}_k)\parallel < \varepsilon$
决定下降方向： $\Delta \mathbf{d}_{nt} = -B^{-1}_k \nabla f(\mathbf{x}_{k})$
计算比例因子
1. 利用直线搜索得到步长 $\lambda_k$
2. 令 $\mathbf{s}_k = \lambda_k\Delta\mathbf{d}_{nt}$
3. 计算下一个点： $\mathbf{x}_{k+1} = \mathbf{x}_k + \mathbf{s}_k$
令 $\mathbf{y}_k = \nabla f(\mathbf{x}_{k+1}) - \nabla f(\mathbf{x}_{k})$
计算 $B^{-1}_{k+1} = (I - \frac{\mathbf{s}\mathbf{y}^T}{\mathbf{s}^T\mathbf{y}})B^{-1}(I - \frac{\mathbf{y}\mathbf{s}^T}{\mathbf{s}^T\mathbf{y}}) + \frac{\mathbf{s}\mathbf{s}^T}{\mathbf{s}^T\mathbf{y}}$
$k := k + 1$

约束优化问题

一阶约束优化问题的本质是在梯度的下降方向上，沿着约束的方向进行优化，最后达到与约束条件的梯度相同的一点，即局部最优点，然后利用凸函数的性质，即可得到全局最优点，

等式约束条件

拉格朗日乘数法

求定义域内约束在某个区域内函数的极值, 可使用Lagrange乘子法

\begin{aligned} min &\qquad z = f(x, y) \\ s.t. &\qquad \varphi(x, y) = 0 \end{aligned}

我们假定在 $(x_0, y_0)$ 的某一领域内 $f(x, y)$ 与 $\varphi(x, y)$ 均有连续的一阶偏导数，而 $\varphi_y(x_0, y_0) \neq 0$ ，由隐函数存在定理可知， $\varphi(x_0, y_0) = 0$ 确定一个连续且具有连续偏导数的函数 $y = \psi(x)$ ，将其带入后，得到

z = f(x, \psi(x))

于是原函数在 $(x_0, y_0)$ 处所求的极值，变为函数 $z = f(x, \psi(x))$ 在 $x = x_0$ 处取得的极值，由一元可导函数取得极值的必要条件可得

\frac{dz}{dx}|_{x = x_0} = f_x(x_0, y_0) + f_y(x_0, y_0)\frac{dy}{dx}|_{x = x_0} = 0

由隐函数求导公式，得

\frac{dy}{dx}|_{x=x_0} = -\frac{\varphi_x(x_0, y_0)}{\varphi_y(x_0, y_0)}

代入后得到

f_x(x_0, y_0) - f_y(x_0, y_0)\frac{\varphi_x(x_0, y_0)}{\varphi_y(x_0, y_0)} = 0

设 $\frac{f_y(x_0, y_0)}{\varphi_y(x_0, y_0)} = -\lambda$ ，上述条件变为

\begin{cases} f_x(x_0, y_0) + \lambda\varphi_x(x_0, y_0) = 0 \\ f_y(x_0, y_0) + \lambda\varphi_y(x_0, y_0) = 0 \\ \varphi(x_0, y_0) = 0 \end{cases}

上述条件可以看作在点（局部最小点） $(x_0, y_0)$ 的 $f$ 的梯度的方向与 $\varphi$ 的梯度方向同线，且满足 $\varphi(x_0, y_0) = 0$

引进辅助函数（拉格朗日函数）

L(x, y) = f(x, y) + \lambda\varphi(x, y)

可以看出

\begin{aligned} L_x(x, y) &= f_x(x_0, y_0) + \lambda\varphi_x(x_0, y_0) = 0 \\ L_y(x, y) &= f_y(x_0, y_0) + \lambda\varphi_y(x_0, y_0) = 0 \end{aligned}

将 $L(x, y)$ 称为拉格朗日函数，参数 $\lambda$ 称为拉格朗日乘子

拉格朗日乘数法算法

先作拉格朗日函数

L(x, y) = f(x, y) + \lambda\varphi(x, y)

分别求对 $x, y$ 的一阶偏导数，使之为0，然后与所有方程进行联立

\begin{cases} f_x(x, y) + \lambda\varphi_x(x, y) = 0 \\ f_y(x, y) + \lambda\varphi_y(x, y) = 0 \\ \varphi(x, y) = 0 \end{cases}

由上述方程解出 $x, y, \lambda$ ，这样得到的 $(x, y)$ 就是函数 $f(x, y)$ 在附加条件 $\varphi(x, y) = 0$ 下可能的极值点

拉格朗日乘数法算法推广

\begin{aligned} min &\qquad u = f(x, y, z, t) \\ s.t. &\qquad \varphi(x, y, z, t) = 0 \\ &\qquad \phi(x, y, z, t) = 0 \end{aligned}

先作拉格朗日函数

\begin{aligned} L(x, y, z, t) = &f(x, y, z, t) \\ &+ \lambda\varphi(x, y, z, t) \\ &+ \mu\phi(x, y, z, t) \end{aligned}

其中 $\lambda, \mu$ 均为参数，求其一阶偏导数，并使之等于0，与原条件连理起来即可求解，即

\begin{cases} f_x(x, y, z, t) + \lambda\varphi_x(x, y, z, t) + \mu\phi_x(x, y, z, t)= 0 \\ f_y(x, y, z, t) + \lambda\varphi_y(x, y, z, t) + \mu\phi_y(x, y, z, t)= 0 \\ f_z(x, y, z, t) + \lambda\varphi_z(x, y, z, t) + \mu\phi_z(x, y, z, t)= 0 \\ f_t(x, y, z, t) + \lambda\varphi_t(x, y, z, t) + \mu\phi_t(x, y, z, t)= 0 \\ \varphi(x, y, z, t) = 0 \\ \phi(x, y, z, t) = 0 \end{cases}

求解后得出的 $(x, y, z, t)$ 就是函数 $f(x, y, z, t)$ 在附加条件下的可能极值点，至于是否为真正的极值点，需要在实际问题中根据问题本身的性质来判定

拉格朗日乘数法算法总结

\begin{aligned} min &\qquad f(\mathbf{x}) \\ s.t. &\qquad h_i(\mathbf{x}) = 0, \quad i = 1, 2, \cdots, n \end{aligned}

拉格朗日函数

L(\mathbf{x}, \lambda) = f(\mathbf{x}) + \sum^n_{i=1}\lambda_ih_i(\mathbf{x}), \quad i = 1, 2, \cdots, n

对其求导

L_{x_i}(\mathbf{x}, \lambda) = f_{x_i}(\mathbf{x}) + \sum^n_{i=1}\lambda_ih_{i_{x_i}}(\mathbf{x}), \quad i = 1, 2, \cdots, n

联立原条件方程后即可得到解

\begin{aligned} &L_{x_i}(\mathbf{x}, \lambda) = f_{x_i}(\mathbf{x}) + \sum^n_{i=1}\lambda_ih_{i_{x_i}}(\mathbf{x}) \\ &h_i(\mathbf{x}) = 0 \\ &i = 1, 2, \cdots, n \end{aligned}

不等式约束条件

不等式约束问题的一阶最优性条件

考虑下方非线性规划问题

\begin{aligned} min &\qquad f(\mathbf{x}) \\ s.t. &\qquad g_i(\mathbf{x}) > 0, \quad i = 1, 2, \cdots, m \end{aligned}

这个问题的可行域为

S = \lbrace \mathbf{x} | g_i(\mathbf{x}) \geq 0, i = 1, 2, \cdots, m \rbrace

对于 $\overline{\mathbf{x}} \in S$ ，将约束条件 $g_i(\mathbf{x})$ 分为以下2中情况（其他 $I$ 为下标集，即下标的集合）

I = \lbrace i | g_i(\overline{\mathbf{x}}) = 0 \rbrace

$g_i(\overline{\mathbf{x}}) = 0, i \in I$

满足等号的等式，在 $\overline{\mathbf{x}}$ 的附近限制了可行点的范围，也就是在某些方向稍微移动一点，仍能满足约束条件，但是沿着另外一些方向，无论移动多少，也会违背约束条件，通俗的说就是在边界上。这样的约束条件称为在 $\overline{\mathbf{x}}$ 处起作用的约束

$g_i(\overline{\mathbf{x}}) > 0, i \notin I$

反之，对于大于号的不等式，在 $\overline{\mathbf{x}}$ 的附近无论哪个方向，稍微离开一些距离都不会违背约束，通俗的说就是在不在边界上。这样的约束条件称为在 $\overline{\mathbf{x}}$ 处不起作用的约束

可以用集合

G_0 = \lbrace \mathbf{d} | \nabla g_i(\overline{\mathbf{x}})^T\mathbf{d} > 0, i \in I \rbrace

取代可行域。

定理：设 $\overline{\mathbf{x}} \in S, f(\mathbf{x})$ 和 $g_i(\mathbf{x})(i \in I)$ 在 $\overline{\mathbf{x}}$ 可微， $g_i(\mathbf{x})(i \notin I)$ 在 $\overline{\mathbf{x}}$ 连续，如果 $\overline{\mathbf{x}}$ 是非线性规划问题的局部最优解，则

\text{下降方向集} \cap G_0 = \varnothing

已经是局部最优解，自然没有可以继续下降的方向

Fritz John条件

设

$\overline{\mathbf{x}} \in S$
$I = \lbrace i | g_i(\overline{\mathbf{x}}) = 0 \rbrace$
$f,g_i (i \in I)$ 在 $\overline{\mathbf{x}}$ 处可微
$g_i (i \notin I)$ 在 $\overline{\mathbf{x}}$ 处连续

如果 $\overline{\mathbf{x}}$ 是非线性规划问题的局部最优解，则存在不全为0的非负数 $w_0, w_i(i \in I)$ ，使得

w_0\nabla f(\overline{\mathbf{x}}) - \sum_{i \in I}w_i\nabla g_i(\overline{\mathbf{x}}) = \mathbf{0}

证明：根据上面 $\text{下降方向集} \cap G_0 = \varnothing$ ，即不等式

\begin{cases} \nabla f(\overline{\mathbf{x}})^T\mathbf{d} < 0 \\ -\nabla g_i(\overline{\mathbf{x}})^T \mathbf{d} < 0, \quad i \in I \end{cases}

无解，再由超平面分离定理（两个凸集分离，直观地看是指两个凸集合没有交叉和重合的部分，因此可以用一张超平面将两者隔在两边），必存在非零向量

\mathbf{w} = (w_0, w_i, i \in I) \geq \mathbf{0}

使得

w \nabla f(\overline{\mathbf{x}}) - \sum_{i \in I} w_i\nabla g_i(\overline{\mathbf{x}}) = \mathbf{0}

在使用Fritz John条件时，可能出现 $w_0 = 0$ 的情况，这时候Fritz John条件中不包含目标函数的任何数据，只是把起作用的约束的梯度组合成了零向量。这样的解的描述没有价值，我们需要 $w_0 \neq 0$ 的情况，为了保证这样，我们需要添加某种限制，这样的限制称为约束规格，在定理Fritz John条件中，如果增加起作用约束的梯度线性无关的约束规格，则给出不等式约束问题的K-T条件

Kuhn-Tucker条件

考虑非线性规划问题，设

$\overline{\mathbf{x}} \in S$
$I = \lbrace i | g_i(\overline{\mathbf{x}}) = 0 \rbrace$
$f,g_i (i \in I)$ 在 $\overline{\mathbf{x}}$ 处可微
$g_i (i \notin I)$ 在 $\overline{\mathbf{x}}$ 处连续
$\color{blue}\lbrace \nabla g_i(\overline{\mathbf{x}}) | i \in I \rbrace$ 线性无关

如果 $\overline{\mathbf{x}}$ 是非线性规划问题的局部最优解，则存在非负数 $w_i, i \in I$ ，使得

\nabla f(\overline{\mathbf{x}}) - \sum^m_{i \in I} w_i \nabla g_i(\overline{\mathbf{x}}) = \mathbf{0}

证明：

根据Fritz John条件，有

w_0 \nabla f(\overline{\mathbf{x}}) - \sum^m_{i \in I} w_i\nabla g_i(\overline{\mathbf{x}}) = 0

$w_0$ 不能为0，如果为0，则会导致 $\lbrace \nabla g_i(\overline{\mathbf{x}}) | i \in I \rbrace$ 线性相关，于是可以使

w_i = \frac{\hat{w_i}}{w_0}, \quad i \in I

从而得到

\begin{cases} \nabla f(\overline{\mathbf{x}}) - \sum^m_{i \in I}w_i\nabla g_i(\overline{\mathbf{x}}) = \mathbf{0} \\ w_i \geq 0, \quad i \in I \end{cases}

若 $g_i (i \notin I)$ 在 $\overline{\mathbf{x}}$ 处可微，则K-T条件可写成等价形式：

\begin{cases} \nabla f(\overline{\mathbf{x}}) - \sum^m_{i=1}w_i\nabla g_i(\overline{\mathbf{x}}) = \mathbf{0} \\ w_ig_i(\overline{\mathbf{x}}) = 0, \quad i = 1,\cdots,m \\ w_i \geq 0, \quad i = 1,\cdots,m \end{cases}

当 $i \notin I$ 时， $g_i(\overline{\mathbf{x}}) \neq 0$ ，由上面的条件可以知道 $w_i = 0$ ，这时，项 $w_ig_i(\overline{\mathbf{x}})$ 自然消去，得到上面的等式。
当 $i \in I$ 时， $g_i(\overline{\mathbf{x}}) = \mathbf{0}$ ，因此条件 $w_ig_i(\overline{\mathbf{x}}) = 0$ 对 $w_i$ 没有限制

条件 $w_ig_i(\overline{\mathbf{x}})$ 称为互补松弛条件

$\nabla f(\overline{\mathbf{x}}) - \sum^m_{i=1}w_i\nabla g_i(\overline{\mathbf{x}}) = \mathbf{0}$ 含有 $m + n$ 个未知量及 $m + n$ 个方程的方程组
如果给定点 $\overline{\mathbf{x}}$ ，验证它是否为K-T点，只需要解方程组 $\nabla f(\overline{\mathbf{x}}) - \sum_{i \in I} w_i \nabla g_i(\overline{\mathbf{x}}) = \mathbf{0}$
如果 $\overline{\mathbf{x}}$ 没有给定，欲求问题的K-T点，就需要解上述的等价形式的方程

$\nabla f(\overline{\mathbf{x}}) - \sum^m_{i=1}w_i\nabla g_i(\overline{\mathbf{x}}) = \mathbf{0}$ 实质是在 $\overline{\mathbf{x}}$ 时， $f$ 的梯度方向等于 $\mathbf{g}$ 的方向

对于凸优化，也有最优解的一阶充分条件
定理：在非线性规划问题中，设

$f$ 是凸函数
$g_i(i = 1,\cdots,m)$ 是凹函数
$S$ 为可行域， $\overline{\mathbf{x}} \in S$
$I = \lbrace i | g_i(\overline{\mathbf{x}}) = 0 \rbrace$
$f,g_i (i \in I)$ 在 $\overline{\mathbf{x}}$ 处可微
$g_i (i \notin I)$ 在 $\overline{\mathbf{x}}$ 处连续
在 $\overline{\mathbf{x}}$ 处K-T条件成立

则 $\overline{\mathbf{x}}$ 为全局最优解

凸函数的局部最优解为全局最优解

一般约束问题的一阶最优性条件

记

\mathbf{g}(\mathbf{x}) = \begin{pmatrix} g_1(\mathbf{x}) \\ g_2(\mathbf{x}) \\ \vdots \\ g_m(\mathbf{x}) \end{pmatrix}, \quad \mathbf{h}(\mathbf{x}) = \begin{pmatrix} h_1(\mathbf{x}) \\ h_2(\mathbf{x}) \\ \vdots \\ h_l(\mathbf{x}) \end{pmatrix}

将非线性规划问题写作

\begin{aligned} min &\qquad f(\mathbf{x}), \mathbf{x} \in \mathbb{R}^n \\ s.t. &\qquad \mathbf{g}(\mathbf{x}) \geq \mathbf{0} \\ s.t. &\qquad \mathbf{h}(\mathbf{x}) = \mathbf{0} \end{aligned}

正则点

定义：设 $\mathbf{\overline{x}}$ 为可行点，不等式约束中在 $\mathbf{\overline{x}}$ 起作用约束下标集记作 $I$ ，如果向量组

\lbrace \nabla g_i(\overline{\mathbf{x}}), \nabla h_j(\overline{\mathbf{x}}) | i \in I, j = 1,2,\cdots,l \rbrace

线性无关，就称 $\overline{\mathbf{x}}$ 为约束 $\mathbf{g}(\mathbf{x}) \geq \mathbf{0}$ 和 $\mathbf{h}(\mathbf{x}) = \mathbf{0}$ 的正则点

切平面

点集 $\lbrace \mathbf{x} = \mathbf{x}(t) | t_0 \leq t \leq t_1 \rbrace$ 称为曲面 $S = \lbrace \mathbf{x} | \mathbf{h}(\mathbf{x}) = \mathbf{0} \rbrace$ 上的一条曲线，如果对所有 $t \in [t_0, t_1]$ 均有

\mathbf{h}(\mathbf{x}(t)) = \mathbf{0}

显然，曲线上的点是参数 $t$ 的函数，如果导数 $\mathbf{x}'(t) = \frac{d\mathbf{x(t)}}{dt}$ 存在，则称曲线是可微的

曲线 $\mathbf{x}(t)$ 的一阶导数 $\mathbf{x}'(t)$ 是曲线在点 $\mathbf{x}(t)$ 处的切向量
曲面 $S$ 上在点 $\mathbf{x}$ 处所有可微曲线的切向量组成的集合，称为曲面 $S$ 在点 $\mathbf{x}$ 的切平面，记作 $T(\mathbf{x})$

为了表达切平面，定义下列子空间

H = \lbrace \mathbf{d} | \nabla \mathbf{h}(\mathbf{x})^T\mathbf{d} = \mathbf{0} \rbrace

其中 $\nabla \mathbf{h}(\mathbf{x}) = (\nabla h_1(\mathbf{x}) , \nabla h_2(\mathbf{x}), \cdots, \nabla h_1(\mathbf{x}))$ ， $\nabla h_j(\mathbf{x})$ 是 $h_j(\mathbf{x})$ 的梯度
根据切平面 $T$ 及子空间 $H$ 的定义，在点 $\overline{\mathbf{x}}$ ，若向量 $\mathbf{d} \in T(\overline{\mathbf{x}})$ ，则有

\mathbf{d} \in H \xlongequal{def} \lbrace \mathbf{d} | \nabla \mathbf{h}(\overline{\mathbf{x}})^T\mathbf{d} = \mathbf{0} \rbrace

反之不一定成立，但若 $\overline{\mathbf{x}}$ 是约束 $\mathbf{h}(\mathbf{x}) = \mathbf{0}$ 的正则点，反之也成立

定理：设 $\overline{\mathbf{x}}$ 是曲面 $S = \lbrace \mathbf{x} | \mathbf{h}(\mathbf{x}) = \mathbf{0} \rbrace$ 上一个正则点（即 $\nabla h_i(\overline{\mathbf{x}})$ 线性无关），则在点 $\overline{\mathbf{x}}$ 的切平面 $T(\overline{\mathbf{x}})$ 等于子空间 $H = \lbrace \mathbf{d} | \nabla \mathbf{h}(\overline{\mathbf{x}})^T\mathbf{d} = \mathbf{0} \rbrace$

Fritz John条件丨最优解的一阶必要条件

定理：设在约束极值问题中

$\overline{\mathbf{x}}$ 为可行点
$I = \lbrace i | g_i(\overline{\mathbf{x}}) = 0 \rbrace$
$f,g_i (i \in I)$ 在 $\overline{\mathbf{x}}$ 处可微
$g_i (i \notin I)$ 在 $\overline{\mathbf{x}}$ 处连续
且 $\nabla h_i(\overline{\mathbf{x}}) | i = 1,2,\cdots,l \rbrace$ 线性无关

如果 $\overline{\mathbf{x}}$ 是非线性规划问题的局部最优解，则在 $\overline{\mathbf{x}}$ 处，有

\text{下降方向集} \cap G_0 \cap \text{切平面} = \varnothing

已经是局部最优解，自然没有可以继续下降的方向

如果 $\overline{\mathbf{x}}$ 是局部最优解，则存在不全为0的 $w_0,w_i(i \in I)$ 和 $v_j(j=1,\cdots,j)$ ，使得

w_0 \nabla f(\overline{\mathbf{x}}) - \sum_{i \in I}w_i \nabla g_i(\overline{\mathbf{x}}) - \sum^l_{j = 1}v_j \nabla h_j(\overline{\mathbf{x}}) = \mathbf{0}, \quad w_0,w_i \geq 0, \quad i \in I

证明：

如果 $\nabla h_i(\overline{\mathbf{x}})$ 线性相关，则存在不全为0的数，使得 $\sum^l_{j = 1}v_j \nabla h_j(\overline{\mathbf{x}}) = \mathbf{0}$ ，令 $w_0,w_i=0$ 即可得出答案。

如果线性无关，由 $\text{下降方向集} \cap G_0 \cap \text{切平面} = \varnothing$ ，即不等式组

\begin{cases} \nabla f(\overline{\mathbf{x}})^T\mathbf{d} < 0 \\ -\nabla g_i(\overline{\mathbf{x}})^T \mathbf{d} < 0, \quad i \in I \\ \nabla h_j(\overline{\mathbf{x}})^T \mathbf{d} = 0, \quad j =1,\cdots,l \end{cases}

无解

令 $A$ 是以 $\nabla f(\overline{\mathbf{x}})^T, -\nabla g_i(\overline{\mathbf{x}})^T$ 为行组成的矩阵
令 $B$ 是以 $-h_j(\overline{\mathbf{x}})^T$ 为组成的矩阵

上述不等式组化为

\begin{cases} A\mathbf{d} < \mathbf{0} \\ B\mathbf{d} = \mathbf{0} \end{cases}

非空凸集的分离定理：设 $S_1$ 和 $S_2$ 是 $\mathbb{R}^n$ 中两个非空凸集， $S_1 \cap S_2 = \varnothing$ ，则存在非零向量 $\mathbf{p}$ ，使得

\inf \lbrace \mathbf{p}^T\mathbf{x} | \mathbf{x} \in S_1 \rbrace \geq \sup \lbrace \mathbf{p}^T\mathbf{x} | \mathbf{x} \ in S_2 \rbrace

定义两个集合

\begin{aligned} S_1 &= \lbrace \begin{bmatrix} \mathbf{y}_1 \\ \mathbf{y}_2 \end{bmatrix} | \begin{matrix} \mathbf{y}_1 = A\mathbf{d} \\ \mathbf{y}_2 = B\mathbf{d} \end{matrix}, \mathbf{d} \in \mathbb{R}^n\rbrace \\ S_2 &= \lbrace \begin{bmatrix} \mathbf{y}_1 \\ \mathbf{y}_2 \end{bmatrix} | \begin{matrix} \mathbf{y}_1 < \mathbf{0} \\ \mathbf{y}_2 = \mathbf{0} \end{matrix}\rbrace \end{aligned}

它们都是非空凸集，并且

S_1 \cap S_2 = \varnothing

根据非空凸集的分离定理，存在非零向量

\mathbf{p} = \begin{bmatrix} \mathbf{p}_1 \\ \mathbf{p}_2 \end{bmatrix}

使得对任意 $\mathbf{d} \in \mathbb{R}^n$ 及每一个点 $\begin{bmatrix}\mathbf{y}_1\\\mathbf{y}_2\end{bmatrix} \in \text{cl} S_2$ 成立

\mathbf{p}^T_1 A\mathbf{d} + \mathbf{p}^T_2 B\mathbf{d} \geq \mathbf{p}^T_1 \mathbf{y}_1 + \mathbf{p}^T_2\mathbf{y}_2

因为令 $\mathbf{y}_2 = \mathbf{0}$ ，且 $\mathbf{y}_1$ 的每个分量可为任意负数，因此 $\mathbf{p}_1 \geq \mathbf{0}$ ，在令

\begin{bmatrix} \mathbf{y}_1 \\ \mathbf{y}_2 \end{bmatrix} = \begin{bmatrix} \mathbf{0} \\ \mathbf{0} \end{bmatrix} \in \text{cl} S_2

则又可得出

\mathbf{p}^T_1 A\mathbf{d} + \mathbf{p}^T_2 B\mathbf{d} \geq 0

因为 $\mathbf{d} \in \mathbb{R}^n$ ，令 $\mathbf{d} = -(A^T\mathbf{p}_1 + B^T\mathbf{p}_2)$ ，带入后得到

- \parallel A^T\mathbf{p}_1 + B^T\mathbf{p}_2 \parallel^2 \geq 0

于是得到

A^T\mathbf{p}_1 + B^T\mathbf{p}_2 = \mathbf{0}

将 $\mathbf{p}_1$ 的分量记作 $w_0$ 和 $w_i(i \in I)$
将 $\mathbf{p}_2$ 的分量记作 $v_j(j = 1,\cdots,l)$

则上式变为

w_0 \nabla f(\overline{\mathbf{x}}) - \sum_{i \in I}w_i \nabla g_i(\overline{\mathbf{x}}) - \sum^l_{j = 1}v_j \nabla h_j(\overline{\mathbf{x}}) = \mathbf{0}, \quad w_0,w_i \geq 0, \quad i \in I

同理，为了保证 $w_0$ 不为零，需要非约束条件加上某种限制，即为 $K-T$ 必要条件

Kuhn-Tucker条件丨最优解的一阶必要条件

设在非线性规划问题

$\overline{\mathbf{x}}$ 为可行点
$I = \lbrace i | g_i(\overline{\mathbf{x}}) = 0 \rbrace$
$f,g_i (i \in I)$ 在 $\overline{\mathbf{x}}$ 处可微
$g_i (i \notin I)$ 在 $\overline{\mathbf{x}}$ 处连续
且 $\nabla g_i, \nabla h_i(\overline{\mathbf{x}}) | i = 1,2,\cdots,l \rbrace$ 线性无关

如果 $\overline{\mathbf{x}}$ 是非线性规划问题的局部最优解，则存在 $w_i, i \in I$ ，使得

\nabla f(\overline{\mathbf{x}}) - \sum_{i \in I} w_i \nabla g_i(\overline{\mathbf{x}}) - \sum^l_{j = 1}v_j \nabla h_j(\overline{\mathbf{x}}) = \mathbf{0}, w_i \geq 0, i \in I

证明：

根据Fritz John条件，有不全为 $0$ 的 $w_0, \overline{w}_i(i \in I)$ 和 $\overline{v}_j(j=1,\cdots,l)$ ，使得

w_0 \nabla f(\overline{\mathbf{x}}) - \sum_{i \in I} w_i\nabla g_i(\overline{\mathbf{x}}) - \sum^l_{j = 1}\overline{v}_j \nabla h_j(\overline{\mathbf{x}}) = \mathbf{0}, \quad w_0,\overline{w}_i \geq 0,\quad i \in I

由向量组 $\nabla g_i, \nabla h_i(\overline{\mathbf{x}}) | i = 1,2,\cdots,l \rbrace$ 线性无关，比得出 $w_0 \neq 0$ ，若不然会导致线性相关，令

\begin{aligned} w_i &= \frac{\overline{w}_i}{w_0}, & i \in I \\ v_j &= \frac{\overline{v}_j}{w_0}, & j = 1,\cdots,l \end{aligned}

带入化简后得到

\nabla f(\overline{\mathbf{x}}) - \sum^m_{i \in I}\nabla g_i (\overline{\mathbf{x}}) - \sum^l_{j = 1}v_j \nabla h_j(\overline{\mathbf{x}}) = \mathbf{0}, \quad w_i \geq 0, \quad i \in I

与不等式约束的情形类似，当 $g_i(i \notin I)$ 在点 $\overline{\mathbf{x}}$ 也可微时，令其相应的乘子 $w_i = 0$ ，于是可将上述K-T条件转化为下列等价形式

\begin{cases} \nabla f(\overline{\mathbf{x}}) - \sum^m_{i \in I}\nabla g_i (\overline{\mathbf{x}}) - \sum^l_{j = 1}v_j \nabla h_j(\overline{\mathbf{x}}) = \mathbf{0} \\ w_i g_i(\overline{\mathbf{x}}) = 0, \quad i = 1,2,\cdots,m \\ w_i \geq 0, \quad i = 1,2,\cdots,m \end{cases}

其中 $w_i g_i(\overline{\mathbf{x}}) = 0$ 仍被称为互补松弛条件

$\nabla f(\overline{\mathbf{x}}) - \sum^m_{i \in I}\nabla g_i (\overline{\mathbf{x}}) - \sum^l_{j = 1}v_j \nabla h_j(\overline{\mathbf{x}}) = \mathbf{0}$ 实质是在 $\overline{\mathbf{x}}$ 时， $f$ 的梯度方向等于 $\mathbf{g}$ 的梯度方向等于 $\mathbf{h}$ 的梯度方向

广义拉格朗日

定义广义的拉格朗日函数

L(\mathbf{x}, \mathbf{w}, \mathbf{v}) = f(\mathbf{x}) - \sum^m_{i = 1}w_ig_i(\mathbf{x}) - \sum^l_{j = 1}v_ih_j(\mathbf{x})

在K-T条件下，若 $\overline{\mathbf{x}}$ 为非线性规划问题的局部最优解，则存在乘子向量 $\overline{\mathbf{w}} \geq 0$ 和 $\overline{\mathbf{v}}$ ，使得

\nabla_x \mathbf{L}(\overline{\mathbf{x}}, \overline{\mathbf{w}}, \overline{\mathbf{v}}) = \mathbf{0}

这样，K-T乘子 $\overline{\mathbf{w}}$ 和 $\overline{\mathbf{v}}$ 也称为拉格朗日乘子，此时一般情形的一阶必要条件可以表达为

\begin{cases} \nabla_{\overline{\mathbf{x}}} \mathbf{L}(\overline{\mathbf{x}}, \overline{\mathbf{w}}, \overline{\mathbf{v}}) = \mathbf{0} \\ \nabla_{\overline{\mathbf{v}}} \mathbf{L}(\overline{\mathbf{x}}, \overline{\mathbf{w}}, \overline{\mathbf{v}}) = \mathbf{h}(\overline{\mathbf{x}}) = \mathbf{0} \\ \nabla_{\overline{\mathbf{w}}} \mathbf{L}(\overline{\mathbf{x}}, \overline{\mathbf{w}}, \overline{\mathbf{v}}) = \mathbf{g}(\overline{\mathbf{x}}) > \mathbf{0} \\ w_ig_i(\overline{\mathbf{x}}) = 0, \quad i = 1,\cdots, m \\ w_i \geq 0, \quad i = 1,\cdots, m \end{cases}

对于凸优化，也有最优解的一阶充分条件
定理：在非线性规划问题中，设

$f$ 是凸函数
$g_i(i = 1,\cdots,m)$ 是凹函数
$h_j(j)= 1,\cdots,l$ 是线性函数
$S$ 为可行域， $\overline{\mathbf{x}} \in S$
$I = \lbrace i | g_i(\overline{\mathbf{x}}) = 0 \rbrace$
在 $\overline{\mathbf{x}}$ 处K-T条件成立

即存在 $w_i \geq 0(i \in I)$ 及 $v_j(j = 1,\cdots,l)$ ，使得

\nabla f(\overline{\mathbf{x}}) - \sum^m_{i \in I}w_i\nabla g_i(\overline{\mathbf{x}}) - \sum^l_{j = 1}v_j\nabla h_j(\overline{\mathbf{x}}) = \mathbf{0}

则 $\overline{\mathbf{x}}$ 为全局最优解

不是凸优化的话，K-T条件只是极小值点的必要条件，不是充分条件，K-T点是驻点，是可能的极值点。

K-T条件总结

问题	拉格朗日函数	K-T条件
$\begin{aligned}min &\qquad f(\mathbf{x})\\s.t. &\qquad \mathbf{g}(\mathbf{x}) = \mathbf{0}\end{aligned}$	$L(\mathbf{x}, \mathbf{\lambda}) = f(\mathbf{x}) - \mathbf{\lambda} \mathbf{g}(\mathbf{x})$	$\begin{cases}\nabla_{\overline{\mathbf{x}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}) = \nabla f(\overline{\mathbf{x}}) - \overline{\mathbf{\lambda}} \nabla \mathbf{g}(\overline{\mathbf{x}}) = \mathbf{0}\\\nabla_{\overline{\mathbf{\lambda}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}) = \mathbf{g}(\overline{\mathbf{x}}) = \mathbf{0}\end{cases}$
$\begin{aligned}min &\qquad f(\mathbf{x})\\s.t. &\qquad \mathbf{g}(\mathbf{x}) \geq \mathbf{0}\end{aligned}$	$L(\mathbf{x}, \mathbf{\lambda}) = f(\mathbf{x}) - \mathbf{\lambda} \mathbf{g}(\mathbf{x})$	$\begin{cases}\nabla_{\overline{\mathbf{x}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}) = \nabla f(\overline{\mathbf{x}}) - \overline{\mathbf{\lambda}} \nabla \mathbf{g}(\overline{\mathbf{x}}) = \mathbf{0}\\\nabla_{\overline{\mathbf{\lambda}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}) = \mathbf{g}(\overline{\mathbf{x}}) \geq \mathbf{0}\\\overline{\mathbf{\lambda}} \mathbf{g}(\overline{\mathbf{x}}) = \mathbf{0}\\\overline{\mathbf{\lambda}} \geq \mathbf{0}\end{cases}$
$\begin{aligned}min &\qquad f(\mathbf{x})\\s.t. &\qquad \mathbf{g}(\mathbf{x}) \leq \mathbf{0}\end{aligned}$	$L(\mathbf{x}, \mathbf{\lambda}) = f(\mathbf{x}) + \mathbf{\lambda} \mathbf{g}(\mathbf{x})$	$\begin{cases}\nabla_{\overline{\mathbf{x}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}) = \nabla f(\overline{\mathbf{x}}) + \overline{\mathbf{\lambda}} \nabla \mathbf{g}(\overline{\mathbf{x}}) = \mathbf{0}\\\nabla_{\overline{\mathbf{\lambda}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}) = \mathbf{g}(\overline{\mathbf{x}}) \leq \mathbf{0}\\\overline{\mathbf{\lambda}} \mathbf{g}(\overline{\mathbf{x}}) = \mathbf{0}\\\overline{\mathbf{\lambda}} \geq \mathbf{0}\end{cases}$
$\begin{aligned}min &\qquad f(\mathbf{x})\\s.t. &\qquad \mathbf{g}(\mathbf{x}) \geq \mathbf{0}\\ &\qquad \mathbf{h}(\mathbf{x}) = \mathbf{0}\end{aligned}$	$L(\mathbf{x}, \mathbf{\lambda}, \mathbf{\mu}) = f(\mathbf{x}) - \mathbf{\lambda} \mathbf{g}(\mathbf{x}) - \mathbf{\mu} \mathbf{h}(\mathbf{x})$	$\begin{cases}\nabla_{\overline{\mathbf{x}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}, \overline{\mathbf{\mu}}) = \nabla f(\overline{\mathbf{x}}) - \overline{\mathbf{\lambda}} \nabla \mathbf{g}(\overline{\mathbf{x}}) - \overline{\mathbf{\mu}} \nabla \mathbf{h}(\overline{\mathbf{x}}) = \mathbf{0}\\\nabla_{\overline{\mathbf{\lambda}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}, \overline{\mathbf{\mu}}) = \mathbf{g}(\overline{\mathbf{x}}) \geq \mathbf{0}\\\nabla_{\overline{\mathbf{\mu}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}, \overline{\mathbf{\mu}}) = \mathbf{h}(\overline{\mathbf{x}}) = \mathbf{0}\\\overline{\mathbf{\lambda}} \mathbf{g}(\overline{\mathbf{x}}) = \mathbf{0}\\\overline{\mathbf{\lambda}} \geq \mathbf{0}\end{cases}$
$\begin{aligned}min &\qquad f(\mathbf{x})\\s.t. &\qquad \mathbf{g}(\mathbf{x}) \leq \mathbf{0}\\ &\qquad \mathbf{h}(\mathbf{x}) = \mathbf{0}\end{aligned}$	$L(\mathbf{x}, \mathbf{\lambda}, \mathbf{\mu}) = f(\mathbf{x}) + \mathbf{\lambda} \mathbf{g}(\mathbf{x}) - \mathbf{\mu} \mathbf{h}(\mathbf{x})$	$\begin{cases}\nabla_{\overline{\mathbf{x}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}, \overline{\mathbf{\mu}}) = \nabla f(\overline{\mathbf{x}}) + \overline{\mathbf{\lambda}} \nabla \mathbf{g}(\overline{\mathbf{x}}) - \overline{\mathbf{\mu}} \nabla \mathbf{h}(\overline{\mathbf{x}}) = \mathbf{0}\\\nabla_{\overline{\mathbf{\lambda}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}, \overline{\mathbf{\mu}}) = \mathbf{g}(\overline{\mathbf{x}}) \leq \mathbf{0}\\\nabla_{\overline{\mathbf{\mu}}} L(\overline{\mathbf{x}}, \overline{\mathbf{\lambda}}, \overline{\mathbf{\mu}}) = \mathbf{h}(\overline{\mathbf{x}}) = \mathbf{0}\\\overline{\mathbf{\lambda}} \mathbf{g}(\overline{\mathbf{x}}) = \mathbf{0}\\\overline{\mathbf{\lambda}} \geq \mathbf{0}\end{cases}$

参考文献

凸优化丨Stephen Boyd，Lieven Vandenbergt丨清华大学出版社丨978-0-521-83378-3
最优化 - 理论与算法丨陈宝林丨第二版丨7-302-11376-9
牛顿法与拟牛顿法学习笔记
ON DERIVING THE INVERSE OF A SUM OF MATRICES
瑞典皇家理工学院（KTH）“统计学习基础”课程的KKT课件