在读论文或者学习机器学习理论时,常常看到对偶的身影。但因为对对偶问题的理解不够透彻,在看机器学习理论相关理论时也是懵懵懂懂。所以本文整理了对偶理论的基本概念,帮助理解记忆。本文主要描述:
优化问题的形式有很多,如最大化一个目标函数,或者最小化一个目标函数,约束的不等号方向不同等。每一个形式的优化问题,都可以求出相应的对偶问题,但因为优化问题形式的不同,求解细节上,会有相应的不同,很难掌握。为了方便记忆,先定义标准优化问题(原问题),然后再介绍标准优化问题转化为对偶问题的过程。
理论上所有的优化问题,都可以转化为标准形式。优化问题的标准形式如式2-1所示:
$$
\begin{aligned}
\min & f_{0}(x) \
\text { s.t. } & f_{i}(x) \leq 0 \quad i=1, \ldots, m \
& h_{j}(x)=0 \quad j=1, \ldots, p
\end{aligned}
$$
由优化目标, 不等式约束和等式约束三部分组成。式2-1有三个需要额外注意的地方:
其中 $x \in \mathbf{R}^{n}$, 问题的定义域是优化目标与所有约束的交集 $\mathcal{D}=\bigcap_{i=1}^{m} \operatorname{dom} f_{i} \cap f_{0} \cap \bigcap_{j=1}^{\infty} h_{j}(x)$ 。求 解优化问题是在定义域 $\mathcal{D}$ 中寻找到 $x^{}$ 使优化目标 $f_{0}(x)$ 达到最小值 $p^{}$ 。
理论上我们遇到的所有的优化问题都可以化为式2-1这种标准形式。比如我们的优化目标要极大 化 $\max f_{0}(x)$,可以等效为极小化 $\min -f_{0}(x)$ 。同理所有的不等式约束和等式约束经过化简变换 后也可以转化为式2-1中形式。若某些优化问题, 没有不等式约束, 则标准形式中 $f_{i}(x)$ 的数量 为 0 ; 同理若优化问题中没有等式约束, 则对应的标准形式中 $h_{j}(x)$ 的数量为 $0 ;$ 若优化问题 中, 既没有不等式约束也没有等式约束, 则对应的标准形式是一个无约束的优化问题。另外根据 $f_{0}(x), f_{i}(x), h_{j}(x)$ 的形式不同, 优化问题可以分为不同的种类, 难易程度也会有很大的区别。 本文我们主要讨论对偶理论, 对优化问题的种类和难易不做过多的描述, 只要知道任何形式的优 化问题均可以转化为这种标准形式即可。我们通过一个简单案例看看如何将一般优化问题转化为 标准形式:
例 1. 将式2-2转为优化问题的标准形式:
$$
\begin{array}{ll}
\max & -x_{1}+x_{2}+x_{3} \
\text { s.t. } \quad & x_{1}+x_{2}+2 x_{3} \leq 25 \
& -x_{1}+2 x_{2}-x_{3} \geq 2 \
& x_{1}-x_{2}+x_{3}=3 \
& x_{1}, x_{2} \geq 0
\end{array}
$$
转化为标准形式为:
$$
\begin{array}{ll}
\min & x_{1}-x_{2}-x_{3} \
\text { s.t. } & x_{1}+x_{2}+2 x_{3}-25 \leq 0 \
& x_{1}-2 x_{2}+x_{3}+2 \leq 0 \
& -x_{1} \leq 0 \
& -x_{2} \leq 0 \
& x_{1}-x_{2}+x_{3}-3=0
\end{array}
$$
根据原问题(优化问题的标准形式),我们定义 Lagrangian 函数:
$$
L(x, \lambda, \mu)=f_{0}(x)+\sum_{i=1}^{m} \lambda_{i} f_{i}(x)+\sum_{j=1}^{p} \mu_{j} h_{j}(x)
$$
从下面 4 点理解 Lagrangian 函数:
有了 Lagrangian 函数,我们再引入 Lagrange 对偶函数如式3-6:
$$
g(\lambda, \mu)=\inf _{x \in \mathcal{D}} L(x, \lambda, \mu)
$$
Lagrange 对偶函数是 Lagrangian 函数关于 x 取最小值时的函数。Lagrange对偶函数有以下 2 点性质: