【数学基础与最优化1.4】带约束的优化问题

条件极值拉格朗日乘数法

现实问题中，有时会遇到对函数的自变量还有附加条件的极值问题。例如，求表面积为 $a^2$ 而体积为最大的长方体的体积问题。设长方体的三棱长为 $x,y,z$ ，则体积 $V=xyz$ ，又因表面积为 $a^2$ ，所以自变量 $x,y,z$ 还必须满足附加条件 $2(xy+yz+xz)=a^2$ ，像这种对自变量有附加条件的极值称为条件极值。对于有些实际问题，可以把条件极值化为无条件极值。例如上述问题，可由条件 $2(xy+yz+xz)=a^2$ ，将 $z$ 表示成 $x,y$ 的函数 $z=\dfrac{a^2-2xy}{2(x+y)}.$
再把它代入 $V=xyz$ 中，于是问题就化为求 $V=\dfrac{xy}{2} \left(\dfrac{a^2-2xy}{x+y} \right)$
的无条件极值。
但是在很多情况下，将条件极值化为无条件极值并不这样简单。另有一种直接寻求条件极值的方法，可以不必先把问题化到无条件极值的问题，这就是下面要介绍的朗格朗日乘数法。（这里只给出拉格朗日乘数法的结论，其具体引入思路可参考文献[2] P113，这里不再赘述。）

要找函数 $z=f(x,y) \tag{1}$ 在附加条件 $\varphi(x,y)=0 \tag{2}$ 下的可能极值点，可以先作拉格朗日函数 $L(x,y)=f(x,y)+\lambda\varphi(x,y),$ 其中参数 $\lambda$ 称为拉格朗日乘子。求其对 $x$ 与 $y$ 的一阶偏导数，并使之为零，然后与方程(2)联立起来：
$\begin{cases} f_x(x, y) + \lambda \varphi_x(x, y) = 0, \\ f_y(x, y) + \lambda \varphi_y(x, y) = 0, \\ \varphi(x, y) = 0. \end{cases} \tag{3}$
由这个方程组解出 $x,y$ 及 $\lambda$ ，这样得到的 $(x,y)$ 就是函数 $f(x,y)$ 在附加条件 $\varphi(x,y)=0$ 下的可能极值点。
方程组(3)是函数(1)在条件(2)下在 $(x_0, y_0)$ 取得极值的必要条件。至于如何确定所求得的点是否极值点，在实际问题中往往可根据问题本身的性质来判定。

该方法可以推广到自变量多于两个而条件多于一个的情形[2]，这在下面的等式约束优化问题中也会提到。

等式约束优化

所谓的等式约束优化是指 [3]
KaTeX parse error: Expected group after '\begin{array}' at position 16: \begin{array} \̲ ̲min \ f(x_1, x_…
我们用拉格朗日乘数法求解，令 $L(\boldsymbol x, \boldsymbol \lambda) = f(\boldsymbol x) + \sum \limits_{k=1}^l{\lambda_k h_k(\boldsymbol x)}$ ，再联立方程组： $\begin{cases} \dfrac{\partial L}{\partial x_i} = 0 \quad (i=1,2,...,n) \\ \dfrac{\partial L}{\partial \lambda_k} = 0 \quad (k=1,2,...,l) \end{cases}$
得到的解为可能极值点，由于我们用的是必要条件，具体是否为极值点需根据问题本身的具体情况检验。这个方程组称为等式约束的极值必要条件. （me:上述方程组中的第二个方程实际上就是约束条件 $h_k(x_1, x_2, ..., x_n) = 0$ ）

等式约束下的Lagrange乘数法引入了 $l$ 个Lagrange乘子，或许我们可以把 $\lambda_k$ 也看作优化变量，这相当于将优化变量个数增加到 $(n+l)$ 个， $x_i$ 与 $\lambda_k$ 一视同仁，均为优化变量，均对他们求偏导。

不等式约束优化

不等式约束优化主要是使用转化的思想——将不等式约束条件转化成等式约束条件，具体做法：引入松弛变量。松弛变量也是优化变量，也需要一视同仁求偏导[3]。
【数学基础与最优化1.4】带约束的优化问题

具体而言，我们先看一个一元函数的例子：
KaTeX parse error: Expected group after '\begin{array}' at position 16: \begin{array} \̲ ̲min \ f(x) \\ s…

注：优化问题中，我们必须求得一个确定的值，因此不妨令所有的不等式均取到等号，即 $\leq$ 的情况[3].

对于约束 $g_{1}$ 和 $g_{2}$ ，我们分别引入两个松弛变量 $a_{1}^{2}$ 和 $b_{1}^{2}$ ，得到 $h_{1} (x,a_{1} )=g_{1} +a_{1}^{2} =0$ 和 $h_{2} (x,b_{1} )=g_{2} +b_{1}^{2} =0$ . 注意，这里直接加上平方项 $a_{1}^{2}$ 、 $b_{1}^{2}$ 而非 $a_{1}$ 、 $b_{1}$ ，是因为 $g_{1}$ 和 $g_{2}$ 这两个不等式的左边必须加上一个正数才能使不等式变为等式。若只加上 $a_{1}$ 和 $b_{1}$ ，又会引入新的约束 $a_{1} \geq 0$ 和 $b_{1} \geq 0$ ，这不符合我们的意愿。
【数学基础与最优化1.4】带约束的优化问题

由此我们将不等式约束转化成了等式约束，此时引入Lagrange函数
$L(x, a_1, b_1, \mu_1, \mu_2) = f(x) + \mu_1(a-x+a_1^2) + \mu_2(x-b+b_1^2) \tag{2}$
我们再按照等式约束优化问题（极值必要条件）对其求解，联立方程：
$\left\{ \begin{array}{} \dfrac{\partial L}{\partial x} = \dfrac{\partial f}{\partial x} + \mu_1 \dfrac{{\rm d}g_1}{{\rm d}x} + \mu_2 \dfrac{{\rm d}g_2}{{\rm d}x} = \dfrac{\partial f}{\partial x} - \mu_1 + \mu_2 = 0, \\ \dfrac{\partial L}{\partial \mu_1} = g_1 + a_1^2 = 0, \quad \dfrac{\partial L}{\partial \mu_2} = g_2 + b_1^2 = 0, \\ \dfrac{\partial L}{\partial a_1} = 2 \mu_1 a_1 = 0, \quad \quad \dfrac{\partial L}{\partial b_1} = 2 \mu_2 b_1 = 0, \\ \mu_1 \geq 0, \quad \mu_2 \geq 0. \end{array} \right. \tag{3}$

注：这里的 $\mu_1 \geq 0, \mu_2 \geq 0$ 我们先记住！实际上对于不等式约束前的乘子，我们要求其大于等于0 [3].

对于方程组(3)中的
$\left\{ \begin{array}{} \dfrac{\partial L}{\partial \mu_1} = g_1 + a_1^2 = 0, \\ \dfrac{\partial L}{\partial a_1} = 2 \mu_1 a_1 = 0, \\ \mu_1 \geq 0. \end{array} \right. \tag{4}$ 我们可以做如下讨论：

当 $\mu_1 = 0$ 时， $\color{#F00}{a_1 \not = 0}$ （ $\color{#F00}{me:此时a_1等于0不可以吗？}$ ），在Lagrange函数 $L$ 中，约束 $g_1$ 不起作用；而由 $g_1 + a_1^2 = 0$ 可知此时 $g_1 < 0$ .
当 $\mu_1 > 0$ 时， $a_1 = 0$ ，由 $g_1 + a_1^2 = 0$ 可知此时 $g_1 = 0$ .
综上有 $\mu_1 g_1 = 0$ .
同理也有 $\mu_2 g_2 = 0$ .

由此，方程组(3)转化为
$\left\{ \begin{array}{} \dfrac{\partial f}{\partial x} + \mu_1 \dfrac{{\rm d}g_1}{{\rm d}x} + \mu_2 \dfrac{{\rm d}g_2}{{\rm d}x}= 0, \\ \mu_1 g_1(x) = 0, \quad \mu_2 g_2(x) = 0, \\ \mu_1 \geq 0, \quad \mu_2 \geq 0. \end{array} \right. \tag{5}$ 这是一元一次的情形。类似地，对于多元多次不等式约束问题：
KaTeX parse error: Expected group after '\begin{array}' at position 16: \begin{array} \̲ ̲min \ f(\boldsy…
我们有
$\left\{ \begin{array}{} \dfrac{\partial f}{\partial x_i} + \sum \limits_{j=1}^m \mu_j \dfrac{\partial g_j}{\partial x_i} = 0, \quad (i=1,2,...,n),\\ \mu_j g_j(\boldsymbol x) = 0, \quad (j=1,2,...,m), \\ \mu_j \geq 0, \quad (j=1,2,...,m). \end{array} \right. \tag{7}$ 上式便称为不等式约束优化问题(6)的KKT（Karush-Kuhn-Tucker）条件. $\mu_j$ 称为KKT乘子，且约束起作用时 $\mu_j \geq 0, g_j(\boldsymbol x) = 0$ ；约束不起作用时 $\mu_j = 0, g_j(\boldsymbol x) < 0$ [3].

注意这里的约束起作用时， “ $\mu_j \geq 0, g_j(\boldsymbol x) = 0$ ” 和上面讨论的 “ $\mu_j > 0, g_j(\boldsymbol x) = 0$ ” 的区别，但这里是正确的，也就是说上面的证明还不够严谨，那么具体要怎样更严谨的证明呢？

总结：同时包含等式和不等式约束的一般优化问题[3]
【数学基础与最优化1.4】带约束的优化问题

参考文献

[1] 可导与可微等价吗？有什么区别？
[2] 高等数学.第六版.下册
[3] 浅谈最优化问题的KKT条件

凸优化有关书目：
Numerical Optimization和Convex optimization 两本书的选择?

条件极值 拉格朗日乘数法

等式约束优化

不等式约束优化

参考文献

条件极值拉格朗日乘数法