作者:韩龙飞
原文:凸优化-优化问题
优化问题的定义为:
\(\begin{split} \min \limits_{x \in D} \quad & f(x) \\ subject \, to \quad & g_i(x) \leq 0, \, i=1, \ldots, m \\ & h_j(x)=0, \, j=1, \ldots, r \end{split}\)
其中,\(D=dom(f) \cap \bigcap_{i=1}^m dom(g_i) \cap \bigcap_{j=1}^pdom(h_j)\)。
凸优化问题相对优化问题的定义而言,要求函数\(Ax+b=0\))。
对于仿射集和凸集的差别在凸优化-凸集一文也做了分析,二者的差别就在于凸集是线段而仿射集是直线(一维情况下)。很明显,求解凸函数的极小值(convex minimization)和凹函数的极大值(concave maximization)都是凸优化问题(convex optimization problem)。
我们定义凸优化解的集合(Convex solution sets)为\(X_{opt}\),记为:
\(\begin{aligned} X_{opt} = \quad & argmin \, f(x) \\ & subject \, to \, g_i(x) \leq 0, \, i=1, \ldots, m\\ & Ax=b \end{aligned}\)
证明:假设\(1 \leq \theta \leq 1\),则:
因此,点\(x,y\)之间必然存在两点连线上的任意点都是优化问题的最优解。故,凸优化问题解的集合为凸集。也就意味着如果凸优化问题存在两个包含两个以上的解时,那么其必定包含无数个解。对于这一点,其实不是特别好想象。
熟悉机器学习算法里面的线性回归或者逻辑回归的同学因该明白LASSO问题,其定义为:
\(\begin{split} \min \limits_{\beta \in \mathbb{R}^p} \quad & \parallel y-X\beta \parallel_2^2 \\ subject \, to \quad & \parallel \beta \parallel_1 \leq s \end{split}\)
LASSO是Tibshirani(对就是Tibshirani)在1996年JRSSB上的一篇文章上《Regression shrinkage and selection via lasso》提出的。所谓lasso,其全称是least absolute shrinkage and selection operator,其含义是在限制了\(s\)足够小的时候,会使得某些回归系数的估值是0,可以起到变量选择的作用,是逐步回归的一种表现。
因此,对于LASSO算法,其是否是凸优化问题?它的解集合是否是唯一的点?
答案是,LASSO问题是凸优化问题,因为\(p\),那么会造成高维特征空间上的维数灾难问题,此时,X为奇异矩阵,则解不唯一。
另一个实例是SVM算法,SVM算法的理论部分我就不多介绍了,会在机器学习算法篇章中对SVM做着重介绍,如果我们记SVM为:
\(\begin{split} \min \limits_{\beta, \beta_0, \xi} \quad & \frac{1}{2}\parallel \beta \parallel_2^2 + C \sum_i^n \xi_i \\ subject \, to \quad & \xi_i \geq 0, \, i=1, \ldots, n\\ & y_i(x_i^T \beta+\beta_0) \geq 1-\xi_i, \, i=1,\ldots,n \end{split}\)
其中,\(\xi\)为引入分类错误的代价,代表下图错分样本点距正确分类边界的距离。具体如下图:
那么,该问题是否为凸优化问题呢?它的解是否是唯一?
答案是,SVM目标函数是凸优化问题,但是,它的解并不唯一,因为它不是严格凸函数。有兴趣的同学可以留言来解释为什么SVM是凸优化问题!
局部最优解的定义为:如果\(\parallel x-y \parallel_2 \leq R\),则点x为优化问题的局部最优解(locally optimal)。
对于凸优化问题,凸函数有一个特别的性质,即局部最优解是全剧最优解(local minima are global minima),即如果\(y, f(x) \leq f(y)\)。相反,非凸优化问题则不具有该性质,如下图所示。
那么我们需要证明的是为什么凸优化问题的局部最优值就是全局最优值?
证明:这里,我们采用反证法来证明该理论,假设x为凸优化问题的局部最优解,意味着函数在\(\parallel z-x \parallel_2 > \rho\)。
此时,假设存在一点\(t \in [0,1]\),那么:
因此,意味着\(y\)同样也是是凸优化问题的可行解。
然后,因为点\(y\),我们可以得到如下公式:
\(f(y) \leq tf(z) + (1-t)f(x)\)
又因为\(% <![CDATA[ f(y) < f(x) %]]>\),这就与之前最开始假设x为局部最优解的定义相违背,因此,我们最终证明得到local minima are global minima。
\(\nabla f(x)^T (y-x) \geq 0 \quad \forall y \in C\)
\(\begin{split} \min \limits_{x_1,x_2} \quad & f(x_1,x_2) \\ s.t. \quad & g_1(x) \leq 0, \\ & g_2(x_2) \leq 0 \end{split}\)
等价于:
\(\begin{split} \min \limits_{x_1} \quad & \tilde{f}(x_1) \\ s.t. \quad & g_1(x_1) \leq 0 \end{split}\)
其中\(\tilde{f}(x_1)=min\{ f(x_1,x_2):g_2(x_2) \leq 0 \}\);
SVM采用的hinge loss就是利用的partial optimization的思想。如果我们把SVM优化问题的目标函数记为:
\(\begin{split} \min \limits_{\beta,\beta_0,\xi} \quad & \frac{1}{2}\parallel \beta \parallel_2^2 + C \sum_i^n \xi_i \\ subject \, to \quad & \xi_i \geq 0, \, y_i(x_i^T \beta + \beta_0) \geq 1-\xi_i \end{split}\)
那么我们可以将约束改写为\(\xi_i \geq max\{0, \, 1-y_i(x_i^T \beta + \beta_0) \}\),SVM在优化过程中选用的hinge form就是将约束中的大于等于改写为等于,即:
\(\xi_i = max \{ 0, \, 1-y_i(x_i^T \beta + \beta_0) \}\)
因此,优化目标函数就变为:
\(\min \limits_{\beta,\beta_0} \quad \frac{1}{2}\parallel \beta \parallel_2^2+C \sum_{i=1}^n[1-y_i(x_i^T \beta + \beta_0)]_+\)
上式就是SVM求解目标函数的最终形式,可称为hinge form of SVMs。
\(min\, f(x), \, subject\, to\, x \in C \Longleftrightarrow min \, h(f(x)), \, subject\, to\, x \in C\)
优化方法中的最大似然估计MLE就采用log函数对目标函数进行变换,就是采用的这个思想。
\(\begin{split} min \quad & f(x) \\ subject\, to \quad & s_i \geq 0, i=1,\ldots,m\\ & g_i(x)+s_i=0, i=1,\ldots,m\\ & Ax=b \end{split}\)
SVM算法都引入slack variables来允许训练误差的出现,防止模型过拟合。
凸优化问题根据目标函数和约束函数的形式分为:
Ryan教授给了一个非常形象的例子来解释凸优化问题在优化问题领域的位置,以及以上几种优化问题间的关联关系,如下图:
线性规划问题(LPs)定义是优化问题满足以下形式,线性规划的实例包括diet problem, transportation problem, basis pursuit和Dantzig selector等:
\(\begin{split} \min \limits_{x} \quad & c^Tx \\ subject \, to \quad & Dx \leq d \\ & Ax =b \end{split}\)
二次规划问题(QPs)定义是优化问题满足以下形式,二次规划的实例包括portfolio optimization, lasso, SVM等:
\(\begin{split} \min \limits_{x} \quad & C^Tx+\frac{1}{2}x^TQx \\ subject \, to \quad & Dx \leq d \\ &Ax=b \end{split}\)
其中,\(Q=0\)时,二次规划问题就变为线性规划问题。
半正定规划问题(SDPs)定义是优化问题满足以下形式:
\(\begin{split} \min \limits_{x} \quad & c^Tx \\ subject \, tp \quad & x_1F_1+\ldots +x_nF_n \succeq F_0 \\ &Ax=b \end{split}\)
其中,\(F_j\)为矩阵,而LPs为向量,所以线性规划一定隶属于半正定规划的一个特例。