近端梯度下降法 (proximal gradient descent)

最新推荐文章于 2025-01-05 15:26:41 发布

原创最新推荐文章于 2025-01-05 15:26:41 发布 · 2.9k 阅读

38 ·

CC 4.0 BY-SA版权

文章标签：

#梯度下降法

通信中的常用数学专栏收录该内容

48 篇文章

订阅专栏

本文概述了近端梯度下降法，一种处理不可微目标函数的优化算法。它结合梯度下降和近端投影，通过求解目标函数近似最小值。核心公式和泰勒展开解释了其工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文参考了知乎的文章机器学习 | 近端梯度下降法 (proximal gradient descent)，写的非常棒，但感觉有些微的赘余，因此以这篇博客，希望更精简地介绍近端梯度下降法这种略显陌生的算法。

对于传统的可微的目标函数，直接使用梯度下降法即可。而对于不可微的情况下，就是 近端梯度法 表现的时机了。简而言之，目标函数必可写成如下的形式：

$f (x) = g (x) + h (x)$
其中 $g (x)$ 可微，而 $h (x)$ 不可微 。这时候，近端梯度法的迭代公式为：

$\boldsymbol{x}^{k}=\operatorname{prox}_{t h(\cdot)}\left(\boldsymbol{x}^{k-1}-t \nabla g\left(\boldsymbol{x}^{k-1}\right)\right)\tag{1}$
其中， $\operatorname{prox}_{t h(\cdot)}$ 为 近端投影算子，由下式给出：
$\operatorname{prox}_{t h(\cdot)}(\boldsymbol{x})=\arg \min _{\boldsymbol{z}} \frac{1}{2 t}\|\boldsymbol{x}-\boldsymbol{z}\|_{2}^{2} + h(x)\tag{2}$
两式中， $t$ 均代表步长。

好了，这就是近端梯度法的算法步骤了，似乎非常简洁明了： 先根据 $g (x)$ 做一个梯度下降，再根据 $h (x)$ 做一个近端投影。那么问题来了，为什么可以这样做，意义又是什么？直接看下面的公式：

$\begin{aligned} \boldsymbol{x}^{k} &=\operatorname{prox}_{t h(\cdot)}\left(\boldsymbol{x}^{k-1}-t \nabla g\left(\boldsymbol{x}^{k-1}\right)\right) \\ &=\arg \min _{\boldsymbol{z}} h(\boldsymbol{z})+\frac{1}{2 t}\left\|\boldsymbol{z}-\left(\boldsymbol{x}^{k-1}-t \nabla g\left(\boldsymbol{x}^{k-1}\right)\right)\right\|_{2}^{2} \\ &=\arg \min _{\boldsymbol{z}} h(\boldsymbol{z})+\frac{t}{2}\left\|\nabla g\left(\boldsymbol{x}^{k-1}\right)\right\|_{2}^{2}+\nabla g\left(\boldsymbol{x}^{k-1}\right)^{\top}\left(\boldsymbol{z}-\boldsymbol{x}^{k-1}\right)+\frac{1}{2 t}\left\|\boldsymbol{z}-\boldsymbol{x}^{k-1}\right\|_{2}^{2} \\ &=\arg \min _{\boldsymbol{z}} h(\boldsymbol{z})+g\left(\boldsymbol{x}^{k-1}\right)+\nabla g\left(\boldsymbol{x}^{k-1}\right)^{\top}\left(\boldsymbol{z}-\boldsymbol{x}^{k-1}\right)+\frac{1}{2 t}\left\|\boldsymbol{z}-\boldsymbol{x}^{k-1}\right\|_{2}^{2} \\ & \approx \arg \min _{\boldsymbol{z}} h(\boldsymbol{z})+g(\boldsymbol{z}) \end{aligned}$

第三个等式来自于把 $\frac{1}{2 t}\left\|\boldsymbol{z}-\left(\boldsymbol{x}^{k-1}-t \nabla g\left(\boldsymbol{x}^{k-1}\right)\right)\right\|_{2}^{2}$ 一项拆开，而第四个等式则是去掉了与 $z$ 无关的项 $\frac{t}{2}\left\|\nabla g\left(\boldsymbol{x}^{k-1}\right)\right\|_{2}^{2}$ ，增加了 $g\left(\boldsymbol{x}^{k-1}\right)$ 一项，第五步的不等式则是来自于泰勒展开的二阶展开。最后综合看结论就是：