Adam优化算法

最新推荐文章于 2025-06-16 12:04:36 发布

原创最新推荐文章于 2025-06-16 12:04:36 发布 · 854 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#adam算法 #优化算法

机器学习公式推导理解专栏收录该内容

25 篇文章

订阅专栏

文章目录

算法内容
算法优化问题

算法内容

Adam算法使用了动量变量 $v_t$ 和RMSProp算法中小批量随机梯度按元素平方的指数加权移动平均变量 $s_t$ ，并在时间步0将它们中每个元素初始化为0。给定超参数 $0≤β_1<1$ （默认设为0.9），时间步 t 的动量变量 $v_t$ 即小批量随机梯度 $g_t$ 的指数加权移动平均：

$v_t←β_1v_{t−1}+(1−β_1)g_t.\tag{1}$

和RMSProp算法中一样，给定超参数 $0≤β_2<1$ （默认设为设为0.999），将小批量随机梯度按元素平方后的项 $g_t\odot g_t$ 做指数加权移动平均得到 $s_t$ ：

$s_t←β_2s_{t−1}+(1−β_2)g_t\odot g_t.\tag{2}$

由于我们将 $v_0$ 和 $s_0$ 中的元素都初始化为0，在时间步 t 我们得到 $v_t=(1−β_1)\sum^{t}_{i=1}\beta_1^{t-i}g_i$ 。将过去各时间步小批量随机梯度的权值相加，得到 $(1−β_1) \sum_{i=1}^t β^{t−i}_1=1−β^t_1$ 。需要注意的是，当 t 较小时，过去各时间步小批量随机梯度权值之和会较小。例如，当 $β_1=0.9$ 时， $v_1=0.1g_1$ 。为了消除这样的影响，对于任意时间步 t ，我们可以将 $v_t$ 再除以 $1−β^t_1$ ，从而使过去各时间步小批量随机梯度权值之和为1。这也叫作偏差修正。在Adam算法中，我们对变量 $v_t$ 和 $s_t$ 均作偏差修正：