（Tensorflow之六）滑动平均模型ExponentialMovingAverage

最新推荐文章于 2025-05-08 10:31:03 发布

abiggg

最新推荐文章于 2025-05-08 10:31:03 发布

阅读量2.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： AI python 文章标签： Tensorflow

本文链接：https://blog.csdn.net/abiggg/article/details/78946007

AI 同时被 2 个专栏收录

24 篇文章

订阅专栏

python

6 篇文章

订阅专栏

本文详细介绍了衰减平均算法的计算方法及应用，通过数学公式展示了如何动态调整衰减率以提高模型收敛速度，并提供了TensorFlow实现示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、计算方法

设 $\{a_1,a_2,a_3,...,a_n\}$ ,其衰减率为 $decay$ ,对应的影子变量为：
$\{m_1,m_2,m_3,...,m_n\}$ ,则：

m n = d e c a y * m n - 1 + (1 - d e c a y) * a n

$m_n = decay*m_{n-1}+(1-decay)*a_n$
可以展开来分析：

m 1 = a 1

$m_1 = a_1$

m 2 = d e c a y * a 1 + (1 - d e c a y) * a 2

$m_2 =decay*a_1+(1-decay)*a_2$

m 3 = d e c a y * m 2 + (1 - d e c a y) * a 3 = d e c a y 2 * a 1 + (1 - d e c a y) * d e c a y * a 2 + (1 - d e c a y) * a 3

$m_3=decay*m_2+(1-decay)*a_3 =decay^2*a_1+(1-decay)*decay*a_2+(1-decay)*a_3$

m 4 = d e c a y * m 3 + (1 - d e c a y) * a 4 = d e c a y 3 * a 1 + (1 - d e c a y) * d e c a y 2 * a 2 + (1 - d e c a y) * d e c a y * a 3 + (1 - d e c a y) * a 4

$m_4 = decay*m_3+(1-decay)*a_4 = decay^3*a_1+(1-decay)*decay^2*a_2+(1-decay)*decay*a_3+(1-decay)*a_4$

. . . . . .

$......$
以其类推

m n = d e c a y * m n - 1 + (1 - d e c a y) * a n = d e c a y n - 1 * a 1 + d e c a y n - 2 * (1 - d e c a y) + . . . + (1 - d e c a y) * a n

$m_n = decay*m_{n-1}+(1-decay)*a_n = decay^{n-1}*a_1 +decay^{n-2}*(1-decay)+...+(1-decay)*a_n$
一般而言，为了使模型趋于收敛，会选择decay为接近1的数，例如：
decay = 0.99;
那么：

m 1 = a 1

$m_1 = a_1$

m 2 = 0.99 * a 1 + 0.01 * a 2

$m_2 =0.99*a_1+0.01*a_2$

m 3 = 0.99 * m 2 + 0.01 * a 3 = 0.99 2 * a 1 + 0.01 * 0.99 * a 2 + 0.01 * a 3

$m_3=0.99*m_2+0.01*a_3 =0.99^2*a_1+0.01*0.99*a_2+0.01*a_3$
我们发现初始值对后面影响非常大，若初始值与真实值偏差较大时，函数收敛速度非常慢；为了解决该问题，tensorflow提供了num_updates参数来动态设置decay的大小；

decay=min{DECAY,1+num_updates10+num_updates}

$decay= min\{DECAY,\frac{1+num\_updates}{10+num\_updates}\}$

例：
DECAY = 0.99
第一轮，先设num_updates = 0;
那么：

d e c a y = m i n {0.99, 1 + 0 10 + 0} = 0.1

$decay= min\{0.99,\frac{1+0}{10+0}\} =0.1$
则：

m 1 = a 1

$m_1 = a_1$

m 2 = 0.1 * a 1 + 0.9 * a 2

$m_2 =0.1*a_1+0.9*a_2$
第二轮，可设num_updates = 100
那么：

d e c a y = m i n {0.99, 1 + 101 10 + 100} = 0.91

$decay= min\{0.99,\frac{1+101}{10+100}\} =0.91$
则：

m 3 = 0.91 * m 2 + 0.09 * a 3

$m_3=0.91*m_2+0.09*a_3$
以此类推，从而可以动态调整decay值大小。

import tensorflow as tf

test1 = tf.Variable(0,dtype=tf.float32)
num_updates = tf.Variable(0,dtype=tf.float32)
DECAY = 0.99

Moving_average = tf.train.ExponentialMovingAverage(DECAY,num_updates)

#跟新test1
Moving_average_op = Moving_average.apply([test1])

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    #第一次打印出初始值，滑动平均值,输出值应该为[0，0]
    print(sess.run([test1,Moving_average.average(test1)]))

    #更新test1
    sess.run(tf.assign(test1,3))
    sess.run(Moving_average_op)
    #第二次打印初始值，滑动平均值,输出值应该为[3，0],滑动平均值计算0*0.1+0.9*3=2.7
    print(sess.run([test1,Moving_average.average(test1)]))

    #更新test2与num_updates
    sess.run(tf.assign(test1,5))
    sess.run(tf.assign(num_updates,90))
    sess.run(Moving_average_op)
    #第三次打印初始值，滑动平均值,输出值应该为[3，0],滑动平均值计算2.7*0.91+5*0.09
    print(sess.run([test1,Moving_average.average(test1)]))

输出值

[0.0, 0.0]
[3.0, 2.6999998]
[5.0, 2.9069998]