https://blog.csdn.net/wuguangbin1230/article/details/77658229

在Tensorflow中,为解决设定学习率(learning rate)问题,提供了指数衰减法来解决。
通过tf.train.exponential_decay函数实现指数衰减学习率。
步骤:1.首先使用较大学习率(目的:为快速得到一个比较优的解);
             2.然后通过迭代逐步减小学习率(目的:为使模型在训练后期更加稳定);

decayed_learning_rate=learining_rate*decay_rate^(global_step/decay_steps) 

 

其中,decayed_learning_rate为每一轮优化时使用的学习率;
           learning_rate为事先设定的初始学习率;
           decay_rate为衰减系数;
           decay_steps为衰减速度。
而tf.train.exponential_decay函数则可以通过staircase(默认值为False,当为True时,(global_step/decay_steps)则被转化为整数) ,选择不同的衰减方式。

global_step = tf.Variable(0)
learning_rate = tf.train.exponential_decay(0.1, global_step, 100, 0.96, staircase=True)
#生成学习率
learning_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(....., global_step=global_step)  #使用指数衰减学习率

learning_rate:0.1;staircase=True;则每100轮训练后要乘以0.96.
通常初始学习率,衰减系数,衰减速度的设定具有主观性(即经验设置),而损失函数下降的速度与迭代结束之后损失的大小没有必然联系,
所以神经网络的效果不能单一的通过前几轮损失函数的下降速度来比较。

 

 

 

10-06 21:07