Warmup预热学习率「建议收藏」

Warmup预热学习率「建议收藏」学习率是神经网络训练中最重要的超参数之一,针对学习率的优化方式很多,Warmup是其中的一种(一)什么是Warmup?Warmup是在ResNet论文中提到的一种学习率预热的方法,它在训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习率来进行训练.(二)为什么使用Warmup?由于刚开始…

大家好,又见面了,我是你们的朋友全栈君。

学习率是神经网络训练中最重要的超参数之一,针对学习率的优化方式很多,Warmup是其中的一种
(一)、什么是Warmup?
Warmup是在ResNet论文中提到的一种学习率预热的方法,它在训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习来进行训练。

(二)、为什么使用Warmup?
由于刚开始训练时,模型的权重(weights)是随机初始化的,此时若选择一个较大的学习率,可能带来模型的不稳定(振荡),选择Warmup预热学习率的方式,可以使得开始训练的几个epoches或者一些steps内学习率较小,在预热的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快,模型效果更佳。

E x a m p l e Example Example:Resnet论文中使用一个110层的ResNet在cifar10上训练时,先用0.01的学习率训练直到训练误差低于80%(大概训练了400个steps),然后使用0.1的学习率进行训练。

(三)、Warmup的改进
(二)所述的Warmup是constant warmup,它的不足之处在于从一个很小的学习率一下变为比较大的学习率可能会导致训练误差突然增大。于是18年Facebook提出了gradual warmup来解决这个问题,即从最初的小学习率开始,每个step增大一点点,直到达到最初设置的比较大的学习率时,采用最初设置的学习率进行训练。

1.gradual warmup的实现模拟代码如下:

"""
Implements gradual warmup, if train_steps < warmup_steps, the
learning rate will be `train_steps/warmup_steps * init_lr`.
Args:
    warmup_steps:warmup步长阈值,即train_steps<warmup_steps,使用预热学习率,否则使用预设值学习率
    train_steps:训练了的步长数
    init_lr:预设置学习率
"""
import numpy as np
warmup_steps = 2500
init_lr = 0.1  
# 模拟训练15000步
max_steps = 15000
for train_steps in range(max_steps):
    if warmup_steps and train_steps < warmup_steps:
        warmup_percent_done = train_steps / warmup_steps
        warmup_learning_rate = init_lr * warmup_percent_done  #gradual warmup_lr
        learning_rate = warmup_learning_rate
    else:
        #learning_rate = np.sin(learning_rate)  #预热学习率结束后,学习率呈sin衰减
        learning_rate = learning_rate**1.0001 #预热学习率结束后,学习率呈指数衰减(近似模拟指数衰减)
    if (train_steps+1) % 100 == 0:
             print("train_steps:%.3f--warmup_steps:%.3f--learning_rate:%.3f" % (
                 train_steps+1,warmup_steps,learning_rate))

2.上述代码实现的Warmup预热学习率以及学习率预热完成后衰减(sin or exp decay)的曲线图如下:
sin decay and exp decay

(四)总结
使用Warmup预热学习率的方式,即先用最初的小学习率训练,然后每个step增大一点点,直到达到最初设置的比较大的学习率时(注:此时预热学习率完成),采用最初设置的学习率进行训练(注:预热学习率完成后的训练过程,学习率是衰减的),有助于使模型收敛速度变快,效果更佳。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/132203.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Red Flag linux硬盘安装

    Red Flag linux硬盘安装 很早以前就想安装linux实验一下,今天从中科红旗RedFlag的网站下载了一个系统安装盘的iso,安装盘一共2CD,这里提前说一下,也不知道是不是我的WinXP文件关联有问题,下载下来的ISO显示的是WinRAR的图标,于是没看扩展名直接解压缩出来了(后面因为这个吃了不少苦头,没办法,习惯了),然后上网站上查了查,网上大都写的不明白,而且重复的很多(是不是高手都用linux,觉得

    2022年8月20日
    11
  • C# 多线程编程

    C# 多线程编程1.如果只是启动一个新线程,不需要传入参数,不需要线程返回结果,可以直接使用ThreadStart(),Thread类接收一个ThreadStart委托或ParameterizedThreadSta

    2022年7月2日
    21
  • 企业微信API使用基本教程[通俗易懂]

    企业微信API使用基本教程[通俗易懂]在企业微信创建自建应用登录企业微信后台,在“应用管理>自建”中点击“创建应用”,填写应用信息创建。API配置表参数值获取1、corpid:企业ID。在企业微信后台的“我的企业>企业信息”中获取。2、corpsecret:应用凭证密匙。在自建应用详情中获取。如果要使用通讯录相关API则corpsecret在“管理工具>通讯录同步”中获取。3、AesKey及token:加密的AESKEY和消息token。如果是接收外部联系人变更回调等事件信息,则在“自建应用详情>

    2022年10月2日
    5
  • eclipse中文档注释快捷键_eclipse文档注释

    eclipse中文档注释快捷键_eclipse文档注释Eclipse中的两种注释方法:(1)多行注释(2)单行注释一、多行注释快捷键1:添加注释Ctrl+Shift+/:  添加/**/注释 示例:选中代码块后按下快捷键即可/*floatsize=0.0f;  floatpct=0.0f;  try{size=Float.parseFloat(resInf

    2022年8月15日
    6
  • FVWM使用说明_fpv怎么使用

    FVWM使用说明_fpv怎么使用[环境设定]IconFontfontname将Icon的字形。此时Icon的字形应为fontname所指定者。IconPathpath指定xbm格式用来做为Icon用的图形档的路径所在。PixmapPathpath指定xpm格式用来做为彩色的Icon用的图形档所在的路径。ColormapFocus[followsmouse][follows

    2022年10月3日
    2
  • 线性代数学习笔记(三):矩阵的理解之— 矩阵的秩与行列式

    线性代数学习笔记(三):矩阵的理解之— 矩阵的秩与行列式线性代数之—线性空间及线性变换一、矩阵乘法矩阵乘法:m∗n的矩阵Am∗n乘以n∗k的矩阵Bn∗k得到新的矩阵C,是一个m∗k大小的矩阵。m*n的矩阵A_{m*n}乘以n*k的矩阵B_{n*k}得到新的矩阵C,是一个m*k大小的矩阵。m∗n的矩阵Am∗n​乘以n∗k的矩阵Bn∗k​得到新的矩阵C,是一个m∗k大小的矩阵。Cij=∑a=1nAia∗BajC_{ij}=\displays…

    2022年5月23日
    75

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号