首页 / 深度学习 / 深度学习算法(第6期)----深度学习之学习率的命运

深度学习算法(第6期)----深度学习之学习率的命运

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了深度学习算法(第6期)----深度学习之学习率的命运，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2741字，纯文字阅读大概需要4分钟。

内容图文

欢迎关注微信公众号“智能算法” – 原文链接（阅读体验更佳）：
深度学习算法(第6期)----深度学习之学习率的命运

上一期，我们一起学习了深度学习中的优化器的进化，

深度学习算法(第5期)----深度学习中的优化器选择

今天我们一起看下学习率有着一个什么样的命运，我们多多交流，共同进步。本期主要内容如下：

学习率的影响
学习率的优化策略
学习率优化调节的实现
命运的安排

一. 学习率的影响

在深度学习中，寻找一个合适的学习率是比较困难的。在训练深度网络的过程中，如果学习率设置的过高，training学习曲线将会比较发散；如果学习率设置的过低，虽然训练最终会收敛到收敛到最优值，但是将会消耗很长的时间；如果学习率设置的稍微高，但是没那么高的话，training初期的将会下降很快，但是可能会在最优值附近一直震荡（除非用一个自适应学习率的优化器，但是仍需要花时间稳定到最优点）；如果计算资源受限的话，可能会不得不中断学习，而得到一个次优点。如下图：

深度学习算法(第6期)----深度学习之学习率的命运 - 文章图片

有时候，我们可以通过分别用几个不同的学习率来training几个epochs，通过比较这几个不同学习率的学习曲线来找到一个相对好一点的学习率。理想的学习率将会使学习过程很快，并很快收敛一个好的解。那么有哪些好的策略来优化学习率呢？

二. 学习率的优化策略

通常，如果我们一开始用一个高的学习率，而当学习进度没那么快的时候，降低学习率的话，会比用一个固定的学习率更快的得到一个最优解。在学习过程中调整学习率有以下几种常见的调整策略：

阶梯调节

在阶梯调节中，比方说可以在一开始设置一个学习率0.1，然后在50个epochs后降到0.01，到100个epochs后将到0.001等。

性能调节

性能调节是根据网络在验证集上的表现性能进行调节，在训练的过程中，不断的根据性能对学习率乘以一个衰减因子，来达到降低学习率的目的。

指数调节

指数调节是将学习率的衰减设计成迭代次数的函数，如下：

深度学习算法(第6期)----深度学习之学习率的命运 - 文章图片

这样就能够根据迭代次数的增加而逐步的衰减学习率，但是需要去调整初始学习率η0和超参数r。

幂指调节

幂指调节跟指数调节有些类似，不同的是幂指调节将学习率衰减函数设计成幂指函数，如下：

深度学习算法(第6期)----深度学习之学习率的命运 - 文章图片

超参数c一般设置为1，幂指调节衰减的速度要比指数调节衰减的慢。

Andrew Senior在2013年的时候，用Momentum Optimization去优化一个语音识别的网络中对常见的调节学习率的方法进行了对比，得出一个结论：性能调节和指数调节都能够表现的非常好，但是由于指数调节比较好实施，并且收敛稍微快一点，所以倾向于指数调节。

三. 学习率优化调节的实现

在TensorFlow中学习率调节还是比较好实现的，如下是一个指数调节衰减的实现代码：

深度学习算法(第6期)----深度学习之学习率的命运 - 文章图片

如上，在设置完超参数之后，创建一个nontrainable的全局变量（初始化为0）用来记录当前的迭代次数。然后根据超参数用exponential_decay定义一个指数衰减学习率。接下来创建一个动力优化的优化器，最后让优化器去最小化损失函数即可，非常简单。然而……

四. 命运的安排

在我们上节讲AdaGrad, RMSProp和Adam优化器出现之前，上面学到的调节学习率的方法还是很有用的，由于AdaGrad, RMSProp和Adam这三种优化器能够天生的自带调节学习率，而且效果还非常的不错，所以一般在用这三种优化器的时候，往往不再去人为调节学习率，也许这就是命运，这就是安排！

（如需更好的了解相关知识，欢迎加入智能算法社区，在“智能算法”公众号发送“社区”，即可加入算法微信群和QQ群）

深度学习算法(第6期)----深度学习之学习率的命运 - 文章图片

内容总结

以上是互联网集市为您收集整理的深度学习算法(第6期)----深度学习之学习率的命运全部内容，希望文章能够帮你解决深度学习算法(第6期)----深度学习之学习率的命运所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/800243.html

来源：【匿名】

【上一篇】深度学习算法(第3期)---- TensorFlow从DNN入手【下一篇】关于Nginx的深度学习内容

更多 ►

【深度学习算法(第6期)----深度学习之学习率的命运】教程文章相关的互联网学习教程文章

深度学习算法实践8---BP算法详解

BP算法是关于误差的反向传播算法，就是从输出层开始，将结果与预期结果相比较，求出误差，然后按照梯度最大下降方向，调整神经元的联接权值，然后依次逐层调整各层之间的连接权值，对于批量学习方式而言，不断重复上述过程，直到误差达到足够小时为止。对于输出层而言，我们可以直接使用在上一篇博文中关于感知器模型的算法，BP算法的难点在于，如何处理隐藏层，因为隐藏层没有正确的输出信息用来计算误差。下面我们将从输出层开始...

深度学习中的优化问题以及常用优化算法【代码】【图】

3、神经网络优化中的挑战优化是一个很困难的任务，在传统机器学习中一般会很小心的设计目标函数和约束，以使得优化问题是凸的；然而在训练神经网络时，我们遇到的问题大多是非凸，这就给优化带来更大的挑战。 3.1 局部极小值凸优化问题通常可以简化为寻找一个局部极小值点的问题，在凸函数中，任何一个局部极小点都是全局最小点；有些凸函数的底部是一个平坦区域，在这个平坦区域的任一点都是一个可以接受的解。如下图所示：但是...

深度学习（机器学习）优化算法

一、损失函数：机器学习主要工作是模型评估，而损失函数定义了模型的评估指标!! 常见的损失函数有mean_squared_error mean_absolute_error mean_absolute_percentage_error mean_squared_logarithmic_error squared_hinge hinge categorical_hinge logcosh categorical_crossentropy sparse_categorical_crossentropy binary_crossentropy（二元交叉熵） kullback_leibler_divergence poisson cosine_proximity二、机器学习经典优化...

《TensorFlow深度学习算法原理与编程实战》_蒋子阳_学习资料整理【图】

内容简介 TensorFlow是谷歌研发的人工智能学习系统，是一个用于数值计算的开源软件库。《TensorFlow深度学习算法原理与编程实战》以基础实践相结合的形式，详细介绍了TensorFlow深度学习算法原理及编程技巧。通读全书，读者不仅可以系统了解深度学习的相关知识，还能对使用TensorFlow进行深度学习算法设计的过程有更深入的理解。《TensorFlow深度学习算法原理与编程实战》共14章，主要内容有：人工智能、大数据、机器学习和深度学...

深度学习系列（9）——node2vec算法中的alias采样介绍【代码】【图】

1、说在前面Alias采样是时间复杂度为o(1)的离散采样方式论文地址：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.675.8158&rep=rep1&type=pdf2、详细介绍问题比如一个随机事件包含四种情况，每种情况发生的概率分别为： 1/2,1/3,1/12,1/12问怎么用产生符合这个概率的采样方法。最容易想到的方法我之前有在【数学】均匀分布生成其他分布的方法中写过均匀分布生成其他分布的方法，这种方法就是产生0~1之间的一个随机...

机器学习、深度学习、人工智能三步走，人工智能必须知道的几种深度学习算法【图】

序声明：以下是博主精心整理的机器学习和AI系列文章，博主后续会不断更新该领域的知识：人工智能AI实战系列代码全解析手把手教你ML机器学习算法源码全解析有需要的小伙伴赶紧订阅吧。人工智能的浪潮正在席卷全球，诸多词汇时刻萦绕在我们耳边：人工智能（Artificial Intelligence）、机器学习（Machine Learning）、深度学习（Deep Learning）。不少人对这些高频词汇的含义及其背后的关系总是似懂非懂、一知半解。人工智能的...

深度学习入门 01----- 神经网络，反向传播算法---轻易理解【图】

机器学习AI算法工程公众号： datayx 深度学习学习7步骤 1．学习或者回忆一些数学知识因为计算机能做的就只是计算，所以人工智能更多地来说还是数学问题[1]。我们的目标是训练出一个模型，用这个模型去进行一系列的预测。于是，我们将训练过程涉及的过程抽象成数学函数：首先，需要定义一个网络结构，相当于定义一种线性非线性函数；接着，设定一个优化目标，也就是定义一种损失函数（loss function）。而训练的过程，就是求解最...

通过AI深度学习实现骑车不戴头盔和两轮电动车摩托车号牌识别算法

去年在深圳交警的一个项目是，要在宝安区某点试点抓拍未戴头盔的电动车骑车行为，而且需要将电动车号牌识别出来，经过技术论证，采用AI深度学习+传统车牌识别算法相结合的方式，实现此功能，我带领程序员小老弟们经过8个月的奋战，终于实现了这个算法，效果还相当棒，而且还能支持在800W像素下工作,令人惊奇，真是无AI，不编程啊。总结一下，通过AI深度学习实现骑车不戴头盔和两轮电动车摩托车号牌识别算法具有如下特征： 1.速度快...

这套人工智能算法书已经出版了3卷，其中卷3深度学习和神经网络最受程序员喜欢【图】

人工智能算法系列图书以一种数学上易于理解的方式讲授人工智能相关概念，这也是本系列图书英文书名中“for Human”的含义。本系列图书的每一卷均可独立阅读，也可作为系列图书整体阅读。但需要注意的是，卷1中列出了后续各卷所使用的各种基本算法，并且这些算法本身既是基础，也不失实用性。 2020年1月，人工智能算法系列图书第一卷出版。欲建高楼，必重基础。本书会讲授诸如维度法、距离度量算法、聚类算法、误差计算、爬山算...

深度学习算法--fit_generator()函数使用【代码】

如果我们数据量很大，那么是不可能将所有数据载入内存的，必将导致内存泄漏，这时候我们可以用fit_generator函数来进行训练。 from keras.datasets import imdb from keras.preprocessing.sequence import pad_sequences from keras.models import Sequential from keras import layers import numpy as np import random from sklearn.metrics import f1_score, accuracy_scoremax_features = 100 maxlen = 50 batch_size = 320 (...

深度学习 - 相关标签

深度学习模型深度学习算法

深度学习 - 最热教程

【深度学习】③--神经网络细节与训练注...Ubuntu16安装深度学习环境流程基于tensorflow2.x版本python代码实现深...使用RTX3080显卡搭建基于Pycharm+Pytho...Java 深度学习实践 DJL中文系列课程深度学习笔记（三）—— 反向传播[Back...在NLP中深度学习模型何时需要树形结构？Windows系统基于tensorflow+keras+cuda...深度学习原理与框架-神经网络-cifar10分...深度学习模型里super函数的作用和def _...

首页 / 深度学习 / 深度学习算法(第6期)----深度学习之学习率的命运

深度学习算法(第6期)----深度学习之学习率的命运

内容导读

内容图文

内容总结

内容备注

内容手机端

【深度学习算法(第6期)----深度学习之学习率的命运】教程文章相关的互联网学习教程文章

深度学习算法实践8---BP算法详解

深度学习中的优化问题以及常用优化算法【代码】【图】

深度学习（机器学习）优化算法

《TensorFlow深度学习算法原理与编程实战》_蒋子阳_学习资料整理【图】

深度学习系列（9）——node2vec算法中的alias采样介绍【代码】【图】

机器学习、深度学习、人工智能三步走，人工智能必须知道的几种深度学习算法【图】

深度学习入门 01----- 神经网络，反向传播算法---轻易理解【图】

通过AI深度学习实现骑车不戴头盔和两轮电动车摩托车号牌识别算法

这套人工智能算法书已经出版了3卷，其中卷3深度学习和神经网络最受程序员喜欢【图】

深度学习算法--fit_generator()函数使用【代码】

资深算法专家解读CTR预估业务中的深度学习模型【图】

十个常用深度学习算法【代码】【图】

图像分割算法实战(深度学习)

基于深度学习的林火检测及关键算法研究（博士论文）

脑机接口的深度学习算法【图】

深度学习 - 相关标签

算法 - 相关标签

深度学习 - 最新教程

深度学习 - 最热教程