Press "Enter" to skip to content

离线优化器

 

作者丨stephenDC

 

编辑 丨 zandy

 

这是作者的第 18 篇文章

 

导语

 

机器学习中模型参数的求解,是通过优化器实现的 ,因此优化器也是机器学习问题的重要组成部分。不同的优化器,实现原理不同,适用场景也不同。粗略来分,优化器有适合离线使用的和适合在线使用的。

 

本文从梯度下降的导出开始,介绍一下离线常用的优化器,其主要内容来自于 Sebastian Ruder 的一篇综述。原文是英文写的,内容非常详尽,有想了解更多的可以点击文末的阅读原文。

 

梯度下降的导出

 

本文提到的所有优化器,都基于梯度下降。 因此,这里先推导一下梯度下降,并说明其性质。

 

 

 

Note: 梯度下降基于目标函数的导数这一局部性质,因此梯度下降只在局部是有效的。想象一下,有一个盲人,想要下山。因为是盲人,他无法看到地形的全貌,但他手里有一台仪器,可以得到任意一处位置的地形,因此可以知道在某个点往哪个方向高度是在减小的。另外,我们假设他可以无视地形,也就是说他在移动过程中无论遇到悬崖还是峭壁,都可以不受影响地往这个方向移动任意距离。这就是所谓的梯度下降了,而我们想要解决的问题是,怎幺样可以让这位盲人最快地到达山底?      、

 

梯度下降的不同形式

 

梯度下降在具体使用的时候,根据每次使用的样本数量多少,分为以下三种形式。批量梯度下降,使用全部样本计算梯度,然后更新参数,稳定性好但计算量太大;随机梯度下降,一次只使用一个样本,优点是快,缺点是稳定性差;小批量梯度下降,一次使用n个样本,是两者的折中。

 

 

梯度下降的不足

 

1.选择一个合适的学习率很难。学习率太大,优化的目标函数容易发散;太小,收敛很慢。

 

2.有人用退火策略逐渐减小学习率。但这需要提前定义策略,并且没有任何策略是可以适用各种不同的数据集的。

 

3.模型中不同的参数,对应的特征在样本中出现的频次差异很大,因此需要不同的学习率。

 

4.梯度下降的更新完全依赖梯度,因此在梯度几乎为零的鞍点,参数将无法更新。

 

 

基于梯度下降的优化器

 

Momentum

 

       

 

 

Nesterov accelerated gradient

 

 

 

 

Adagrad

 

 

 

Adadelta

 

 

 

RMSprop

 

Adam

 

 

 

AdaMax

 

 

 

Nadam (NAG+Adam)

 

 

 

 

AMSGrad (Adam+Max)

 

 

 

 

小结

 

本文是对离线优化器的简单介绍,希望对大家能有所帮助。 个中疏漏和错误之处,还望大家不吝批评指正。

 

-end-

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注