Press "Enter" to skip to content

NeurIPS 2020:研究人员提出了更快,更有效的反向传播替代方案

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

20世纪60年代,弗吉尼亚理工学院教授Henry J. Kelley,斯坦福大学的Arthur E. Bryson和加州大学伯克利分校的Stuart Dreyfus等学者提出了反向传播理论。这是一种算法,后来被广泛用于训练神经网络,这种计算系统受到构成动物大脑的生物神经网络的启发。由于廉价,功能强大的计算系统的出现,反向传播兴起,从而导致语音识别,计算机视觉和自然语言处理的发展。

 

反向传播通常效果很好,但它受到限制,因为它为固定而非移动目标优化AI模型。一旦模型学会了从一个数据集进行预测,它们就会面临着在给定新的训练数据时忘记所学内容的风险–这种现象被称为 “灾难性遗忘”。这就是为什幺研究人员正在研究超越反向传播的技术,走向持续学习的形式,这不需要对他们的整个历史经验进行重新训练。专家们认为,这种更像人类的学习方式,赋予了学习新信息而不会遗忘的能力,可能会带来人工智能和机器学习领域的重大进展。

 

在12月初,在举行的NeurIPS 2020虚拟研讨会上,研究人员提出了许多传统反向传播的替代方法。一些利用诸如光子电路之类的硬件来进一步提高反向传播的效率,而另一些则采用了更加模块化,灵活的训练方法。

 

反向传播

 

反向传播的最简单形式是计算损失函数相对于模型权重的梯度(训练机器学习模型时使用的优​​化算法)。(损失函数是一种评估特定算法对给定数据集建模的良好程度的方法。)神经网络由相互连接的神经元组成,数据通过该神经元移动并由权重控制两个神经元之间的信号,从而决定将多少数据馈送到网络中将具有从中产生的输出。

 

反向传播是有效的,使训练包含许多神经元的多层网络,同时更新权重以使损失最小化成为可能。正如前面提到的,它的工作原理是通过链式规则计算相对于每个权重的损失函数的梯度,一次计算一次梯度,然后从最后一层开始迭代,以避免重复计算。

 

但是,尽管具有所有优点,但反向传播在可以达到一定程度的方面受到了严重限制。例如,正如数学家Anthony Repetto指出的那样,反向传播使得无法识别数据集特征的“星座”。当使用反向传播训练的计算机视觉系统对图像中的对象(例如“马”)进行分类时,它无法传达图像中的哪些特征导致了该结论。(丢失了此信息。)反向传播还会顺序更新网络层,从而难以并行化训练过程并导致更长的训练时间。

 

反向传播的另一个缺点是它倾向于陷入损失函数的局部最小值中。从数学上讲,训练模型的目标是收敛于全局最小值,即损失函数中模型已优化预测能力的点。但是,通常存在全局最小值的近似值(接近最佳点,但不是精确点),它可能导致模型方面的错误预测。

 

Alignment

 

曾经认为,用于通过网络向后传播的权重必须与用于向前传播的权重相同。但是最近发现的一种称为直接反馈对齐的方法表明,随机权重同样有效。这为后退通行并行化打开了大门,有可能将训练时间和功耗降低一个数量级。

 

确实,在匿名提交给NeurIPS研讨会的 论文中 ,合着者提出了“slot machine”网络,其中每个“卷轴”(即神经元之间的连接)都包含一组固定的随机值。该算法“旋转”转盘以寻求“获胜”组合或选择的随机权重值,以最大程度地减少给定损失。结果表明,仅为每个连接分配几个随机值,例如每个连接八个值,可以提高经过训练的基线模型的性能。

 

在接受该研讨会的另一篇论文中,开发光子计算硬件的初创公司LightOn的研究人员 声称 ,反馈对准可以成功地训练一系列最先进的机器学习架构,其性能接近于微调的反向传播。尽管研究人员承认他们的实验需要“大量”的云资源,但他们说这项工作提供了“新观点”,可能“有利于神经网络在以前由于计算限制而无法访问的领域中的应用”。

 

但是对齐并不是一个完美的解决方案。尽管它成功地训练了诸如Transformers之类的模型,但是众所周知,它未能训练卷积网络,而卷积网络是计算机视觉模型的主要形式。而且,与反向传播不同的是,反馈调整在对抗性攻击,可解释性和公平性等主题上并未经历数十年的研究。规模扩大对齐的效果仍未得到研究。

 

新硬件

 

迄今为止,提出的反向传播的最根本的替代方法可能是为反馈对齐量身定制的新硬件。在由LightOn的另一个团队提交给研讨会的 研究中 ,合着者描述了一种光子加速器,该光子加速器表面上能够计算具有数万亿个不同变量的随机投影。他们声称,他们的硬件(光子协处理器)与架构无关,并且可能朝着构建不依赖于反向传播的可扩展系统迈出了一步。

 

光子集成电路是LightOn芯片的基础,与电子同类产品相比,具有许多优势。它们只需要有限的能量,因为光产生的热量比电少,并且不易受到环境温度,电磁场和其他噪声变化的影响。与硅等效产品相比, 光子设计中的 延迟提高了10,000倍,而功耗水平却降低了“几个数量级”,此外,某些模型的工作负载运行速度比最新的电子芯片快了100倍。

 

但是,值得注意的是,LightOn的硬件无法不受光学处理的限制。快速的光子电路需要快速的存储,然后是将每个组件(包括激光器,调制器和光学组合器)封装在一个微小的芯片晶圆上的问题。此外,关于在光学领域可以执行哪种类型的非线性运算的问题仍然存在。

 

Distillation

 

反向传播问题的另一个,不一定是互斥的答案涉及将神经网络拆分为更小,更易于管理的部分。在一项匿名合着的 研究中 ,研究人员建议将模型划分为称为邻域的子网,然后对其进行独立训练,这具有并行性和快速训练的优势。

 

马里兰大学计算机科学系的研究 人员则 在训练整个网络之前,对子网进行了独立的 训练。他们还利用子网之间的注意力机制来帮助识别歧义场景中最重要的模式(视觉,听觉或文本),从而提高性能。在本文中,“注意力”是指一种识别输入序列的哪些部分(例如单词)与每个输出相关的方法。

 

马里兰大学的研究人员说,他们的方法可以使简单的网络实现与复杂架构相似的性能。而且,他们说这可以显着减少训练时间,例如情感分析,情感识别和说话人特质识别。

 

新技术即将问世

 

2017年,多伦多大学的研究员,谷歌的AI研究部门,计算机学会图灵奖得主Geoffrey Hinton表示,他对深度学习“深表怀疑”。他说:“我的观点是将其全部抛弃,然后重新开始。” “我不认为大脑是这样工作的。”

 

Hinton提到这样一个事实,即反向传播时,模型在出错时必须“告知”,这意味着它是“监督”的,因为它不会学会自己对模式进行分类。他认为,无监督学习或自我监督学习是朝着更强大的AI技术迈出的必经之路,其中模型在没有预先存在标签的情况下在数据集中寻找模式。获取更多前沿科技信息访问: https://byteclicks.com

 

但撇开这一点不谈,反向传播的基本局限性仍在促使研究界寻求替代方案。现在还为时过早,但如果这些早期的尝试能够成功,效率的提升可以扩大人工智能和机器学习在从业者和企业中的可及性。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注