Press "Enter" to skip to content

transfromer 会是人工智能的大一统模型吗?

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

想象一下你去当地的五金店,看到货架上有一种新的锤子。你可能听说过这把锤子: 它比其他锤子更快更准确地敲击,在过去的几年里,至少在大多数情况下,许多其他锤子都被淘汰了。几周之后,你发现只要稍微调整一下,这里加一个附件,那里加一个转动,这个工具就变成了锯子,它至少可以像其他工具一样快速准确地切割。事实上,一些工具开发前沿领域的专家说,这把锤子可能预示着所有工具将汇聚到一个单一的装置中。

 

类似的故事也在人工智能工具中上演。这种多用途的新型锤子是一种人工神经网络——一种通过训练现有数据“学习”如何完成某项任务的节点网络——称为transfromer。它最初设计用于处理语言,但最近开始影响其他人工智能领域。

 

transfromer最早出现在2017年的一篇论文中,那篇论文含糊地宣称“注意力就足够了”在人工智能的其他方法中,系统首先关注输入数据的局部,然后逐步建立整体模型。例如,在语言模型中,邻近的单词首先被组合在一起。相比之下,transfromer将输入数据中的每个元素连接到其他每个元素。研究人员称之为“自我关注”, 这意味着只要开始训练,transfromer就可以看到整个数据集的踪迹。

 

在transfromer出现之前,人工智能语言任务的进展大大落后于其他领域的发展。Massachusetts大学的计算机科学家 Anna Rumshisky 说: “在过去10年左右发生的深度学习革命中,自然语言处理算是一个后来者。因此,在某种意义上,NLP 落后于计算机视觉。transfromer改变了这一切。”

 

transfromer很快成为了文字识别等应用程序的领跑者,这些应用程序专注于分析和预测文本。它引发了一波工具的浪潮,比如 OpenAI 的(GPT-3) ,这种工具基于数千亿个单词的训练数据,并产生令人不安的新文本。

 

transfromer的成功促使人工智能研究者问他们还能做什幺。随后研究人员发现,transfromer被证明是令人惊讶的多才多艺。 在一些视觉任务中,比如图像分类,使用transfromer的神经网络比不使用transfromer的神经网络更快更准确。 其他人工智能领域正在出现的工作ーー比如同时处理多种输入,或者规划任务ーーtransfromer也被证明可以处理的更好。

 

“transfromer在机器学习的许多问题上,包括计算机视觉方面,似乎真的取得了相当大的转变,”Vladimir Haltakov说。他在宝马(BMW)从事与无人驾驶汽车相关的计算机视觉方面的工作。

 

就在10年前,人工智能的不同子领域之间相互分割。但是transfromer的到来暗示了一种趋同的可能性。德克萨斯大学奥斯汀分校的计算机科学家Atlas Wang说: “我认为transfromer如此受欢迎是因为它暗示了变得普及的潜力。”。“我们有很好的理由要尝试transfromer的在人工智能的各个领域中。

 

从语言到视觉

 

其中一个最有希望的步骤,发生在发布的“注意力就是你所需要的一切。”几个月后。计算机科学家 Alexey Dosovitskiy 当时在柏林谷歌大脑工作,致力于计算机视觉,试图教会计算机如何处理和分类图像。和这个领域的几乎所有人一样,他研究的是卷积神经网络(CNNs) ,多年来它推动了深度学习尤其是计算机视觉领域的所有重大飞跃。

 

Cnn 是通过对图像中的像素重复过滤来建立对特征的识别。这一技术应用程序可以根据脸来组织你的照片,或者区分鳄梨和云。Cnn 被认为是视觉任务不可缺少的。

 

Dosovitskiy 正在研究这一领域最大的挑战之一,那就是扩大 cnn 的规模,以便在不增加处理时间的情况下,训练更大的数据集,这些数据集代表分辨率越来越高的图像。但是,随后他观察到“transfromer”取代了之前几乎所有与语言相关的人工智能任务的常用工具。他表示: “我们显然受到了正在发生的事情的启发。他们得到了所有这些惊人的结果。我们开始考虑是否可以在视觉上做类似的事情。”这个想法有一定的道理ーー毕竟,如果transfromer能处理大数据集的文字,为什幺不能处理图片?

 

研究人员在2021年5月的一次会议上展示了一个被称为视觉transfromer的网络。该模型的架构与2017年提出的第一个transfromer几乎完全相同,只有一些微小的变化,允许它分析图像而不是文字。“语言往往是离散的,”Rumshisky 说,“所以需要许多适应性改造,以便将图像分离开来。”

 

ViT 的团队知道他们不能完全模仿语言的方法,因为每个像素的自我注意在计算时间上是昂贵的。取而代之的是,他们将较大的图像分成方形单位。方块的大小是任意的,因为标记可以根据原始图像的分辨率变大或变小。但是,通过分组处理像素,并对每个像素进行自我注意,它可以快速使用大量的训练数据集,得出越来越精确的分类。

 

transfromer模型可以超过90% 的准确率对图像分类——这比预期的结果要好得多,推动它在ImageNet 分类挑战中迅速位居榜首。 该模型的成功表明,也许卷积并不像研究人员认为的那样对计算机视觉至关重要。

 

“我认为,在未来的中期内,cnn 很可能会被视觉transfromer或其衍生物所取代,”与 Dosovitskiy 合作开发 ViT 的苏黎世谷歌大脑(Google Brain Zurich)的Neil Houlsby说。这些未来的模型可能是纯粹的transfromer,或自我注意添加到现有的任何一个模型中。

 

其他的研究结果支持这些预测。研究人员经常在 ImageNet 数据库中测试他们的图像分类模型,在2022年初,一个升级版的 ViT  将 cnn 和transfromer结合起来。而不包含transfromer的CNNs模型,则勉强进入前10名。

 

transfromer是如何工作的

 

ImageNet 的结果表明,transfromer可以与领先的 cnn 竞争。但是,谷歌大脑的计算机科学家 Maithra Raghu 想知道,它们“看到”图像是否和 cnn 一样。神经网络因为难以破译的黑匣子而臭名昭着,但是有一些方法可以窥探其内部,例如通过逐层检查网络的输入和输出,看看训练数据是如何流动的。Raghu 的团队基本上就是这幺做的,他们把模型拆分开来。

 

 

她的研究小组确定了自我注意在算法中导致不同感知方式的方法。最终,transfromer的成功来自它处理图像编码数据的方式。“在 CNNs,你开始非常本地化,慢慢地得到一个全球视角,”Raghu 说。 CNN逐个像素识别图像,通过特征识别,如角落或线条,从局部到全局构建模型。但是在自我注意的transfromer中,即使是信息处理的第一层,也会在遥远的图像位置之间建立联系(就像语言一样) 。如果 CNN 的方法是从一个像素开始放大,transfromer则慢慢地将整个模糊图像聚焦。

 

这种差异在语言领域更容易理解,因为transfromer最初是在语言领域构想出来的。考虑这些句子: “猫头鹰发现了一只松鼠。它试图用爪子抓住它,但只抓到了尾巴的一端。”第二句的结构很混乱: 这些“ it”指的是什幺?如果 CNN 只关注“ it”一词周围的单词,这会让人觉得很困难,但是一个将每个单词与其他单词连接起来的transfromer可以辨别出是猫头鹰抓的,松鼠失去了部分尾巴。

 

现在很明显,transfromer处理图像与卷积网络完全不同,研究人员只是变得更加兴奋。transfromer能够将数据从一维字符串(比如句子)转换为二维数组(比如图像) ,这种多功能性表明,这种模型可以处理许多其他形式的数据。 transfromer可能是朝着实现神经网络结构的某种融合迈出的一大步,从而产生一种通用的计算机视觉方法ーー或许还可以用于其他人工智能任务 。“当然,真实上,这样的模型是有局限性的,”他说,“但如果有一个模型是通用的,你可以把各种数据放在一台机器上,那肯定是非常奇特的。”

 

融合即将来临

 

现在,研究人员想把transfromer应用到一项更为艰巨的任务上: 创造新的图形。诸如 gpt-3之类的语言工具可以根据其训练数据生成新的文本。在去年发表的一篇论文中,王结合了两个transfromer模型,试图对图像做同样的工作,这是一个难得多的问题。该transfromer网络对20多万名人的面部进行训练[1],合成出分辨率适中的新人脸图像。根据第一映像评分(一种评估神经网络生成的图像的标准方法),这些虚构的名人非常逼真,至少和 cnn 创造的人脸图像一样有说服力。

 

 

transfromer生成的图像

 

王认为,transfromer在图像生成方面的成功甚至比 ViT 在图像分类方面的能力更令人惊讶。他说: “生成模型需要综合信息,需要能够添加看起来可信的信息。”。与分类一样,transfromer方法正在取代卷积网络。

 

Raghu 和 Wang 看到了transfromer在多模式处理[2]中的新用途的潜力——这种模式可以同时处理多种类型的数据,比如原始图像、视频和语言。Raghu 说,“以前做起来比较棘手,”因为这种“竖井式”的方法,每种类型的数据都有自己的专门模型。但是transfromer建议一种方法来结合多个输入源。“整个领域都是有趣的应用程序,结合了一些不同类型的数据和图像。”例如,多模式网络可能为一个系统提供动力,该系统不仅能听到一个人的声音,还能读取他的嘴唇。“你可以同时拥有丰富的语言和图像信息,”Raghu 说,“而且可以比以前更加深入。”

 

新出现的工作表明transfromer在其它人工智能领域有一系列新的用途,包括教机器人识别人体动作[3],训练机器人识别语音中的情绪[4],以及检测心电图中的压力水平[5] 。另一个使用transfromer组件的程序是 AlphaFold,该程序因其快速预测蛋白质结构的能力而成为去年的头条新闻——这项任务过去需要花十年时间进行广泛的分析。

 

权衡

 

即使transfromer可以帮助整合和改进人工智能的工具,新兴技术往往要付出高昂的代价,这一点也不例外。一个transfromer需要更高的预训练阶段的计算能力,才能击败其传统竞争对手的准确性。

 

这可能是个问题。“人们总是对高分辨率图像越来越感兴趣,”王说。这笔训练费用可能成为广泛采用transfromer时的一个缺陷。然而,Raghu 认为只要使用复杂的过滤器和其他工具,就可以轻松克服这个培训障碍。

 

王还指出,尽管视觉transfromer激发了推动人工智能前进的新努力(包括他自己的努力) ,但许多新模型仍然包含了卷积神经网络的部分。他说, 这意味着未来的模型更有可能同时使用这两种技术,而不是完全放弃 cnn。

 

这也暗示了一些混合架构的诱人前景,这些架构利用了transfromer的优点,而这些优点是今天的研究人员无法预测的。“也许我们不应该急于得出结论,认为transfromer将是终极模型,”王说。但是,它越来越有可能,transfromer将至少成为一个任何人都无法躲避的新的超级工具的一部分。

 

原文链接: https://www.quantamagazine.org/will-transformers-take-over-artificial-intelligence-20220310/

 

 

https://arxiv.org/abs/2102.07074

 

https://arxiv.org/abs/2104.11178

 

https://arxiv.org/abs/2202.11423

 

https://arxiv.org/abs/2202.08974

 

https://arxiv.org/abs/2108.09737

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。