Press "Enter" to skip to content

当机器具备跨模态感知能力后,会有智商吗?| MixLab人工智能

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

大家好,我叫大铮,这是我的第一个专栏。我们将从脑科学,语言学,符号逻辑,决策推理等多个角度深入探讨什幺 是 跨模态感知 ,再从人工智能的角度,来认识跨模态感知的具体实现。

 

希望通过这个专栏能让大家知道: 人类是多幺高级的智能体 ,而机器在模仿人类智能这件事上走了多远,最终将会去往何处。

 

不同形式的模态

 

我们在生活中会接触到不同形式的信息,视觉上的图像、视频;听觉的语言;嗅觉对应的气味等,都可以称为模态。

 

随着信息技术和传感器技术的发展, 模态的范畴也变得更为宽广 :网络上的文本,深度相机收集到的点云等信息,都可以看作是不同形式的模态。 跨模态感知 涉及到两个或多个感官的信息交互,可以是通感(Synesthesia),也可以是转换感知。在实际应用中, 转换感知 更接地气:比如最基本的图像检索,就是一种从文本到图像的感官替换。反过来,从图像到语音的转换,可以帮助有视觉感官缺陷的人们,强化感知环境的能力。

 

 

通感艺术家 Geri Hahn 根据她对英语语法内在相关性观察

 

创作的AND,BUT 和 NOT 三个词汇的视觉化形象

 

 

微软的Seeing AI 可以帮助视障者

 

阅读文字,识别商品属性,感知好友的表情

 

为了让机器能自然流畅地和人交流,更好地让机器辅助人们用日常的生活语言完成多种多样的任务,研究者们在自然语言理解(Natural Language Understanding)方面做出了非常大的努力。

 

OpenAI,这家 获得特斯拉创始人 Elon Musk、PayPal 联合创始人 Peter Thiel、LinkedIn 联合创始人 Reid Hoffman 投资的人工智能研究公司,最近开放了 迄今为止最为强大的文本生成人工智能,GPT-3 。

 

GPT-3

 

一种自动语言生成模型,它使用深度学习来生成类似于人类语言的文本。它是由位于旧金山的人工智能研究实验室 OpenAI 创建的 GPT-n 系列中的第三代语言预测模型。GPT-3 的完整版本包括了 1,750 亿个机器学习参数 。

 

开发者可以通过 调用API(Application Programming Interface,应用程序接口),利用这个强大的模型玩出各种花样,比如:

 

1 用文本的描述,生成网页的前段代码;

 

2 根据输入的开支文本描述,修改资产负债表上的数据条目;

 

3 在Excel里写下需要查询的内容,通过网络搜索自动填充查询结果;……

 

 

开发者 Sharif Shameem 利用GPT-3开发了一个简单的 to-do app

 

只需要输入“我需要一个文本框和一个按钮来保存输入的内容,生成我需要的todos” 就行了

 

GPT-3 的实验结果,似乎验证了 Richard Sutton 在之前颇具争议的论断,他在《苦涩的教训》的最后写道:“ 我们应该从苦涩的教训中学到一点: 通用方法非常强大,这类方法会随着算力的增加而继续扩展,搜索和学习似乎正是这样的方法。 ”

 

在GPT-3推出后,一些在更广泛任务 上的实验 也指出 (他们让GPT-3完成了近一万六千道题目,内容涉及美国本科的课程、考试、牛津大学出版社出版物、研究生考试、美国医学许可考试等等) ,GPT-3 还不能真正地理解知识,其表现出来的能力更像是在死记硬背,缺乏对内容的系统性的理解能力。

 

图灵奖得主 杰弗里·埃弗里斯特·辛顿 ( Geoffrey Everest Hinton)在一次采访中提到,只有 1750 亿个参数的人工智能 GPT-3 与有 100 万亿个神经元的人脑相比,其参数数量依然是微不足道的。他认为就像人脑一样, 真正对于语义的理解,需要依托存在大量的向量神经活动中

 

 

Geoffrey Everest Hinton

 

在另一篇,来自华盛顿大学的 Emily M. Bender 和萨尔大学的 Alexander Koller发表并获得ACL最佳论文主题奖的论文中,他们也探讨了关于自然语言理解的问题。

 

文章中讲,目前的语言模型, 仅使用语言形式(form)来训练的方式永远也无法真正 “理解” 语言 。这里的形式是指语言的任何实现(observable realization),比如标记序列(token),或者写在纸上的 (written language),或者以声音形式存在的口头语言(spoken language) 等等。而所谓的语义(meaning)理解则是指语言的形式( form) 和某种 语言之外的东西的联系 。

 

这个观点与辛顿的理解不谋而合:“如果一个智能体能打开抽屉,然后取出一个积木,然后说:‘我刚刚打开抽屉然后取出一个积木’,那幺可以认为它是明白自己是在做什幺的。”

 

 

UCberkeley的机器人正在学习做咖啡

 

在深度学习框架的具体实现中,两个模态间的语义转换,需要将具有抽象概念的符号逻辑,与具有良好的 视觉/文本 形象表征能力的深度神经网络相结合。符号逻辑虽然不是最自然的事物的展现形式(最自然的应当是自然语言),但其优势是符号间的逻辑运算在数学上有一套完备的规则,而且这些规则能很 清楚地用代码写出来 。

 

符号

 

泛指的是我们的语言中经常被使用的抽象概念(比如交通信号灯的“红色”代表停止,“绿色” 代表通行;数学上的 “加法” 是一种线性运算方式的实例;“携带” 指两个物体间空间位置关系的一种状态),这些概念可以不区分具体的环境或者特定的任务而广泛成立,所以有时候我们也叫之为  “常识” 。

 

由于符号在不同的环境中是通用的, 少数几个符号 就能表示大量的视觉/文本形象,避免了特征向量在语义上是含糊不清的这一特性,这将有助于解决目前深度学习模型存在的一些问题:数据利用效率低,模型泛化能力差。而又由于符号的含义通常是明确且相互独立的,这就能让深度学习模型能够进行可解释的决策推理。

 

要想 把符号和深度学习结合 起来,需要先提取符号,再建模符号:

 

1 符号的提取是:

 

把现实世界的实体抽象化成符号,简单的做法是把深度神经网络的输出稀疏化从而转换成抽象的符号,也可以利用先验性的约束 (例如贝叶斯模型 ) 指导模型自行学习符号。

 

2 有了抽象的符号之后要做的是:

 

把符号和符号关联起来。根据辛顿对于大型向量的解释,符号应该是向量中的一组基本元素,这组元素可以代表符号的含义,同时不同的符号之间又是相互独立的。

 

目前的使用深度学习模型来建模符号关系的方式主要有图神经网络,基于自注意力机制的Transformer (例如GPT-3)两种。这些结构结合了符号推理的框架,就能够实现 符号层面的推理 ,所得到的推理关系能够很容易地迁移到其它的任务上去,并产生同样的效果,这就如同辛顿说的:

 

 

图神经网络的信息传递和更新过程

 

“如果一个智能体能打开抽屉然后取出一个积木,然后说:‘我刚刚打开抽屉然后取出一个积木’, 那幺可以认为它 是明白自己是在 做什幺的。 ” (编辑:chunfang)

 

 

大铮

 

复旦大学计算机应用技术在读博士

 

研究:机器学习、深度学习、媒体大数据分析

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注