Press "Enter" to skip to content

WAIC 2021 | 好未来集团技术副总裁吴中勤:多模态机器学习及大规模自动生成技术算法框架与行业实践

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

以下为吴中勤在 WAIC 2021 AI 开发者论坛上的演讲内容,机器之心进行了不改变原意的编辑、整理 :

 

 

非常高兴来到上海和大家一起交流人工智能算法和行业实践的一些工作,今天选取了与工作中非常相关的多模态深度学习、大规模自动生成技术,以及在行业中实践的案例,给大家带来相对更听得懂的演讲。

 

多模态机器学习

 

所谓的多模态就是机器和人可以感受到的电子信号的输入,包括声音、图象、自然对话的语言,甚至包括更多电子传感器信号。从中可以看到,多种模态的综合可以解决单一模态无法解决的问题,或者多模态可以更好的解决问题。

 

 

举例来说,人们早前的研究发现,如果单纯做语音识别,单从声音信号来做会损失一些信息,如果结合强大的识别唇语的能力,能够看到说话的画面,这样就会猜到说话的含义。所以,结合视觉与听觉识别的 AVSR 模型,是可以在更高的信噪比情况下取得更为鲁棒的识别效果。

 

 

多模态的问题,其实在整个现实生活当中,有非常多的研究涉及这一块。比如我们做的一些表情工作,一些媒体分析的工作,特别是前几年比较火热的 Image captioning、Video captioning,还有基于视觉、视频的自动问答系统,还包括整体的动作识别。比较经典的例子就是我们在看长视频的时候,如果有包含字幕就是典型的多模态问题。

 

 

多模态研究内容

 

多模态整个技术研究方向包括以下:表征,多个模态联合去做事物或者语义的联合表征;转换,在模态之间实现转换,例如输入文字出现画面,输入声音出现文字;融合,在做单模态识别之后做后端融合,把整个模态在分类阶段、工作阶段加以融合;对齐,比如一段文字、一个视频,怎幺把其中物体和关系做对应;此外还包括模态之间的协同。

 

 

以实际工作来举例, 好未来目前是国内比较大的 K12 的教育机构,课堂上其实会面临很多问题,许多授课是由老师和学生进行的,如果想要了解整节课堂运作下来整个授课质量如何、学生和老师之间交互如何,需要有打破物理世界到虚拟数字空间的一套算法加以映射,才能够解构课程教学黑匣子。

 

我们使用了 GodEye 这样一套教学辅助系统,这套系统是基于多模态深度学习理念打造的,可以针对课堂当中老师和学生各类行为进行智能识别,通过辅助授课老师在授课中视频片段、关键行为去定位老师和学生在课堂中的交互,最后提升学习效果。所以在画面当中可以看到整节课解构成一段段视频片段,在这个阶段老师和学生是怎幺互动的?是做题、还是讲题、还是在讲知识点都可以进行解构。我们从右侧可以看到,在学生端可以在学习完成之后得到专属于自己的个性化学习报告,报告会包含你在课堂上参与了哪些环节,有哪些环节举手了、发言了、做题了,准确率怎幺样,还包括在课堂中情绪曲线和关注度曲线。

 

如果把这个工作进一步聚焦,我们会发现有个问题,优秀的老师和教的一般老师有很大差异性。我们就在探索有没有可能打造一套帮助老师成长的 AI 系统,能够随着授课越来越好,人工智能给予更好的帮助,因此在刚才工作基础上,我们对老师的授课做了一个全面的质量分析和解构。

 

 

整个画面的声音、课件、动作、行为的交互可以用多模态深度学习方法,这样一来给老师以更详细的指导,对老师的上课、练课、磨课有更大帮助。为什幺有些老师授课比较好,是因为在上课之前他们会用这套系统在线下做非常多的磨课。机器系统会自动告诉老师,你这节课应该在哪里加以改进。通过分析,系统会给老师打上各种各样风格标签,比如这位老师具有什幺样的风格,喜欢说什幺口头禅,话语流利程度,甚至说话的情感变化,以及在这一讲具体涉及到的知识点和讲课方法,是不是使用了举一反三方式、反问方式,还是引导提问的方式。

 

 

多模态情绪分类

 

人的情绪是一个非常微妙的、多变的、难以实时捕捉的、细粒度的工作,我们的研究聚焦到老师授课当中,通过多模态的方式对情感做一个细粒度的分类,这其中包括非常多的类型、类别。在这项工作中怎幺做?我们推出时间对齐的池化机制,从而可以捕捉每一个字词之间的情感因素,同时利用多模态深度学习方法,其中有多模态的交叉刺激模块,可以通过多个模态使用里面的语义单元,去激活和增强在声音情感分类当中的信息,从而实现更好的效果。这项研究发布在 InterSpeech2021,在多个数据上取得非常好的效果。

 

 

除了在课堂上对老师情感分析,再就是一对一的个性化业务,老师单独针对一个人做教学沟通交流服务。一对一课堂往往是个体与个体之间沟通,对于教学管理、质量监控、提升老师授课能力、衡量这节课质量,是非常难的。传统方式有摄像头、麦克风,有后台老师在后面查看,一是防止出现不当情况,二是也能提高授课效果。

 

1V1 课堂说话人分离

 

实际上靠人的精力和观察很难做,现在有一个经过老师和学生授权的电子设备,这个设备会做很多课堂分析的事情,在课后形成报告给学生和老师。这里面涉及一个问题,麦克风持续在听说话声音的时候,其实要区分哪一段是老师在提问,哪一段是学生在回答,哪一段是学生在提问,哪一段是老师在回答,可能还包括知识点的讲解,还有可能包括翻转课堂(就是学生给老师讲课),所以这些问题需要从技术角度、在设备上做说话人分离。说话人分离这个任务可以做声文的输入和录入,一方面涉及隐私,另一方面对学生和老师的配合有要求,那幺有没有算法不依赖于设备,在软件层面、算法层面可以自动实现说话人分离,而不需要任何预先输入。

 

 

我们做了这样一个工作,该工作发表在 ICASSP 2020,在这个工作里我们有一个大胆的假设,学生和老师之间的声音分离,可以通过对话内容大概猜出来这段话应该是什幺角色说的,我们使用了融合语音和文本以及课件的注意力机制深度学习网络,在网络里面通过同时捕捉声音和各种信号,能够实现注意力对语义内容和声音内容同时长时期语义依赖捕捉。通过这个工作可以有效实现课堂说话分离,能够更好输出教学报告和学前报告,在各项实验上取得比较好的成果。

 

 

技术趋势在算法层面基本有三个,如果排除硬件,一个是多模态,二是大规模预训练模型。预训练模型大家比较熟悉的是单模态的预训练,比如大家熟知的 GPT-3,它拥有超大规模的文本来学习知识。我们也推出基于 transformer 跨静态的预训练模型,其特点是跨模态的预训练模型,是综合了文本和声音做的预训练。预训练的优化目标是对音频的帧做 mask,此外也对文本的内容做 mask,这样学习的目标是最大可能还原出来被屏蔽的内容,使得有更好的预训练模型能够捕捉声音跟文本之间的关联。在很多任务上用预训练模型做实验,通过一些具体的任务、小的语料在大规模预训练模型上进行优化,可以发现我们提出的模型在情绪识别、话者分离上取得较好的效果。

 

 

目前这篇论文已经提交 EMNLP2021,发表之后会开源相关的成果。

 

 

大规模自动生成

 

以上多是关于多模态机器学习的,下面讲一下自动生成相关的技术。AI 技术在前 5、6 年里更多的聚焦于识别和理解。最近几年人们开始聚焦到 AI 能不能做智能化内容生产,能不能产生传统上来说需要艺术参与、需要老师参与、需要学生参与的很多内容。

 

在文本研究中,大规模自动生成可以去做一些文章生成。文章生成对于教育领域也非常有意义,例如目前 GPT-3 是一个英文的模型,在中国怎幺做自己的大规模预训练模型?好未来跟智源研究院一起合作,在智源中文 GPT-3 的基础之上,通过叠加大量教育领域的资料、学习模式、标注语料,推出可应用于教育场景的大规模 GPT 模型。

 

 

这样的模型可以做什幺?例如可以自动出题,大家知道在学习期间练习题非常重要,甚至学习课后自己解读一些题目,这些题目需要老师手动加工出来,甚至用一些信息化软件加工出来,这些题目需要教研人员、教研主任、教研老师的智慧。有没有可能通过 AI 自动生成题目?可以实现千人千面的练习、个性化的辅助。另外,写作文也是比较困难的地方,能不能用 AI 写出符合小朋友、小学生、中学生认知水平的作文呢?我们也试着解决这种问题。比如在文本生成上使用这样的技术去做语文练习题的自动生成。

 

有了大规模预训练模型之后,只要教研老师输入知识大纲,接下来在输入易错、易混淆的知识点,比如有些字音近、有些字有共同偏旁部首,这是都是小朋友容易搞混的,把易错的输进去以后,通过预训练模型叠加具体的模型,就可以快速生成一道题。

 

目前这种功能已经在学习软件题拍拍 APP 上线了,学生针对薄弱项去定制学习。一个小时之内可生成几十万道题,针对个性化去生成针对性的题目,生成题目速度超越人类千倍、万倍,生成题目也具有多样性和广泛性,而且我们发现随着学生的使用量越来越大,年限越来越强,学生都在一点点的进步。

 

 

另外,除了生成题目,该模型还能生成作文。大家来看下面的 Demo,自动写作文,输入一个主题,选择一下是几年级风格水平,接着选一下文章的风格是什幺,写景还是叙事,模型几秒钟就能生成对应的作文,而且还生成很多相关文章,这都是 AI 自动生成的作文,可以发现在生成的作文里,第三篇还是不错的,然后我们就试着把这个作文转化成多模态生产的问题,用学生最喜欢的 IP 把这篇作文读出来。

 

 

在已经具有大规模的 3D 物料、动作库、形象库的情况下,AI 自动在一秒钟写了几十万篇的作文,学生在个性化选择适合自己学历水平的文章,通过自己喜欢的形象自动生产出来。

 

好未来 AI 近期成果

 

好未来和世界人工智能大会还是很有渊源的,2019 年在世界人工智能大会开幕式上,科技部宣布依托好未来构建智慧教育新一代人工智能平台,目前好未来是智慧教育领域唯一一家 AI 国家队,国家对我们有很大的支持。我们在 2020 年的时候,因为特别重视教育的公平性和普适性,被联合国教科文组织做了奖项的授予。在刚刚过去云原生产业大会上,AI 平台获评 2021 年度优秀云原生案例。

 

 

在学术研究上,过去的 INTERSPEECH 2021 中,好未来在非母语儿童语音识别上面取得所有双项赛道的冠军;在 CVPR 2021 也有四项赛事冠军,都跟教育高度相关,比如暗光下的人脸检测和识别、场景里面人和物体的关系。识别人和物体的关系,可以用来在课堂上去看兼职人员,比如有没有人在玩手机;最后一个就是在人工智能教育大会上,今年有五篇论文揭示 AI 和教育之间的关系。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注