Press "Enter" to skip to content

NLP能否像人脑一样工作?CMU、MIT三篇论文详解机器和大脑范畴下NLP的关系

自 Google AI 提出 BERT (Bidirectional Encoder Representations from Transformers) 后,BERT 在自然语言处理领域(Natural Language Processing,NLP)中应用获得了非常好的效果,它成为了近期 NLP 领域中最重要的进展。BERT 是一种 Transformer 的双向编码器表示,它通过联合调解模型中所有层的上下文来完成双向编码器表示的预训练。此外,还可以通过一个额外的输出层对预训练的 BERT 表示进行微调,从而使其在基本保持原有架构的基础上,能够快速适用于不同的 NLP 任务,例如语言推理、问答系统等。

 

与大量的利用 BERT 提升语言模型性能的研究不同,CMU 的 Wehbe 研究小组近期在关注一个非常有意思的问题: 理解机器中的自然语言处理和大脑中的自然语言处理之间的关系,这个问题也可以看做是语言模型(自然语言处理)和神经科学的交叉研究 。谈到应用于自然语言处理任务中的各种人工智能模型,人们总是希望它们能够在完成文本理解的任务上达到跟人类一样的水平。那幺,想要让模型像人脑一样工作,模型能不能运用像人类的大脑中一样的表征呢?Wehbe 研究小组重点关注的就是使用大脑中的活动记录来解释一种人工智能模型—BERT 的表示,以及试图找到改进它们的启发式方法,甚至改变网络学习到的权重,使它们能够像大脑一样工作。

 

关于 理解机器中的自然语言处理和大脑中的自然语言处理之间的关系 ,Wehbe 组有两篇文章发表在 NeurIPS 2019 中,分别是:

 

利用阅读自然文本的受试者的大脑活动记录来对比和解释不同神经网络生成的表示的方法(《Interpreting and improving natural-language processing (in machines) with natural language-processing (in the brain)》,这篇文章通过对四种 NLP 模型:ELMO、BERT、USE、T-XL,和两种人脑活动记录方式:功能磁共振成像(functional magnetic resonance imaging,fMRI)、脑磁图(magnetoencephalography,MEG)进行对齐匹配,展示了不同 NLP 模型所提取的表示中包含了哪些对应于人脑记录的、有助于改进效果的信息,例如上下文语境信息、词性信息等。

 

将预测任务的目标信息编码到模型参数中,从而改进 BERT(《Inducing brain-relevant bias in natural language processing models》)在预测脑内语言处理的神经活动的能力。在用神经成像设备(fMRI、MEG)记录大脑活动的同时,向受试者呈现语言刺激(例如逐字阅读一本书的一章或听一个故事),使用从 NLP 模型中提取的对应文本的表示来模拟所记录的大脑活动。通过微调 BERT,以找到能够高度概括人脑和记录类型的表示,从而改进 BERT。

 

除关注 Wehbe 研究小组的工作之外,我们也分析了这一领域中的其它研究成果,例如 MIT 的 Roger P. Levy 教授组的文章《Linking artificial and human neural representations of language》,这篇文章的关注点与 Wehbe 小组有所不同,其主要研究目的是解释「从句子理解行为中得到的 什幺信息 在人脑中得到了强有力的表达?」,即神经科学和 BERT 之间最有意义的交叉点在哪?他们使用 BERT,并在不同的自然语言理解(Natural Language Understanding,NLU)任务中对 BERT 进行微调,目的是提高大脑解码性能,从而找到这个 关键的信息 。

 

一、Interpreting and improving natural-language processing (in machines) with natural language-processing (in the brain)

 

论文链接:https://arxiv.org/pdf/1905.11833.pdf

 

首先,我们来看看如何解释机器中的自然语言处理和大脑中的自然语言处理之间的关系。深度神经网络应用于 NLP 任务中获得了非常好的效果,这些深度神经网络模型似乎能够捕捉到人类语言中的一些特性,那幺它们捕获到的特性或者说模型提取出来的特征究竟是什幺?前期,一些研究人员针对 LSTMs 和 RNNs 等时序模型开展了一些工作,目的是评估神经网络如何传播信息、探索单词嵌入表征哪些信息以及通过检测特定语言信息的 NLP 任务来寻网络层中的表示等。关于 transformer 等非时序模型的类似研究则相对较少。

 

在这篇文章中,作者提出了一种解释神经网络的新方法, 即使用我们唯一能理解语言的处理系统——大脑——来解释神经网络 。事实上,根据神经科学的相关研究成果可知,大脑在处理语言时确实能够表征复杂的语言信息。因此,这篇文章考虑使用大脑活动记录作为这些表示的特征。通过将神经网络表示与大脑活动对齐,找到有效的完成 NLP 任务的网络层表示。

 

具体来讲,为了使神经网络中某一层次的表现能够与大脑活动相一致,这篇文章提出学习一个能够预测大脑每个区域的 fMRI 或 MEG 活动的模型,见图 1,图中显示了大脑相对于头部的视图。利用 [4] 中的方法,提取取得的先验知识(Prior),其中,组 1 中的区域(白色)处理与孤立单词和单词序列相关的信息,而组 2(红色)只处理与单词序列相关的信息。V 表示视觉皮层。

 

通过分类任务和显着性检验来确定模型预测大脑活动的区域:如果模型的一个层表示能够准确地预测一个大脑区域的活动,那幺就可以得出该层与该大脑区域共享信息的结论,从而可以根据对该大脑区域的先验知识推断出该层的适合的表示。

 

 

图 1. 本文提出的方法示意图。

 

1、对齐神经网络和大脑活动的实验分析

 

为了对齐神经网络和大脑活动,作者选择了四种神经网络模型:ELMO、BERT、USE 和 T-XL,以及两种记录和展示大脑活动的数据方式:功能磁共振成像(functional magnetic resonance imaging,fMRI)、脑磁图(magnetoencephalography,MEG)进行了大量的实验分析。

 

fMRI 对于由神经活动引起的血液中氧含量的变化非常敏感,它具有高的空间分辨率(2-3 毫米)和低的时间分辨率(多秒)。MEG 主要用于测量由于神经活动引起的颅骨外磁场的变化,它具有低空间分辨率(多厘米)和高时间分辨率(高达 1KHz)的特点。

 

对齐神经网络和大脑活动的任务描述如下:对于神经网络模型生成的表示 x_l,k,使用一个编码模型输入表示,完成与模型生成 x_l,k 时一样的阅读 k 个单词的任务,预测此时的大脑活动。给定函数 f,f(x_l,k)=y,y 是大脑活动的记录(fMRI 或 MEG)。作者将 f 定义为线性函数,附加岭回归正则化(Ridge Regression) 约束来提取 x_l 与 y 的关系。通过四次交叉验证训练模型,并通过嵌套交叉验证选择正则化参数。

 

在四次交叉验证设置中,作者通过在对保留数据的分类任务中使用每个编码模型来评估预测。分类任务是根据两组单词各自的特征表示来预测正在读取的是哪一组单词。这项任务是通过 fMRI 的 20 组连续单词取样(考虑到血流动力学反应的缓慢性)和 MEG 中的 20 组随机单词取样来完成的。作者对 fMRI 中的每个体素(voxel)和 MEG 中的每个传感器/时间点进行了多次分类,得到了最终的平均分类准确性评估。作者称这种将编码模型的预测与正确的大脑记录相匹配的准确性为「预测准确性」。

 

体素(voxel)是体积元素 (volumepixel) 的简称,是指三维空间中值的体积元素(体积和像素),也是数字数据在三维空间中的最小单位。在 fMRI 中,磁共振成像的 MRI 像素强度与相应体素的信号强度成正比。

 

这个实验也佐证了其它一些与脑科学和 NLP 相关的观点。由于 MEG 信号比单词表征的呈现速度快,因此与较慢的、无法对应到单个单词的 fMRI 相比,MEG 的记录更适合研究词词嵌入的组成(我们知道,从文本语料库中学习到的单词嵌入可能包含与单词的字母数和词性有关的信息)。一个单词的词性和它的ELMo嵌入能够预测在单词出现后大约 200 毫秒左右 MEG 传感器左前方大脑活动的共享部分。事实上,从电生理学研究可以得知,在额叶单词出现后 200 毫秒左右,部分言语的刺激才会引起反应。

 

解读上下文长语境表征

 

NLP 关注的一个问题是模型是否能够将上下文的长语境集成到其表示中。作者通过比较用两种表示训练的编码模型的性能来研究所考虑的四种 NLP 模型是否能够创建文本序列的集成表示:任务(一)与受试者所显示的最新的单个单词标记相对应的标记级单词嵌入(word-embedding);任务(二)10 个单词的表示对应最近的 10 个单词(10-word representation),因此属于上下文有关。图 2 中给出了四个模型的定性比较,其中 8 个受试者中的每一个只包含最显着预测的体素,错误发现率控制在 0.05 水平。

 

 

图 2. 各模型两种网络表示的预测性能比较。

 

图 3 给出了不同模型针对 1b 组区域和 2 组区域预测差异的定量分析。我们观察了所有模型中单词嵌入性能的相似性,这些模型都预测了左、右 1b 组区域和一定程度上 1a 组区域的大脑活动。其中,ELMo、BERT 和 T-XL 长上下文长语境表示能够预测 1 组区域和 2 组区域的子集。 上下文长语境表示(几乎没有蓝色体素)也能够预测利用词嵌入预测到的绝大部分内容 。由此,作者得出了结论:上下文长语境表示最有可能包括关于长语境上下文文本信息和最近的词嵌入信息。另外,图 2 的实验还表明,右上角的 USE 上下文长语境表示可以预测 2 组区域中更小的子集中的活动。USE 的低性能可能是由其以粗糙方式构词的深度平均操作所引起的:它的上下文长语境表示只包括长期的信息。

 

 

图 3. 每种基于网络的方法都能很好地预测 1b 组区域和 2 组区域的数量。

 

神经网络图层深度与上下文长度的关系

 

图 4 给出ELMo、BERT 和 T-XL 在不同的图层上的变化情况。在所有的网络中,中间层对于超过 15 个单词的上下文表现最好。此外,所有网络中最深层的层在长度较短的上下文(少于 10 个单词)中性能都急剧提高。只有一个例外:T-XL 是唯一一个能够随着上下文长度增加而仍然持续提高性能的模型,这与之前的研究结论是吻合的(通常认为 T-XL 能够比 transformer 更好地表征较长的文本信息)。

 

 

图 4. 当提供给网络的上下文数量增加时,ELMo、BERT 和 T-XL 中所有隐藏层的编码模型的性能比较。

 

由图 4 中的实验,作者发现 BERT 中的第 1 层与其他两个神经网络模型中的第一层的行为不同。作者在图 5 中给出了关于 BERT 从第 1 层到其它层的编码模型的性能变化,在这种实验场景下,以第 1 层的性能为基准考虑其它层的性能,BERT 的变化规律与图 3 中 T-XL 的变化规律一致。随着上下文长度变化,在 BERT 第 1 层中几乎没有产生性能变化。这表明,第 1 层以一种限制在该层中保留较长上下文信息的方式组合,来引入 token 级的嵌入信息。

 

 

图 5. BERT 从第一层到其它层的编码模型的性能变化。

 

注意机制对图层表示的影响

 

作者进一步通过实验分析了注意机制在模型的不同层中的影响。在这篇文章中,作者使用对前一层表示的统一注意机制代替学习注意机制。对于 BERT 来说,注意力方程为:

 

 

替换掉预训练的矩阵 Wi.^Q、Wi.^K 和 Wi.^V,改为统一注意 Attn(Q,K,V),从而保证在值矩阵 V 中的值上具有相等的概率,一次只改变一个层,同时保持预训练的 BERT 的所有其他参数不变。由图 6 的实验,注意机制的变化会影响深层次(但不是输出层)的性能。然而,出乎意料的是,使用统一注意机制后,浅层性能的改进最多只能针对上下文长度为 25 个单词的情况。

 

 

图 6. BERT 第 1 层使用统一注意机制时编码模型性能的变化。

 

2、从大脑解释的角度改进 NLP

 

通过前面的对齐实验可知,在预测大脑活动时,采用统一注意机制能够改进基本 BERT 模型的前半部分的层的效果,接下来,作者测试改变 NLP 任务会如何影响 BERT 预测语言的能力。

 

实验中的任务描述如下:首先向 BERT 输入一个完整的句子,屏蔽掉单焦点动词(例如,[CLS]the game that the guard [mask] bad.),然后使用预先训练好的语言模型头完成对屏蔽位置的预测,最后通过比较原正确动词(如 is)和错误动词(如被错误预测的动词,如 are)的得分来计算预测准确度。将注意机制集中在第 1 层到第 6 层的基本 BERT 中,一次一层,其余参数与上一实验中相同,并对 13 个任务进行评估(具体任务见表 1)。表 1 中给出了改变层 1、2 和 6 的结果。在 13 个任务中的 8 个任务中,修改后的模型明显优于预先训练的模型(「base」),在其余 5 个任务中的 4 个任务效果类似。

 

 

表 1. 改变模型的注意机制对不同句型主谓一致性的表现。

 

3、文章讨论

 

本文提出了一种利用阅读自然文本的受试者的大脑活动记录来对比和解释不同神经网络模型生成的表示的方法。包括:

 

使用 MEG 数据证明了ELMo(非上下文的)的单词嵌入中包含了关于单词长度和词性的信息;

 

使用 fMRI 数据证明了不同模型(ELMo,USE,BERT,T-XL)得到的表示包含了以不同的上下文长度编码与语言处理相关的信息;

 

USE 生成的长语境上下文表示与其他模型的表示特点不同,其表示中不包括任何短语境的上下文文本信息;

 

基于 transformer 的模型(BERT 和 T-XL)在中间层捕获与大脑最相关的上下文信息;

 

T-XL 结合了递归属性和 transformer 属性,与纯递归模型(例如ELMo)或 transformer(例如 BERT)不同,在上下文语境很长的情况下,性能也不会降低。

 

本文实验结果也表明,与使用学习注意机制相比,使用统一注意机制能够改善浅层(1-6 层)的大脑预测效果。基于这一实验结果,本文使用语法 NLP 任务,测试被改变的 BERT 的表示如何影响 BERT 预测语言的能力。可以看到改进的 BERT 在大多数任务中表现得更好。本文的这些实验给出了这样一个可能: 如何改变 NLP 模型以更好地与人类处理语言的大脑记录相一致,有可能能够使得 NLP 模型更好地理解语言 。

 

二、Inducing brain-relevant bias in natural language processing models

 

论文链接:https://arxiv.org/pdf/1911.03268.pdf

 

这篇文章的主要研究内容是,研究人员在用神经成像设备(fMRI、MEG 或 EEG)记录大脑活动的同时,向受试者呈现语言刺激(stimuli)(例如逐字阅读一本书的一章或听一个故事),使用从 NLP 模型中提取的对应文本的表示来模拟所记录的大脑活动。如果可以通过显式地训练 NLP 模型来预测语言诱发的脑记录,就能向 NLP 模型中引入与大脑相关的语言表示,从而进一步改进 NLP 模型。本文以 BERT 为基础,基于多个受试者和多个大脑活动记录模式同时微调,以找到能够高度概括人脑和记录类型的表示。

 

在这篇文章之前,已经有一些研究人员开展了关于语言相关脑活动和 NLP 模型之间的关系研究。主要研究的方向是利用 NLP 模型提取单词、句子或文本的向量(嵌入)表示,之后将这些向量(嵌入)与脑活动的 fMRI 或 MEG 记录相对应。然而,很少有研究人员尝试使用大脑活动来修改 NLP 模型提取的(嵌入)表示。

 

这篇文章给出的研究结果显示,经过微调的 BERT 可以提高对脑活动的预测能力,此外,MEG 和 fMRI 中学习到的微调表征比从单纯 fMRI 中学习到的表征更适合预测 fMRI,这表明从 MEG 和 fMRI 中学习到的表征能够有效捕获与大脑活动相关的信息,而不仅仅是模态的伪影,因此,是更为有意义的研究神经科学的图像。

 

1、本文使用的 BERT 模型框架

 

在这篇文章的实验中,作者使用了受试者阅读《哈利波特与魔法石》其中一个章节时记录的 MEG 和 fMRI 数据。在两次实验中,这一章节的内容都是以一次一个单词的频率呈现,每个单词出现在屏幕上 0.5 秒,总共有 5176 个 单词。

 

作者使用 Devlin, J. 2018[1] 中的 BERT 框架,其中,每个层首先应用自注意机制(将在几个潜在方面彼此最相似的嵌入组合在一起)对其输入嵌入进行应用转换。然后对这些组合的嵌入进行进一步转换,为下一个层生成新的特征。使用 Hugging Face 提供的 PyTorch 版本的预训练 BERT。该模型包括 12 个层次,并在 BooksCorpus 和 Wikipedia 上进行训练,以预测文本中的屏蔽词,并对两个词序列在文本中是否连续进行分类。

 

在 BERT 框架中,每个输入序列都附加了两个特殊的令牌(token),其中,[SEP] 用于标记序列的结束,[CLS] 被训练为使用连续序列分类任务的输入的序列级表示。向微调 BERT 添加一个简单的线性层,将输出嵌入从基本架构映射到感兴趣的预测任务。通过添加这一线性层,模型实现了端到端的微调,即在微调过程中模型的所有参数都会发生变化。在这篇文章的实验中,作者除使用基本模型的输出层外,还将每个单词的单词长度和上下文无关的日志概率连接到这个输出层,具体见图 7。

 

 

图 7. 使用 fMRI 和/或 MEG 数据微调 BERT 的框架。

 

首先,修改预训练的 BERT 模型,以更好地捕获与大脑相关的语言信息。实验通过训练模型来预测 fMRI 数据和 MEG 数据,受试者阅读同一本小说的一章,将每个数据记录下来(在不同的时间,来自不同的受试者)。fMRI 记录血液氧合水平依赖性(BOLD)反应,即大脑某一特定区域的相对含氧量,这是大脑该区域神经元活动程度的函数。然而,BOLD 的反应在一个区域的神经元激活后 5 到 8 秒达到峰值。由于存在延迟,这就要求预测大脑活动的模型能够在 fMRI 图像被捕获的时间点之前访问单词。因此,使用 20 个单词(涵盖 10 秒的时间)作为模型的输入,而不考虑句子边界。

 

与 fMRI 记录相比,MEG 记录具有更高的时间分辨率。每一个单词,都能够收集来自 306 个传感器的 20 个时间点。在使用 MEG 数据的实验中,该模型对每个单词的 6120(306×20)个值进行预测。此外,实验只对内容词模型进行训练和评价(内容词包括形容词、副词、助动词、名词、代词、专有名词或动词)。如果 BERT 标记器将一个单词分解成多个标记,我们添加 MEG 数据作为该单词的第一个标记。将 MEG 数据与 fMRI 示例中的所有内容词(即每个 fMRI 图像之前的 20 个词的内容词)对齐。

 

作者分四次记录每个受试者的 fMRI 数据,使用与 fMRI 相同的章节划分,记录四次 MEG 数据。通过 fMRI 测试进行交叉验证,即对于每一次 fMRI 运行,使用其他三次运行的示例来训练模型,并使用第四次运行来评估模型。

 

最后,还需要对 fMRI 和 MEG 数据进行预处理。去除掉每次运行中的前 20 个和最后 15 个 fMRI 图像,以避免预热和边界效应。此外,与这些被排除掉的数据相关联的词也不用于 MEG 预测。对运行中的 fMRI 数据进行线性去趋势化处理,并对运行中的数据进行标准化处理,使每个体素(voxel)的方差为 1,每个体素的平均值为 0。MEG 数据也在 fMRI 运行中(即在交叉验证折叠中)被去渲染和标准化处理,以便每次传感器组件在运行中的所有内容词上具有平均值 0 和方差 1。

 

2、实验情况分析

 

模型

 

为了对本文研究的内容进行充分的实验验证,作者使用了多个微调的 BERT 模型:

 

【Vanilla 模型】基线 BERT 模型,对于每个受试者,在预训练的 BERT 模型中添加一个线性层,并训练该线性层从嵌入的 [CLS] 标记映射到受试者的 fMRI 数据。在训练过程中,冻结预训练的模型参数,从而保证嵌入不会发生变化。根据不同实验中进行对比模型的不同,Vanilla 模型可以训练 10、20 或 30 个阶段。

 

【Participant-transfer 模型】为了研究文本和通过微调 BERT 模型学习到的大脑活动之间的关系是否在受试者之间普遍存在,首先根据最具有可预测大脑活动的受试者对模型进行微调。在这个微调过程中,只训练线性层 2 个阶段,之后再训练整个模型 18 个阶段,然后,固定模型的全部参数。对于其他受试者,针对其当前实验环境下的第一个受试者训练一个线性层。这些线性模型只训练了 10 个阶段,因此,会与 Vanilla 模型训练 10 个阶段的结果进行对比。

 

【Fine-tuned 模型】为了验证一个经过微调的模型是否能够预测每个受试者的数据,在 Vanilla 模型线性映射的基础上,对每个受试者的模型进行了微调。只对这些模型的线性层进行 10 个阶段的训练,然后对整个模型进行 20 个阶段的训练。

 

【MEG-transfer 模型】使用这个模型来研究文本和大脑活动之间的关系是否能够通过一个精确调整了 MEG 数据传输到 fMRI 数据的模型所学习到。首先,对 BERT 进行微调,训练它预测所有 8 个 MEG 受试者的数据(联合)。在 MEG 训练中,只训练线性输出层 10 个阶段,然后进行 20 个阶段的全模型训练。然后,采用 MEG 微调模型并训练它来预测每个 fMRI 受试者的数据。该训练还使用了 10 个阶段,仅训练线性输出层,然后是 20 个阶段的完全微调。

 

【Fully joint 模型】训练一个模型同时预测所有 MEG 受试者和 fMRI 受试者的数据。只训练 10 个阶段的线性输出层,然后训练 50 个阶段的完整模型。

 

实验结果

 

图 8 给出了使用不同的微调模型的实验对比结果,其中每个子图给出两个模型的对比试验。图中 x 轴坐标表示不同的体素类型,在 20 VS 20 测试中,以两种模型的最大准确度降序排列。彩色线(每个受试者一条)显示了两个模型的平均准确度之间的差异,其中,对每个 x 坐标左侧的所有体素求取平均值。图 8(a)-(c) 中的阴影区域给出超过 100 个模型初始化的标准偏差—在(d)中给出的框架中,无法进行这种计算。黑色线是所有受试者的平均值。在图 8(a)、(c) 和 (d) 中,很明显,对于大量体素,微调模型在预测体素活跃度方面比标准 Vanilla 模型更准确。在图 8(c) 中,MEG-transfer 模型的准确度与仅对 fMRI 数据进行微调的 fine-tuned 模型大致相同。

 

由图 8 的实验我们可以得到以下几个结论:(a)与 Vanilla 模型相比,使用 Fine-tuned 的语言模型能够更好的预测大脑活动;(b)对于一些受试者,与不包含 MEG 记录的情况相比,引入 MEG 记录能够略微提高预测准确度,而对于其他受试者来说,基于 MEG 记录训练的效果更差或是不存在明显改变;(c)与 Vanilla 模型相比,Participant-transfer 模型能够更准确地预测体素,这表明 Participant-transfer 模型确实能够获得迁移学习的好处;(d)在选择合适的超参的情况下,Fully joint 模型可以表现得和基线 Vanilla 模型一样好或更好。

 

 

图 8. 不同模型的实验结果比对。

 

其次,作者在 GLUE基准上运行了两个模型(MEG-transfer 模型和 Fully-joint 模型),并将结果与标准 BERT 进行了比较,见表 2。这些微调可能有助于完成 NLP 任务,也可能对模型原有的效果没有什幺影响,但并不会降低原有的 NLP 任务完成性能。

 

 

表 2. GLUE基准实验结果。

 

为了理解当对 BERT 进行微调以预测大脑活动时,BERT 中的表示是如何变化的,作者最后研究了示例中各种特征的普遍性。通过观察预测和目标之间的欧式距离的百分比变化,来计算微调后每个示例的预测准确度变化的程度,该百分比变化是根据空间位置手动选择的一组可能与语言相关的体素计算得到的,如图 9 所示。从左到右是人脑左右半球的充气侧视图,以及左右半球的充气内侧视图。体素是根据大脑中的空间位置手动选择的,目的是将计算限制在更可能涉及语言处理的人脑区域中。

 

 

图 9. 用于计算特征分布分析中 Fine-tuned 模型和 Vanilla 模型之间准确度变化的体素。

 

作者在实验中评估了所有可用的特征,但只给出了运动标签、情感标签和部分语音标签,因为其他特征要幺太稀疏、无法评估,要幺在分布上没有任何变化,评估结果见图 10。实验发现,在微调过程中准确度发生变化的样本中,包含描述动作和命令式语言的动词的示例更为普遍。

 

 

 

 

图 10. 在语言区域预测准确度方面变化最大和最小的例子中,运动(Motion)、情感(Emotion)、部分语音(Part of speech)相关标签的普遍性。

 

图 11 显示了 Fine-tuned 模型和标准 Vanilla 模型的预测在大脑中的不同之处,该实验有效证明了 Fine-tuned 模型可以更好地预测大脑中与语言处理相关的区域。每一列为一个受试者大脑左半球的充气侧视图。从上往下第一到第三行,Model1 和 Model2 分别代表 Vanilla 模型和 fine-tuned 模型、Vanilla 模型和 participant-transfer 模型、Fine-tuned 模型和 MEG-transfer 模型。灰色背景的列表示 fMRI 和 MEG 实验中相同的部分。根据相关样本 t 检验,仅显示两个模型之间显着不同的体素,并使用 Benjamini–Hochberg 程序在 0.01 水平上校正错误发现率 [2]。为每个受试者设置单独的颜色映射,并且所示的比较使得最红的值在显着差异的绝对值的 95% 处,而最蓝的值在该最红的值的负值处。Fine-tuned 模型和 participant-transfer 模型都优于 Vanilla 模型,特别在被认为是与语言有关系的大脑区域中。

 

作为参考,图 11 第四行给出了每个受试者语言网络的近似结果。尽管第三行的差异要比前两行小得多,但是仍然可以看到,在训练过程中引入 MEG 数据能够改进模型性能。

 

 

图 11. 9 名受试者在体素水平上 20 和 20 分类任务的准确性比较。

 

3、文章讨论

 

对 NLP 模型进行微调来预测大脑活动是学习人类语言处理的一个新的研究方向。本文所研究的技术是将预测任务的目标信息编码到模型参数中,从而改进 NLP 模型,而改进后的 NLP 模型适用于不同大小、不同时空分辨率的预测任务。此外,这种技术还能够有效利用大规模的数据集(fMRI、MEG)来辅助人类语言处理的学习。当然,就这一问题的研究还有漫长的道路,目前还不能够准确掌握如何优化模型以有效利用大脑中针对语言的多种信息来源,以及如何能够有效训练大脑活动低信噪比数据等等。尽管如此,这项研究证明了通过对语言模型进行微调来学习文本和大脑活动之间关系的可行性。作者相信,这为那些对人类语言处理过程有兴趣的研究人员提供了一个新的、有趣的、让人兴奋的方向。

 

三、Linking artificial and human neural representations of language

 

论文链接:https://arxiv.org/pdf/1910.01244.pdf

 

最后,我们来看看 Roger P. Levy 教授组给出的研究成果,即哪些 BERT 得到的信息是是在人类大脑中最有效的表达。这篇文章在广度上扩展了神经网络脑解码的研究,研究了一类适用于广泛的不同任务的优化模型。在深度上,则是深入探讨了每种模型对其脑解码性能的具体表征内容。

 

文章评估了人类大脑活动和应用于不同自然语言理解(Natural Language Understanding,NLU)任务神经网络模型之间的联系。作者发现,这些模型是针对不同的 NLU 任务设计的,它们匹配了不同的人类大脑激活方式。进一步的,对这些模型表征内容的变化进行分析,作者发现模型语法表征的粒度至少能够部分地反映它们在大脑解码过程中的差异。

 

1、方法简介

 

图 12 给出了这篇文章实验的总体结构,该实验尝试将人类神经成像数据与句子输入的不同候选模型表示相匹配。利用一个记录人类大脑活动的数据来完成句子,即学习一个线性回归模型,该模型从人类大脑活动映射到由不同的自然语言理解模型产生的相同句子的表征。

 

 

图 12. 大脑解码方法。

 

考虑一个任务 T 的神经网络分类模型,将输入语句 x映射到类别输出 y。将这个神经网络分类器分解成两个操作的组合,一个是表征函数 r(x),另一个是映射操作符 A:

 

 

其中,r(x) 对于不同的任务 T 是线性可分的。在语言神经科学和其他领域,fMRI 是否线性可分目前还不可知。一种可能性是,描述语言理解行为所必需的区别是可以从 fMRI 数据中提前解码得到的。如果是这样的话,可以利用大脑解码的表现来衡量人类语言理解背后的心理表征与人工神经网络模型中部署的心理表征之间的相似性。

 

另一种相反的可能性是,如果大脑中支持语言理解的表征不是 fMRI 所能线性解码的,那幺可以证明这样一种事实,即句子表征模型的具体化不会降低大脑的解码性能。由此,本文所探讨大脑解码框架可以做到:(1) 区分 NLU 任务作为人类语言理解的表征,(2) 理解 fMRI 成像和线性解码方法的潜在局限性。

 

模型构建

 

与前两篇文章的实验组织类似,令受试者读句子,使用 fMRI 记录受试者的大脑活动。对于每个受试者和每个句子,fMRI 图像由一个约 20 万维的向量组成,这个向量描述了大脑中被称为体素的三维小块区域内的近似神经活动。在单个矩阵中收集这些向量,并利用 PCA 将它们压缩到 256 维。使用 BERT 作为提取句子表征的模型:使用一系列多注意操作来计算输入语句中每个标记的上下文敏感性表示。

 

该模型基于两个任务完成预训练:(1) 一个完形填空语言建模任务,其中给模型一个完整的句子,包含几个屏蔽的单词,预测这些屏蔽单词。(2)下一个句子预测任务,输入两个句子,要求模型预测这些句子在原始语言模型数据中是否为相邻语句。这篇文章使用的也是文献 [1] 中的 BERT 结构,并进行了一系列微调。具体微调操作包括:

 

针对几个 NLU 任务对预训练的 BERT 模型进行微调,如表 3 所示:

 

表 3. 用于微调 BERT 的 NLU 任务

 

 

自定义微调任务:每个任务都是标准完形填空语言建模任务的修改变化形式,通过这些修改突出选择语言表示的某个特定方面。

 

置乱语言建模:设计两个语言建模任务来针对输入的细粒度语法表示进行选择,从用于语言建模的语料库样本中置乱单词,以删除关于句法结构的一阶线索。第一个任务 LM-scrambled,在句子中打乱单词;第二个任务,LM-scrambled-para,在段落中打乱单词。通过这种输入置乱处理,可以有效地将完形填空任务转换成一组单词的语言文字处理任务。

 

词性语言建模:LM-pos 针对输入的细粒度语义表示进行选择,通过要求一个模型只预测一个屏蔽的单词的语音部分,而不是这个单词本身来完成该任务。

 

语言建模控制:作为对照,我们还继续使用来自 Books Corpus 的文本,对原始 BERT 建模目标进行再次训练。

 

本文还选择了GloVe作为 BERT 的基线对比算法,与 BERT 不同,GloVe提取的词向量对句子上下文很敏感。

 

大脑解码

 

大脑解码器是从对人脑活动的描述到对句子的反应的模型激活的回归模型映射。令 B 表示受试者对评价集中的 384 个句子的大脑反应,G 表示映射,C 表示微调模型的输出表示,β为正则化参数,则有大脑解码函数为在两个空间之间使正则化回归损失最小化的目标函数如下:

 

 

对于每个受试者的大脑图像集合和每个目标模型表示,使用嵌套的 8-fold交叉验证对上述回归模型进行训练和评估。

 

2、实验情况分析

 

首先,图 13 给出所有测试的 BERT 和GloVe模型的性能。相对于 BERT 基线,在两种评价指标下,微调模型完成脑部解码任务的错误都会增多,以及,对 LM-scrambled-para 自定义任务的微调减少了大脑解码的错误。对控制语言建模任务和 LM-pos 自定义任务进行微调,两个评价指标会产生不一致的结果:MSE 降低,但 AR 没有明显变化。

 

 

图 13. 微调 BERT 模型和GloVe基线的脑解码性能。

 

然后,作者对表示进行相似度分析,使用粗粒度模型分析相似度 [3],通过测量模型的成对距离,判断其内容对齐的程度。对于每个任务 j 的每个微调运行第 l 次,计算 C_jl 中每对句子表示行之间的成对余弦相似度,得到向量 D_jl。通过计算 Spearman 相关系数ρ(D_jl,D_j’l’),可以测量从一次运行(j,l)和另外一次运行(j’,l’)得出的表示之间的相似性。图 14 给出相似度值的热点图,其中每个单元为两个相应模型的不同次运行结果的平均值。

 

作者由这个实验得到了下面的结论:(1)语言建模微调运行(尤其是两个 LM 置乱的微调)是唯一在彼此之间具有可靠的高相关性的模型;(2)针对同一个任务,语言建模微调多次运行所产生的表示能够得到类似的句子-句子距离预测,而其余模型在运行之间的连贯性较差(请参见对角线矩阵);(3)置乱 LM 微调能够产生在各个运行过程中均稳定的句子表示,以及改进大脑解码任务性能。

 

 

图 14. 每个模型产生的句子编码的表示相似性(在-1 和 1 之间;越高则越相似)。

 

最后,文章给出了关于句法探测任务的实验,该实验测量单词表示可以重现句子的句法分析的程度。图 15 给出了不同微调模型以及基线GloVe完成该任务的结果。结果表明,针对 LM-scrambled 和 LM-scrambled-para 进行优化的模型(可以提高大脑解码性能的模型)在微调过程中效果逐渐变差。当然,其性能仍远高于GloVe基线的性能。图 16 给出一个具有代表性的示例语句,其中包含从 LM-scrambled(经过 250 个微调步骤)和GloVe基线所得到的具有语法分析的代表性例句。在对置乱(scrambled)语言建模任务进行训练时,会舍弃基线 BERT 模型所得到的表示中的很多(但不是全部)语法信息。令人惊讶的是,这篇文章的实验推断,舍弃部分语法信息似乎可以改善大脑解码的性能。

 

 

图 15. 跨微调时间的句法探测评估。

 

 

图 16. 带有无向句法探测的示例语句解析,由 LM-scrambled 得到的表示(蓝色)和由GloVe得到的表示(红色)生成的语句,其中,实线表示正确的相关性预测、虚线表示错误预测。

 

3、文章讨论

 

本文作者认为,实验中测试的句子编码任务均未在脑部解码性能上产生显着提高。通过进一步的任务设计和表示分析,作者发现产生语法轻表示的任务(去除掉基线 BERT 表示中的部分与发信息)可显着改善脑部解码性能。本文的结果表明 NLU 模型的空间可以很好地解释人类神经对语言的表达,但同时也表明了 fMRI 人类神经影像学识别细粒度语法信息的能力是有限的。

 

四、本文小结

 

这篇文章我们聚焦了一个基础研究问题: 理解机器中的自然语言处理和大脑中的自然语言处理之间的关系 。因为大脑神经图像的空间和时序性,NLP 模型已经不少被应用到大脑活动分析预测上。另一方面,在机器学习理论领域,目前也有大量的神经网络结构设计、参数调整,或是对 BERT 微调、引入上下文信息,再或是使用专门的数据库训练模型等以尝试和纠错的方法来改进自然语言处理的效果。这篇文章介绍的基础研究问题希望:1. 能理解 NLP 模型黑盒里面的原理,即是否能从 NLP 模型可以提取或者运用一些表征,这些表征能够具有跟人类的大脑工作和分析的记录一样的特性,进而使得 NLP 模型能够真的像人脑一样工作?2. 反过来,能否改进 NLP 的一些参数甚至结构,能使它们更好的做脑活动的预测(甚至自然语言的预测?)

 

前文提到的 3 篇论文从不同的结论分析了这个问题。其中第 2 和第 3 篇角度有些类似,但最后的输出活动不一样。从我们选择的三篇论文给出的结论可以看到,目前关于 NLP 模型与人类大脑记录匹配的工作已经取得了一定的进展,通过这种对齐、匹配处理,有效利用了 fMRI、MEG 等似乎可以辅助改进 BERT 在大脑活动预测的能力,同时也表明已有的 NLP、NLU 模型的空间可以部分解释人类神经对语言的表达:其中第 1 和第 2 篇从两个角度给出了比较正面的结果。但相对来说第 3 篇的结论比较负面。说明这一问题的研究还有漫长的道路,这几篇文章中的实验都是比较简单和直观的,目前还不能够准确掌握如何优化模型以有效利用大脑中针对语言的多种信息来源,以及如何能够有效训练大脑活动低信噪比数据等等。

 

作者们也并没有针对 机器中的自然语言处理和大脑中的自然语言处理之间的关系给出根本性的理论分析 ,只是通过实验的方式展示了二者之间可能的联系。但是,这种基础研究使我们看到了在切实的理论指导下改进网络和系统、摆脱黑盒实验的可能,毕竟,用电脑堆叠电脑的方式永远不可能比人脑堆叠人脑的方式更加有效。

 

分析师介绍: 仵冀颖,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。 主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。

 

本文引用的参考文献:

 

[1] Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

 

[2] Benjamini, Y. and Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal statistical society: series B (Methodological), 57(1), 289–300. 

 

[3] Nikolaus Kriegeskorte, Marieke Mur, and Peter A Ban dettini. 2008. Representational similarity analysis connecting the branches of systems neuroscience. Frontiers in systems neuroscience, 2:4.

 

[4] Lerner, Y., Honey, C. J., Silbert, L. J., and Hasson, U. (2011). Topographic mapping of a hierarchy of temporal receptive windows using a narrated story. The Journal of Neuroscience, 31(8), 2906–2915.

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注