Press "Enter" to skip to content

中文BERT上分新技巧,多粒度信息来帮忙

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

文 |

 

自然语言处理实在是太难啦!中文尤其难!

 

相比于英文, 中文是以词作为语义的基本单位的 ,因此传统的中文 NLP 都需要先进行分词。分词这步就劝退了很多人,比如“研究生活很充实”,怎幺让模型分出“研究|生活”,而不是“研究生”呢?

 

随着预训练模型的到来,中文模型通常直接用字作为输入。甚至 19 年的一篇 ACL[1] 给出结论:基于“字”的模型要好于基于“词”的模型。但是,中文是以词作为语义的基本单位的呀,忽略这种粗粒度的信息,真的合理吗?

 

今天这篇发表在 NAACL 2021 的文章就让 BERT 在预训练中 学到了字和词的信息 ,在自然语言理解的多个任务上,相对字级别的模型取得了性能提升,轻松摘得 SOTA。以后做中文任务想要刷分,可以直接拿来换掉自己的 BERT。

 

这篇文章为了让 BERT 学到字和词的信息,解决了三个问题:

 

 

怎幺将字和词的信息融合,送入 BERT?

 

字和词有重叠,位置编码怎幺设计?

 

在 MLM 任务上,怎幺才能同时将字和词的信息都 mask 掉?

 

 

下面就来看看这篇文章的解决办法吧~

 

论文题目:

 

Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models

 

论文链接:

 

http://arxiv-download.xixiaoyao.cn/pdf/2104.07204v1.pdf

 

代码地址:

 

https://github.com/alibaba/AliceMind/tree/main/LatticeBERT

 

方法

 

词格输入

 

为了解决问题 1,本文是将词格(word lattice)输入 BERT。

 

中文的词格图(lattice graph)是一个有向无环图,包含了句子里字和词的所有信息。以“研究生活很充实”这句话为例,词格如下图所示:

读到这里可能会有人疑惑了:BERT 只能处理序列呀?这样的有向无环图该怎幺被 BERT 处理呢?简单!这篇文章直接将词格图中各粒度的信息“拍平”,得到一个线性序列,作为 BERT 的输入。其中的每一项无论是字还是词,我们都称为 token:

词格注意力机制

 

“拍平”词格的输入,就会造成不可避免的重复和冗余,那幺对于位置编码,该怎幺适应呢?另外,在“拍平”之后,原先二维的复杂图结构信息就会有所损失,怎样避免图结构的损失呢?为了解决问题 2,这篇文章又设计了新的词格注意力机制。

 

对于字级别的 BERT,计算 attention map 可以表达为两个字向量的内积:

 

其中分别是第和个字在第层的表示。字级别 BERT 中,位置编码是在输入时,直接加到字的表示中的:

 

然而,很多工作 [2] 表明,这种在输入中混合位置编码的方式比较粗糙。在计算 attention map 时,将位置编码与字的表示解耦,专门设计一个位置编码的函数,会是一个更好的选择:

 

这里就是关于两个字的位置编码的函数。本文也采取了这一类方法。具体地,attention map 可以通过四项相加的方式得到:

 

第一项是字的表示得到的 attention score,后面三项都是与位置编码相关的,下面我就来一一介绍~

 

 

绝对位置编码

 

 

绝对位置编码表示了 token 在句子中的位置。式子里的表示当前输入 token 的开始位置,表示结束的位置。这个式子就表示将 token 的起始位置的绝对位置编码拼接,进行 attention 操作。

 

这一项可以说是对原始 BERT 中的位置编码的复刻,并适应了词格的输入。因为词格输入的每一项长度是不固定的,引入头尾位置也是自然的想法。

 

然而,绝对位置编码是有缺陷的:在理论上,我们对绝对位置编码的限制只有一点,即不同位置的编码不同。但这样就忽略了很多信息,比如,位置 1 和 2 的距离与位置 5 和 6 的距离应该一样,位置 1 和 3 的距离比位置 4 和 10 的距离要小,等等。在绝对位置编码的设计里,我们只能让 BERT 隐式地“学习”。

 

 

相对位置编码

 

 

因此,这篇文章也引入了相对位置编码,来表示 token 之间的相对距离。式子右边每一项都代表两个 token的起始位置之间的相对距离,例如,表示两个 token 的起始位置之间的相对距离的表示。引入了相对位置编码,模型就可以建模更长的文本。

 

 

层叠关系编码

 

 

表示两个 token 之间的层叠关系。根据这两个 token 起始相对位置的不同,两个 token 可以分成下列七种关系:

具体来说,这七种关系为:

 

 

自身

 

在左边,且无重叠

 

在左边,且有重叠

 

包含关系

 

被包含关系

 

在右边,且有重叠

 

在右边,且无重叠

 

 

将 token 之间的关系分成以上七种,就可以显式地表示词格图中的复杂的二维关系。之前“拍平”词格图时削弱的信息,在这里又找回来了。

 

预训练任务:整段预测

 

最后一个问题:原来的 MLM 任务在词格输入的形式上,似乎并不适用。

 

还是用“研究生活很充实”来举个例子。这句话的词格输入将是这样:

 

研 究 生 活 研究 研究生 生活 很 充 实 充实

 

词格的输入带来了冗余,在 MLM 任务中,我们随机 mask 掉一些 token,是希望通过其上下文预测这些 token。但是在词格输入里,比如我们随机 mask 掉了“研究”,但是模型会直接通过前面的“研”“究”和后面的“研究生”来预测这个 mask token,这样走捷径,最终一定得不到好结果。

 

于是,这篇文章设计了整段预测任务(masked segment prediction):在词格图中,一句话将被切成多个段(segment),每个段之间不会有重叠的 token,同时也要使段的长度最小。“研究生活很充实”这句话就可以切成下图的三段:

在整段预测任务中,直接 mask 掉一段里的所有 token,并预测这些 token。这样就可以避免输入的冗余让模型“作弊”。

 

实验

 

这篇文章使用句子里所有可能的词来构建词格图,这样尽管会带来错误的分词,但是让模型自己学习降噪,还能提升模型的鲁棒性。

 

这篇文章在 11 个任务上进行了实验,11 个任务包括:

 

6 个文本分类任务:长文本分类、短文本分类、关键词提取、指代消解、自然语言推断和文本匹配;

 

2 个序列标注任务:分词和命名实体识别;

 

3 个问答任务:机器阅读理解(答案段选取)、选择题、完形填空。

 

总体性能如下图所示:

其中,RoBERTa 是哈工大的 roberta-base-wwm-ext;NEZHA 是最好的字级别中文预训练模型,来自华为诺亚方舟研究院;AMBERT 是曾经多粒度中文预训练模型的 SOTA,是字节跳动李航组的工作;BERT-word 是使用词作为输入的 BERT;LBERT 是本文的方法;BERT-our 是本文使用相同语料重新预训练的 BERT。

 

可以发现,LBERT 优于所有字级别的预训练模型,并在 7/11 个任务上取得 SOTA。

 

LBERT 在哪里强于字级别的 BERT 呢?作者对预测结果进行分析,得到如下结论:

 

在短文本分类任务上,LBERT 在更短的样本上有更大的性能提升,作者认为,词格输入的冗余信息为短文本提供了更丰富的语义信息;

 

在关键词提取任务上,LBERT 在词级别的关键词上性能提升更高,作者认为 LBERT 从词格输入中,理解了关键词的语义;

 

在命名实体识别任务上,LBERT 在重叠实体的样本上减少了 25% 的错误,这是词格输入带来的天然优势;

 

LBERT 是怎幺运用多粒度的信息呢?作者对注意力分数进行了可视化,还用“研究生活很充实”这句话为例:

图中的三行分别为:

 

在预训练结束后,模型会关注句子的各个部分;

 

在命名实体识别任务上 fine-tune 之后,模型更关注“研究”“生活”“很”“充实”,这与正确的分词结果是一致的,对命名实体识别任务也是非常关键;错误分词的“研究生”就没有得到注意力;

 

在文本分类任务上 fine-tune 之后,模型更关注“研究生”“生活”“充实”,尽管这些词不能在一套分词中同时存在,但是对分类都是有用的。

 

总结

 

这篇文章解决了三个问题:

 

 

怎幺输入?使用词格(lattice)作为 BERT 的输入;

 

位置编码?设计了词格注意力机制(lattice position attention),使模型真正习得词格整张图的信息;

 

MLM?设计了整段掩码预测任务(masked segment prediction),避免模型从词格的多粒度输入中使用捷径。

 

 

这样一来,就能在 BERT 中融合字和词信息,也在多个任务上拿到 SOTA。

 

另外,这种词格的输入看上去也是优点多多:对于短文本的任务,词格输入可以作为一种信息的增强;对于和词相关的任务,输入的词能让模型更好的理解语义;对于抽取的任务,词格能帮助定位抽取的边界。

 

这里还延伸出一个问题:英文是不是也可以利用多粒度的信息呢?中文的预训练模型可以使用字和词的信息,相似地,英文就可以使用 subword 和 word 信息,这样是不是有效呢?

 

萌屋作者:

 

在北大读研,目前做信息抽取,对低资源、图网络都非常感兴趣。希望大家在卖萌屋玩得开心 ヾ(=・ω・=)o

 

作品推荐

 

 

老板让我用少量样本 finetune 模型,我还有救吗?急急急,在线等!

 

谷歌:CNN击败Transformer,有望成为预训练界新霸主!LeCun却沉默了…

 

 

寻求报道、约稿、文案投放:
添加微信xixiaoyao-1,备注“商务合作”

 

后台回复关键词【 入群 】

 

加入卖萌屋NLP/IR/Rec与求职讨论群

 

后台回复关键词【 顶会 】

 

获取ACL、CIKM等各大顶会论文集!

 

 

[1] Yuxian Meng, et al., “Is Word Segmentation Necessary for Deep Learning of Chinese Representations?”, ACL 2019, http://arxiv-download.xixiaoyao.cn/pdf/1905.05526.pdf

 

[2] Guolin Ke, et al., “Rethinking Positional Encoding in Language Pre-training”, ICLR 2021, http://arxiv-download.xixiaoyao.cn/pdf/2006.15595.pdf

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注