Press "Enter" to skip to content

MECT——基于多元数据的中文NER涨点神器

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

本篇论文发表于ACL2021,作者聚焦于中文NER任务。近些年来,在模型中引入词汇信息已经成为提升中文NER性能的主流方法。已有的中文NER词增强方式主要通过lattice结构在模型中引入词汇的边界信息和词嵌入信息。现如今我们使用的汉字从古老的象形文字演化而来,汉字中包含的偏旁部首等结构可以代表某些含义。因此,本文的作者提出在模型中融合进汉字的结构信息(例如部首等)。

 

1.中文词汇增强回顾

 

中文NER的词汇增强主要分为两条路线:

 

(1)Dynamic Architecture:通过动态结构,在模型中注入词汇信息。

 

(2)Adaptive Embedding:将词汇信息融合到Embeding中。

 

近些年来各大顶会上的中文NER词汇增强相关论文总结如下(参考博文):

词增强NER论文梳理

其具体实现方法总结为:

词增强NER模型简介

已有的词增强NER模型的性能如下图所示:

模型实验结果。(表中LEBERT使用的词表和预训练词向量与其他模型不同,结果在此处仅做参考,详情见论文)

2.论文方法介绍

 

文中作者的主要贡献为:

在中文NER模型中使用了多元数据特征(字特征,词特征以及汉字的结构特征)。
提出了一种能够将字特征、词特征和部首特征结合的双流(two-stream)模型来提高MECT方法的性能。
在多个中文NER数据集上的结果说明了模型结果的有效性。

The whole architecture

本文模型的整体架构如上图所示。模型的输入为中文原始文本,例如图中所示的“南京市长江大桥”。模型中采用了模型FLAT中类似的encoder结构,从而可以将汉字以及词汇的语义&边界信息整合到模型当中。

FLAT

关于FLAT,不了解的小伙伴可以通过该帖子进行了解。

 

与FLAT中的改进Transformer encoder不同的是,本文的作者提出了一种使用Cross-Transformer模块的two-stream模型。作者把汉字和包含汉字的词语看作一个“元(Meta)”,把每个汉字的包含的字根看做另外一个“元”。之后使用与Transformer中类似的自注意力机制,作者对两个“元”中的数据进行双路的交叉计算相关性,从而实现了多元信息的融合。另外,作者在两个“元”的自注意力矩阵中加入一个随机初始化的注意力矩阵来对多元数据之前注意力值的偏差进行校正。

 

2.1 使用CNN提取Radical-level特征

 

汉字是象形文字,其字形和字义具有非常密切的联系。例如,包含“ 艹 ”或者“ 木 ”的文字通常和植物有关,包含“ 疒 ”的文字通常和疾病有关。因此,作者采用汉字中包含的字根(Structural Components)的嵌入特征来表达汉字的结构信息。作者使用的拆分方法是将汉字拆分成无法拆分的最小字根单位(如下图所示):

汉字结构信息

之后作者使用如下图所示的CNN网络来提取Radical-level特征。

Image

作者首先对原始文本中的汉字进行拆字,然后把得到的字根特征输入到CNN特征提取器当中,然后使用最大值池化和全连接网络得到每个汉字的Radical-level特征。

 

2.2 Cross-Transformer模块

 

获取Radical-level特征特征后,作者使用Cross-Transformer模块(如下图所示)来对融合多元数据。

模型的输入 通过词嵌入特征和Radical-level嵌入特征的线性映射得到:

 

 

其中, 分别是lattice嵌入特征和Radical-level特征, 为单位矩阵,每一个线性映射矩阵 均为可学习参数。之后,作者使用和FLAT模型一样的相位位置编码来计算Cross-Transformer的注意力矩阵:

 

 

其中 是lattice注意力得分, 表示部首注意力得分, 为可学习参数。 为相对位置编码,和FLAT中原本的相对位置编码相比,进行了一定的简化:

 

 

2.3 Random Attention & 融合方法

 

Random Attention是指在注意力矩阵上加上的一个随机初始化的参数学习矩阵:

 

 

关于模型的融合方法,作者将两路的注意力值拼接以后经过一个线性映射来多元数据中提取的特征。最后,作者mask掉提取的词部分的特征,将提取的字特征通过CRF来进行解码。

 

3.实验结果展示

 

3.1 主试验

 

作者在四个经典的中文NER数据集(Weibo,Resume,MSRA,Ontonotes 4.0)上进行了实验,并且选取FLAT作为baseline。

Weibo实验结果

MSRA实验结果

Ontonotes实验结果

Resume实验结果

结果显示,相比于baseline模型FLAT,在模型中加入汉字结构特征以后,性能有了一定提升。据观察,在小规模数据集(例如weibo)或者多类别数据集(Ontonotes 4.0)上,模型的提升更加显着。

 

3.2 Cross-Transformer注意力值可视化

Visualization of cross-attention

从上图中(a)可以看出,Radical注意力更关注全局的相关性,而lattice注意力更关心汉字和词汇的相关性。

 

3.3 Radical特征的影响

Visualization of cross-attention

作者利用Resume数据集训练得到的汉字radical-level embedding进行了可视化,发现结构相近或者包含字根相近的字,在radical-level embedding空间中的距离就越近。结果如上图所示。
作者发现引入radical-level特征,可是使得一些常见的错误得到修正。例如在Ontonotes 4.0数据集中,”百分之四十三点二 (43.2%)”被标注成了PER人名。引入radical-level特征后可以对该问题进行校正。

3.4 推理速度

Relative inference speed of each model

由于模型采用了Transformer编码结构,模型具有不错的推理速度。

 

3.5 消融实验

消融实验方案

消融实验结果

作者设计了三个消融实验:

实验A :把Radical特征和lattice特征拼接,使用single-stream模型。
实验B :依然使用two-stream模型,但两个stream之间不再交叉计算注意力值。
-RA实验 :指去掉random attention的实验。

实验结果显示,模型中的模块均有效。

 

4 结论

 

本文提出了一个融入汉字结构特征的two-stream Transformer编码模型——MECT,该模型在多个中文NER数据集上均取得了很好的效果。

 

参考文献

 

[1] Li X , Yan H , Qiu X , et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C]. ACL 2020.

 

[2] Wu S, Song X, Feng Z. MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition[J]. ACL 2021.

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注