Press "Enter" to skip to content

NLPCC 2022 NER 评测冠军 | 网易云商命名实体识别技术解读

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

 

导读: 近日,第 11 届 CCF 自然语言处理与中文计算国际会议(NLPCC 2022)揭晓了开放评测任务评比结果。网易智企旗下服务营销一体化平台网易云商 AI 技术团队在命名实体识别评测任务中勇夺冠军,展现了在自然语言处理和深度学习技术领域的领先实力。本文将着眼于命名实体识别(NER)技术,介绍该技术的发展历程,以及网易云商 AI 团队针对本次比赛作出的调整优化。

 

 

文|徐梓钧

 

网易云商高级自然语言处理工程师

 

 

NER 介绍

 

什幺是命名实体

 

 

上图中不同颜色标记出来的短语即为 命名实体 。

 

通常来讲:命名实体(Named Entity)指的是文本中具有特定意义或者指代性强的短语,通常包括人名、地名、机构名等。在实际使用过程中,命名实体也可以根据需要进行自定义,例如在电商场景中,产品、型号、颜色、尺寸也可定义为命名实体。

 

命名实体识别

 

命名实体识别(Name Entity Recognition,简写为NER)是指:从给定的文档集合中,识别出命名实体的过程。识别过程需要重点解决两个问题:

 

从文本中找到实体短语。

 

给出该实体短语的类型。

 

命名实体识别技术的发展

 

随着时间的推移,命名实体技术从最早的词典、句式模版等基于规则的方案,转为基于特征的统计机器学习方法。2014 年,伴随着深度神经网络的兴起,利用深度网络代替传统的特征工程,将命名实体技术带入了深度学习领域。2018 年后,伴随着大规模预训练语言模型(如 Bert)的兴起,对基础 NLP 任务进行了统一,采用预训练配上微调的方式,将命名实体技术带入了一个新的高度。以下是不同命名实体识别方案的优缺点总结。

 

 

在命名实体识别任务的公开数据集(CoNLL 2003)上,整体的 F1-score 从最早的 0.86 也一路提升至了~0.94。

 

 

命名实体识别建模方案

 

 

当前命名实体识别技术大致包含 5 种不同的建模方式:

 

Sequence Labeling :最常见的建模,对句子中的每一个 Token 打上标签,然后通过标签信息解码得到不同的实体,如图 1 所示。

 

Span Classification :该方案首先从给定的句子中枚举出所有可能的候选短语,然后通过模型对这些候选短语进行分类,打上不同的标签,如图 2 所示,典型的文章:Deep Contextualized Entity Representations with Entity-Aware Self-attention。

 

Machine Reading Comprehension :该方案按照机器阅读理解的方式进行建模,输入一个与类别相关的问题以及给定的句子,对每一个字符预测 start/end 的概率,进而解码得到实体,如图 3 所示;典型的文章:A Unified MRC Framework for Named Entity Recognition。

 

Sequence Generation :生成方案与 MRC 方案在模型输入上有所类似,也需要额外提供一个与类别相关的生成提示句子,将信息打包整合以后输入模型,最终生成出对应类别的实体短语,如图 4 所示,典型的文章:Unified Structure Generation for Universal Information Extraction。

 

Relation Classification :该方案在建模过程中,其重点不再是关注每一个 token 的信息或是标签,而是关注 token 之间的关系;针对一个实体,将其拆解成若干个 token 之间的关系,模型对这部分关系进行分类,如图 5 所示,典型的文章:Unified Named Entity Recognition as Word-Word Relation Classification。

 

 

NLPCC 评测比赛

 

NLPCC 2022 简介

 

 

CCF 自然语言处理与中文计算国际会议(The CCF International Conference on Natural Language Processing and Chinese Computing,简称 NLPCC)是 CCF-NLP(中国计算机学会自然语言处理技术委员会,前身为中国计算机学会中文信息技术委员会)的年度会议,也是自然语言处理(NLP)和中文计算 (CC)领域最为知名的国际学术会议之一。会议共设置 7 个任务,本次网易云商 AI 团队参加了 Task5:Multi-label Classification, NER, Content Extraction for Scientific Literature , 并在一众参赛队伍中获得了第一名。

 

‍  参赛方法介绍

 

 

建模方式

 

在一众 NER 建模方式中,我们参考采 Unified Named Entity Recognition as Word-Word Relation Classification 中的方式,以 Relation Classification 的方式建模 NER 任务。该任务将 NER 任务转换为了一个任意两个 token 之间的关系分类任务,对于 token pair (t_i, t_j)(i < j),存在以下 3 种关系:

 

None Relation ,t_i 和 t_j 之间没有关系,并且也不属于同一个实体。

 

Next-Neighboring-Word Relation ,t_i 和 t_j 是属于同一个实体,并且 t_j 是 t_i 的下一个单词。

 

Tail-Head-[category] Relation ,t_i 和 t_j 是同一个实体的边界,并且 t_i 是实体头部,t_j 是实体尾部,而其中的 [categorpy] 代表实体的一个具体类别。

 

模型结构

 

如上图所示,模型部分整体分为三块:

 

Document Level Token Feature Extracto r ,传统的 NER 任务中,输入都是给定的一整句话,缺少 document-level 的上下文信息;依托于现有的 Transformer Based 的预训练语言模型,我们将给定句子的上下文内容与原句进行拼接以后,一并输入模型,通过上下文内容来增强 token 的表示。

 

Word Relation Feature Extractor ,由于该任务重点是对任意两个 token 之间的关系进行分类,因此采用 Conditional Layer Normalization 机制完成从 token representation 到 token relation representation  的转换。经过转换后,一个长度为 N 的句子,其 token relation 可以表示为一个 N*N*d_h 的矩阵。参考 BertEmbeding 的构成方式,额外引入两个 N*N*d0 和 N*N*d1 的矩阵作为位置信息和区域信息的补充。接着,为了挖掘不同位置之间 token 的关系,采用了不同膨胀系数的带孔卷积操作(Dilated Convolution)对关系矩阵进行特征抽取。

 

Model Output ,模型输出层,首先采用 MLP Predictor 对 word relation representation 进行一次打分;接着,采用 Biafine Predictor 对 document-level token representation 进行一次打分,最终将两次打分结果合并后进行最后的 relation classification。基于预测的关系结果,我们对其进行解码输出,得到最终的实体。为了保证准确率,我们添加了一个置信度过滤器,过滤掉评分比较低的实体。

 

数据扩充

 

 

为了获得更好的模型效果,我们采用实体替换的策略对训练数据进行扩增。首先对训练集中出现的所有实体进行收集,构成实体池;其次对于训练集中每一个句子,提取出句子中的实体,然后按照一定的概率进行实体级别的整体替换,在替换过程中满足以下条件:

 

替换前后实体的类别保持一致。

 

替换前后的实体包含的单词数量差异不超过2。

 

替换前后的实体包含的字符数量差异不超过6。

 

通过这种方式的产生的扩增数据,通常是不符合实际情况的,但是由于我们在类别与字符长度上做了限制,模型可以从这部分数据中学习到特定的句式结构信息,从而对相似句式结构的内容做出类似的预测。

 

结果集成

 

对于 N 组模型产出的预测结果,采用实体级别的多模型投票方式,来平衡准确率与召回率之间的差异;

 

 

实验介绍

 

实验数据

 

该比赛中,采用举办方提供数据集,数据基本情况如下

 

 

在实验过程中,通过实体替换策略,我们将训练数据进行了 5 倍的扩充。对于上下文的获取,结合该数据的特点,我们通过爬虫从百度学术爬取对应句子所在的摘要段落,并进行上下文的填充。

 

实验结果

 

实验过程中,我们对当前的主流的命名实体识别方法都进行了评估验证,其中基于关系分类的模型 W2NER 在该数据集上取得的基础模型效果最好。其次,我们对 W2NER 模型中的预训练语言模型进行了迭代替换,尝试了 XLM、DeBERTa以及 BioLinkBert 等,其中 DeBERTa 结构的相比于其他预训练语言模型有稍许的优势。接着,我们将我们的策略加入模型,经过上下文增强(Context  Enhanced)以及数据增广(Data Augmentation)以后,结果均有明显的提升。融合这两个策略后,模型结果可以达到 0.4430,相比于原始的 W2NER,有 1.5% 的提升。最后,我们选用了不同的随机种子,保留了训练过程中最后三轮的模型,并重复训练了 4 次,总计 100+ 模型进行最终的投票,得到了最终的结果 F1-Score=0.4725。

 

 

 

业务应用与展望

 

目前, 本次比赛中所使用的命名实体识别技术已经成功运用在了网易云商的实际业务中 。例如多轮对话机器人、外呼机器人等,在真实业务场景中实现机器人问题匹配率和解决率的提升,进一步加速任务处理。

 

 

在 多轮问答 中,可以通过 NER 识别系统准确的识别出用户问题中的重点实体,如洗衣机、WN54 型号、地点北京,从而在机器人侧即可解决用户的问题,提高机器人解决率,降低转人工率。

 

未来,我们将持续优化命名实体识别算法,降低算法接入门槛,提供更低延时的接口,让更多的中小企业可以用上智能化的 AI 产品。

 

作者简介

 

徐梓钧,网易云商高级自然语言处理工程师,专注于自然语言处理技术在智能客服领域的研发与优化,主要从事文本结构化、文本生成、文本分类等算法的研发和迭代工作。

 

参考资料

 

Cai, B., Zhang, H., Liu, F., Liu, M,. Zong, T., Chen, Z., Li, Y.: Overview of NLPCC2022 Shared Task 5 Track 2:  Named Entity Recognition. CCF International Conference on Natural Language Processing and Chinese Computing, 2022.

 

Akbik, A., Bergmann, T., Blythe, D., Rasul, K., Schweter, S., & Vollgraf, R. (2019). FLAIR: An easy-to-use framework for state-of-the-art NLP. In Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics (demonstrations) .

 

Yamada, I., Asai, A., Shindo, H., Takeda, H., & Matsumoto, Y. (2020). LUKE: deep contextualized entity representations with entity-aware self-attention. arXiv preprint arXiv:2010.01057.

Li, X., Feng, J., Meng, Y., Han, Q., Wu, F., & Li, J. (2019). A unified MRC framework for named entity recognition. arXiv preprint arXiv:1910.11476.

 

Lu, Y., Liu, Q., Dai, D., Xiao, X., Lin, H., Han, X., … & Wu, H. (2022). Unified Structure Generation for Universal Information Extraction. arXiv preprint arXiv:2203.12277.

 

Li, J., Fei, H., Liu, J., Wu, S., Zhang, M., Teng, C., … & Li, F. (2022). Unified named entity recognition as word-word relation classification. In Proceedings of the AAAI Conference on Artificial Intelligence

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。