Press "Enter" to skip to content

香侬科技提出ChineseBERT:首个融合字形与拼音信息的中文大规模预训练模型

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

近日, 香侬科技首创提出融合中文字形与拼音信息的中文大规模预训练模型ChineseBERT 。该模型将汉字的字形与拼音信息融入到中文预训练模型中,增强模型对中文语料的建模能力,不但有助于汉字消歧,并且具有正则化作用,使模型更好建模潜在文本语义。在同等模型参数量前提下,该方法在文本分类、、自然语言推理等6类中文自然语言处理任务取得当前最优效果。 目前,相关学术研究论文《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》已被自然语言处理(NLP)领域国际顶级会议ACL 2021 Oral收录。

 

国际计算机学年会(ACL)是自然语言处理与计算语言领域最高级别的国际顶级学术会议,也是中国计算机学会(CCF)推荐的A类国际学术会议,由计算语言学领域历史最悠久和最具权威的学术组织-国际计算语言学协会主办。ACL论文录用标准十分严苛,每年竞争激烈,ACL 2021共收到有效投稿3350篇,其中 仅21.3% 的论文被ACL主会录用。香侬科技十分重视基础前沿科学研究和自主技术创新,自2018年以来,已累计在人工智能、自然语言处理相关领域的国际顶尖会议上发表重要论文 50余篇 ,其中获ACL录用论文 十余篇 。凭借在自然语言处理领域的持续创新力, 今年3篇最新学术研究论文再次在ACL 2021脱颖而出获得录用 ,本篇由香侬科技联合浙江大学关于ChineseBERT的研究成果便是其中之一。

 

 

自BERT推出以来,大规模预训练模型已成为自然语言处理研究的一大重点,然而以往的很多预训练模型都是以英文为基础展开:数据为英文,模型架构也为英文而设计(掩码方式)。面向中文的预训练模型,尤其是能够建模汉语这种特定语言特性的预训练模型,相对较为缺乏。

 

 

(图:ChineseBERT整体模型框架)

 

为此,香侬科技创新提出的ChineseBERT,从汉字本身的字形、拼音两大特性出发,将汉字的字形与拼音信息融入到中文语料的预训练过程。一个汉字的字形向量由多个不同的字体形成,而拼音向量则由对应的罗马化的拼音字符序列得到。二者与字向量一起进行融合,得到最终的融合向量,可以作为预训练模型的输入。在实验过程中,ChineseBERT重点针对底层的融合层进行优化,融合了除字嵌入之外的字形嵌入和拼音嵌入,得到融合嵌入后再与位置嵌入相加,形成模型的输入。

 

 

实验表明,ChineseBERT在中文机器阅读理解、自然语言推理、文本分类、句对匹配、命名实体识别和分词任务上,均取得了显着的效果提升。 以中文机器阅读理解数据集为例,ChineseBERT在CJRC数据集上,EM的提升比F1更加显着,能够更好地抽取准确的答案文段。相比Vanilla BERT与RoBERTa模型,ChineseBERT在命名实体识别数据集上均提升了约1点的F1值。此外在分解实验中,得益于字形信息与拼音信息的正则化效果,ChineseBERT能在小训练数据的情况下取得更好的效果。

 

 

(图:字形嵌入与拼音嵌入效果)

 

目前ChineseBERT的代码、模型均已开源,包括Base版本与Large版本的预训练模型,供业界、学界使用。接下来,香侬科技将在更大的语料上训练ChineseBERT,在中文预训练模型上进一步深入研究,不断提升ChineseBERT 模型的性能水平。

 

香侬科技聚焦产业智能,注重科研成果的转化以及技术与产业的结合,始终将技术创新与行业实际需求紧密相连。算法模型是人工智能技术的承载体,模型设计懂场景、准确、专业对人工智能商业化落地至关重要。目前国内大多应用场景都基于中文数据集,为更好将人工智能深度融合于行业,助推我国产业数智化转型, 近年来香侬科技陆续针对中文自然语言处理提出了多种模型,包括基于中文字形的语义表示模型、基于机器阅读理解的信息抽取模型MRC-IE、基于图神经网络的文本分类模型BERT-GCN、多模态人机对话模型OpenViDial等。本次提出融入字形与拼音信息的大规模中文预训练模型ChineseBERT,是香侬科技在中文自然语言处理模型探索实践过程中的又一创新 。

 

未来,香侬科技将继续以基础前沿科学研究创新能力为驱动,不断塑造自身核心技术竞争力,推动人工智能科研成果在重点行业领域的转化应用,为我国科技创新、产业发展作出更多贡献。

 

论文链接:

 

https://arxiv.org/pdf/2106.1603

 

ChineseBERT开源地址:

 

https://github.com/ShannonAI/ChineseBert

 

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注