Press "Enter" to skip to content

预训练语言模型在自动作文评分中的应用

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

一、什幺是自动作文评分

 

自动作文评分( Automated Essay Scoring , AES )是指作文评分系统自动对一篇作文进行评分。 AES 主要包括表征和评分两个模块,其中表征模块用于将作文文本转化为一个数值向量,评分模块使用该向量计算作文分数。

 

二、相关工作及问题

 

AES 可以分为基于手工特征的 AES ,基于深度学习的 AES 和基于预训练模型的 AES 。

 

基于手工特征的 AES :该类方法通过提取影响评分的相关特征(如语法、词汇、连贯性等),使用回归、分类或者排序模型进行评分。由于特征的设计考虑了语言学知识,该方法在小规模数据中也能获得不错的结果,但特征工程耗时耗力,在不同的 AES 任务上扩展性较差。

 

基于深度学习的 AES :该类方法通过 LSTM 、 CNN 等神经网络自动学习作文表征,获得了更好的评分效果 [1-2] 。其端到端的训练方式不仅节省了特征工程的时间,也增强了在不同 AES 任务上的可扩展性,但在数据规模较小时,神经网络方法的效果较差。有些 AES 通过集成手工特征和深度学习方法获得更好的效果,但依然需要较多的时间去做特征工程。

 

基于预训练语言模型的 AES :该类方法使用预训练语言模型如 BERT 、 XLNet 等,通过在训练集上对其进行微调更好地表征作文。但在 AES 任务上,该类方法的大部分工作 [3-5] 尚未超过传统的深度学习方法 [1-2] 。通过训练任务、训练策略或损失函数的优化,部分工作如 [6-7] 可以获得更好的效果。但是当训练方案相同时,该类方法与传统深度学习方法效果接近或者更低。

 

三、基于预训练语言模型的评分方法

 

在流利说的 AES 系统优化进程中,也经历了上述三个阶段。本篇文章我们主要介绍我们是如何改进已有的基于预训练模型的方案,并在内部数据集和 ASAP[8] 数据集上,效果显着超过基于传统深度学习( LSTM 、 CNN )的方法。

 

问题分析

 

对于目前预训练语言模型在 AES 任务上效果不佳的问题,我们经分析认为:目前的预训练语言模型预训练时使用的都是句子或者文本片段,而 AES 需要对整篇作文编码,和预训练输入存在不一致;另外由于作文数量少,直接 finetune 预训练模型,很难获得较好的文档表征模型。我们进一步分析认为,老师对学生作文进行评分时会从多个粒度进行评估:词汇、句子、段落、文章,如词汇是否正确、句子是否通顺、段落内语句是否连贯、整篇作文的描述是否一致等。不仅如此,老师在对作文评分时,也可能考虑所有学生分数的分布信息,以及作文之间的比较信息。

 

由于预训练模型能够较好地捕获片段的特征,我们可考虑将文章按照某个尺度切分成多个片段,先使用预训练模型对片段编码,再汇总多个片段的编码来对文章进行评分。另外,由于老师在进行作文评分时会考虑作文的多粒度信息,我们可以使用多个尺度分别对作文评分,并融合多个尺度的评分结果作为最终的分数。为了使用作文分数的分布信息和作文之间的比较信息,我们引入相关的损失函数来训练模型。

 

模型结构

 

我们的模型结构如图 1 所示,图1的左半部分用于提取作文的文档尺度和词汇尺度特征并评分,右半部分提取作文的多个片段尺度特征并评分,最后将作文的文档和词汇尺度的评分、以及所有片段尺度对应的评分相加,获得最终的分数。在图 1 结构中,可以用 XLNet , RoBERTa , Longformer 等预训练模型代替 BERT 组件。在我们的工作中,因使用 BERT 时效果最好,因此我们以 BERT 组件来进行说明。

 

文档和词汇尺度特征 :将作文输入 BERT tokenizer 进行分词,分词后结果对应的 token 向量、 segment 向量、 position 向量相加,输入 BERT 模型。由于 BERT 除特殊标记 CLS 和 SEP 外,最多支持 510 个词汇,当分词结果数量超过 510 后我们做截断处理。 BERT 对应 CLS 位置的输出作为文档尺度特征,对应每个分词位置的输出经 Max Pooling 得到词汇尺度特征。

 

多尺度片段特征 :分词方式同上,对于尺度集合 K=[k 1 , k 2 , … k s ] 中的每个尺度 k i , 将分词结果以 k i为尺度切分为 ⌈n/k i ⌉ 个片段,其中 n 为词汇个数。我们将每个片段对应的 token 向量、 segment 向量、 position 向量相加后 输入 BERT ,对应 CLS 位置的输出作为该片段特征。对应尺度 k i的所有片段特征经 LSTM 、 Attention 处理后,获得作文对应尺度 ki 的片段特征。

 

分数预测: 将作文的文档和词汇尺度特征拼接后输入多层感知器,获得作文在文档和词汇尺度的评测分数;将作文对应尺度 k i的片段特征输入多层感知器,获得作文在片段尺度 k i的评测分数;将作文对应的文档和词汇尺度评测分数、以及多个片段尺度 k 1 , k 2 , … k s的评测分数相加,获得最终的作文分数。

 

 

图 1 :基于 BERT 的多尺度作文评测模型

 

损失函数

 

为了考虑作文分数的预测误差、分布信息、作文之间比较信息,我们使用了 3 个损失函数。

 

MSE(Mean Squared Error) :均方误差损失函数,其中 N 为一个 batch 内样本个数, 和 分别表示第 i 个样本的预测值和标签。

 

 

SIM(Similarity) :用于衡量一个 batch 内的样本预测分数和真实分数分布是否相似,具体如下所示,其中 y 和 分别表示 batch 内样本的预测分数向量和标签向量。

 

 

MR(Margin Ranking) :用于衡量 batch 内样本的 pairwise 排序是否合理,具体如下所示:

 

 

其中 为 batch 内 pair 的个数, 表示 batch 内第 i 个样本的预测分数, b 为超参数 ( 我们实验中设置为 0) , 的取值根据样本的 label 和 确定,如下所示:

 

 

将上述 3 个损失函数加权求和作为模型训练使用的损失函数,对应的权重根据验证集表现确定。

 

实验结果

 

我们和其他方法在 ASAP 数据上的效果对比见表 1 ,和 top3 方法在 ASAP 长作文数据上的效果对比见表 2 。

 

从表 1 可以看出,我们的方法 12 与方法 9 、方法 10 为 top 3 。在 ASAP 长作文数据上,我们方法的效果( QWK 0.772 )超过了其他方法及相关变种( QWK 0.761 )。

 

相对于传统的深度学习方法 ( 方法 4 和方法 6) ,我们的方法 11 同样使用 MSE 来训练模型,通过引入基于 BERT 的多尺度编码方式,使效果有了较大提升( QWK 0.764 提升至 0.782 )。传统的使用预训练语言模型方法,效果均未超过方法 4 和方法 6 。

 

 

表 1 : ASAP 数据上各方法的效果比较,其中模型名为加粗字体代表我们的方法,平均效果排名前三的方法在平均指标的右上侧标有“ * ”。

 

 

表 2 :在 ASAP 长作文数据的效果对比,模型名为加粗字体的代表我们的方法。

 

除了 ASAP 任务,我们在内部的作文评分,文本难度分级等任务上都使用该方法进行了优化。该方法相对于传统的深度学习方法、及预训练语言模型方法,效果都有不错的提升。目前该方法已被 NAACL 2022 录用,大家如果有兴趣,可以从 arxiv 网站 [9] 下载我们的论文,欢迎一起交流。

 

四、流利说在 AES 领域的工作和产品应用

 

在流利说内部,我们融合多种基于手工特征、深度学习和预训练模型的算法,研发了一套针对口语和写作的 AES 评测系统,部分产品应用如下所示,同时我们也提供 API 供外部调用。

 

1. 流利写作

 

 

2. 达尔文口语作业

 

 

3.  雅思流利说

 

 

五、总结

 

本文介绍了 AES 领域的相关方法和问题,并针对预训练模型在 AES 领域的问题进行分析和改进,在流利说内部和外部数据数据上取得了较好的结果,也为长文本编码提供了一种有效的编码方式。目前流利说 AES 在多个场景中应用,我们会持续优化 AES 效果,推动 AES 技术的进步,也为用户带来更精致的评分体验。

 

参考文献

 

[1] Fei Dong, Yue Zhang, and Jie Yang. 2017. Attention- based recurrent convolutional neural network for au- tomatic essay scoring. In Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017), pages 153–162.

 

[2] Yi Tay, Minh C. Phan, Luu Anh Tuan, and Siu Cheung Hui. 2018. Skipflow: incorporating neural coherence features for end-to-end automatic text scoring. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, pages 5948–5955.

 

[3] Masaki Uto, Yikuan Xie, and Maomi Ueno. 2020. Neural automated essay scoring incorporating handcrafted features. In Proceedings of the 28th International Conference on Computational Linguistics, pages 6077–6088.

 

[4] Pedro Uria Rodriguez, Amir Jafari, and Christopher M. Ormerod. 2019. Language models and automated essay scoring. In arXiv: Computation and Language.

 

[5] Elijah Mayfield and Alan W Black. 2020. Should you fine-tune bert for automated essay scoring? In Pro- ceedings of the 15th Workshop on Innovative Use of NLP for Building Educational Applications, pages 151–162.

 

[6] Yue Cao, Hanqi Jin, Xiaojun Wan, and Zhiwei Yu. 2020. Domain-adaptive neural automated essay scoring. In SIGIR ’20: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information, pages 1011–1020.

 

[7] Ruosong Yang, Jiannong Cao, Zhiyuan Wen, Youzheng Wu, and Xiaodong He. 2020. Enhancing automated essay scoring performance via fine-tuning pre-trained language models with combination of regression and ranking. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 1560–1569.

 

[8] https://www.kaggle.com/c/asap-aes

 

[9] https://arxiv.org/abs/2205.03835

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注