Press "Enter" to skip to content

论文浅尝 – ICLR2021 | 从信息论的角度提高语言模型的鲁棒性

笔记整理 | 胡楠,东南大学

 

 

来源:ICLR 2021

 

论文下载地址: https://arxiv.org/pdf/2010.02329.pdf

 

动机

 

最近的研究表明,BERT和RoBERTa这种基于BERT的模型容易受到文字对抗攻击的威胁。论文旨在从信息理论的角度解决此问题并提出InfoBERT,这是一种用于对预训练语言模型进行健壮微调的新颖学习框架。InfoBERT包含两个用于模型训练的基于互信息的正则器:(i) Information Bottleneck regularizer ,用于抑制输入和特征表示之间的嘈杂的互信息;(ii) Anchored Feature regularizer ,可增加局部稳定特征和全局特征之间的相互信息。论文提出一种方法可以从理论上分析和提高标准训练和对抗训练中语言模型的鲁棒性。大量实验表明,InfoBERT在自然语言推理(NLI)和问题解答(QA)任务的多个对抗性数据集上均达到了最先进的鲁棒准确性。

 

贡献

 

论文的贡献总结如下。(i)从信息论的角度提出了一种新颖的学习框架InfoBERT,旨在有效地提高语言模型的鲁棒性。(ii)提供了关于模型鲁棒性的原则性理论分析,并提出了两个基于MI的正则化器来细化局部和全局特征,可将其应用于针对不同NLP任务的标准训练和对抗训练。(iii)全面的实验结果表明,InfoBERT可以在不牺牲良性准确性的情况下大幅提高鲁棒准确性,从而在NLI和QA任务的多个对抗性数据集上产生了最先进的表现。

 

实验

 

Adversarial Datasets : (I)Adversarial NLI(ANLI)是大型NLI基准,通过迭代、对抗性的、人为模型的循环过程收集来攻击BERT和RoBERTa。ANLI数据集是强大的对抗性数据集,可轻松将BERTLarge的准确性降低至0%。(II)Adversarial  SQuAD数据集是一种对抗性QA基准数据集,由一组手工规则生成并通过众包进行精炼。由于没有提供对抗训练数据,因此论文仅在良性SQuAD训练数据上微调RoBERTa Large,并在良性和对抗性测试集上测试模型。(III)TextFooler是最新的词级对抗攻击方法,用于生成对抗示例。为了创建对抗性评估数据集,论文分别从SNLI和MNLI的测试集中采样了1,000个示例,并针对BERT Large和RoBERTa Large运行TextFooler以获取对抗性文本示例。

 

Baselines: 由于基于IBP的方法还不能应用于大规模的语言模型,并且基于随机平滑的方法实现了有限的认证鲁棒性,因此论文将InfoBERT与基于对抗训练的三个竞争基线进行了比较:(I)FreeLB在微调阶段对语言模型进行对抗性训练,以提高泛化能力。(二)SMART在微调过程中使用对抗训练作为平滑诱导正则化和Bregman近点优化,以提高语言模型的泛化和鲁棒性。(三)ALUM在训练前和微调阶段都进行对抗性训练,在广泛的NLP任务中获得了显着的性能增益。由于对抗性训练的高计算成本,论文将InfoBERT与ALUM和SMART进行了比较,并与原始文献中的最佳结果进行了比较。

 

Evaluation Metrics : 我们使用稳健精度或稳健F1评分来衡量基线模型和InfoBERT在面对对手数据时的稳健程度。具体来说,鲁棒精度的计算方法是: ,其中D adv 是对抗数据集,y是地面真值标签,arg max选择logits最高的类, 是指示函数。类似地,鲁棒F1分数的计算公式为: ,其中 是真实答案a和预测答案arg max 之间的F1分数,arg max选择概率最高的答案。

 

实验结果:

 

 

 

论文从信息论的角度提出了一种新的学习框架InfoBERT,在理论分析的支持下,InfoBERT为提高BERT和RoBERTa对NLI和QA任务的鲁棒性提供了一种原则性的方法。综合实验表明,InfoBERT在对抗性数据集上取得了新的进展,为提高语言模型表征学习的鲁棒性提供了一种新的有效方法。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注