Press "Enter" to skip to content

AAAI 2021 Best Paper: 通过强化学习校准,减轻语言模型中的政治偏见

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

原文:Mitigating Political Bias in Language Models Through Reinforced Calibration

 

文章地址: https://www. cs.dartmouth.edu/~rbliu /aaai_copy.pdf

 

Main Contribution:描述了衡量GPT-2生成任务种政治偏见的指标,并提出了一个基于强化学习(RL)的框架来减轻生成文本中的政治偏见,该框架 不需要访问训练数据或者重新训练模型 。

 

Motivation

 

GPT-2名声在外,被称为NLP界的“核武器”。虽然刷榜无数,但是存在的问题也逐渐浮现了出来。由于使用了大量的预训练数据,因此模型不可避免的产生了像人一样的“政治偏见”,这些政治偏见主要与性别,位置,话题有关。文章将偏见分为两种

Indirect Bias: 句子中带有以上三种类别相关的关键词导致的bias。
Direct Bias:除了相关关键词之外,使用了很强的触发词(比如民主党,共和党)

如何评估和解决这些bias,是这篇文章的要点。

 

Notations

 

Sensitive Attributes :本文探讨了三个敏感属性:性别、地点、话题。每个属性都包含多个选项(例如,male 是一个性别选项,bluestate 是一个位置选项),每个选项都可以用关键字来举例(例如,Jacob 是一个关于 male 的关键字,massachusetts 是一个blue states关键字)。接下来用 表示关键字, 表示选项, 表示属性。

 

Language Modeling .文中的语言模型即输入与含有敏感属性相关提示符 的句子,输出一个序列。

 

Bias Judgement .这里有一个重要概念,我们预训练一个政治偏见分类器 。给定一个生成的token序列 ,他能计算出一个得分 。接近0的值表示句子偏向自由派,否则偏向保守派。定义一组text的 base rate 为其中每个文本被我们预先训练的分类器分类为1的相应概率的分布.

 

Metrics

 

这部分是文章的重点之一,如何刻画生成模型对性别、地点、话题属性的敏感程度,甚至是更细粒度的对男/女,具体位置这些选项的敏感程度?文章提出了两个指标

 

INDIRECT BIAS : 他的定义如下,

: 根据选项 所含关键字产生的文本集合。
: 属性 所含所有属性的关键词产生文本的集合。

直观来看,如果我们模型生成的文本对 选项不敏感,那幺 的base rate可以写作 ,而后者恰好是我们用 来生成文本集合的base rate。(想象一下我们有属性:性别,:男/女,每个选项生成五条文本,由所有属性生成的文本显然分布很均匀,不对任何选项有偏见。所谓的对某选项不敏感,即我们喂模型该选项相关的关键词,生成文本的分布与总体分布是一致的–Option Invariant)

 

那幺现在目标很明确了,给定选项 ,属性 ,我们需要一个distance function刻画这 两个集合base rate之间的距离,文章选择了second order Sliced Wasserstein Distance,具体写作

 

 

DIRECT BIAS : 所谓的direct就是说我们直接在生成过程提供政治敏感的词汇作为条件,定义为

 

 

上标 代表提供自由派相关的词汇, 表示保守派。当这个差值为0的时候,说明了我们的模型不管给定什幺敏感词汇,输出的分布都是一致的,也即对这些政治敏感的词汇unbiased。

 

Debias through Reinforced Calibration

 

有了这些metric,接下来的问题就是如何减小它们了。相信很少有人愿意花上亿资产retrained整个GPT-2,这篇文章采用了类似于fine-tune的手段,在softmax与argmax之间插入debias的模块来对生成的embedding(下图Mode1)或者distribution(下图Mode2)进行校准。

简单介绍一下强化学习的基本设置

时刻 的state: ,即该时刻之前生成的所有文本
时刻 的action: ,即该时刻输出的文本
policy :最后一个隐层的softmax输出,这个policy可以看作给定state ,我们选择action 的概率。

文章还准备了 (i) 两个数据集 , (L,C即自由派,保守派)。(ii) 两个分类器,一个基于GPT-2的分类器 以及之前提到的

 

每个时刻的reward定义为

 

 

其中 是根据mode不同设计的不同奖励信号。除此之外,debias policy 与原本模型采取的policy 的商作为因子更好的引导该优化过程。

 

接下来的问题就是如何针对这两个mode设计不同的奖励信号了

 

MODE1: Word Embedding Debias

 

在embedding的层次上,文章采取的策略是这样的,给定 两个词汇集合,一个embedding的distance 函数 ,奖励信号写作

前两项希望word 距离两个有偏词集合越远越好,最后一项希望word与两个集合的距离尽量一样。

 

MODE2: Classifier Guided Debias

 

生成文本到 时刻生成的结果一共可以写作 ,总共的debias增益可以计算为每步产生的加权增益的总和

这里的 是一个discounting factor。而这个增益可以写为一个cross-entropy的形式

还记得我们预先训练的 吗?这个负的交叉熵就是为了计算该分类器将给定token的分类结果。为了使得输出unbiased,我们最大化交叉熵,因此reward是负的交叉熵损失。

 

最后,为了防止 差距过大使得可读性变差,文章还加入了KL散度作为约束,总体的算法如下

该算法被称为校准,因为它不是从零开始生成无偏文本,而是对原始的hidden states执行debias。该算法将产生一个无偏政策 ,我们可以用它生成符合政治中立的文本

 

Expermients

 

对于每个属于某个选项 的关键字 ,我们生成10个样本,长度为100个token,每个样本有M=10种提示。因此,对于一个给定的选项,我们生成|a|·M·10个样本。(比如文章选择了17个男性名字来代表这一性别属性,因此总共产生了1700个句子作为代表样本。)

 

简单看一眼evaluation的结果,显然比起baseline来,无论是mode1还是mode2,提升都比较显着。

同时,模型的偏见在减小的同时,可读性,与关键词的一致性甚至有所提升。

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注