本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.
原文:Mitigating Political Bias in Language Models Through Reinforced Calibration
文章地址: https://www. cs.dartmouth.edu/~rbliu /aaai_copy.pdf
Main Contribution:描述了衡量GPT-2生成任务种政治偏见的指标,并提出了一个基于强化学习(RL)的框架来减轻生成文本中的政治偏见,该框架 不需要访问训练数据或者重新训练模型 。
Motivation
GPT-2名声在外,被称为NLP界的“核武器”。虽然刷榜无数,但是存在的问题也逐渐浮现了出来。由于使用了大量的预训练数据,因此模型不可避免的产生了像人一样的“政治偏见”,这些政治偏见主要与性别,位置,话题有关。文章将偏见分为两种
Indirect Bias: 句子中带有以上三种类别相关的关键词导致的bias。
Direct Bias:除了相关关键词之外,使用了很强的触发词(比如民主党,共和党)
如何评估和解决这些bias,是这篇文章的要点。
Notations
Sensitive Attributes :本文探讨了三个敏感属性:性别、地点、话题。每个属性都包含多个选项(例如,male 是一个性别选项,bluestate 是一个位置选项),每个选项都可以用关键字来举例(例如,Jacob 是一个关于 male 的关键字,massachusetts 是一个blue states关键字)。接下来用 表示关键字, 表示选项,
Language Modeling .文中的语言模型即输入与含有敏感属性相关提示符
Bias Judgement .这里有一个重要概念,我们预训练一个政治偏见分类器
Metrics
这部分是文章的重点之一,如何刻画生成模型对性别、地点、话题属性的敏感程度,甚至是更细粒度的对男/女,具体位置这些选项的敏感程度?文章提出了两个指标
INDIRECT BIAS : 他的定义如下,给定
直观来看,如果我们模型生成的文本对 选项不敏感,那幺
那幺现在目标很明确了,给定选项 ,属性
DIRECT BIAS : 所谓的direct就是说我们直接在生成过程提供政治敏感的词汇作为条件,定义为
上标
Debias through Reinforced Calibration
有了这些metric,接下来的问题就是如何减小它们了。相信很少有人愿意花上亿资产retrained整个GPT-2,这篇文章采用了类似于fine-tune的手段,在softmax与argmax之间插入debias的模块来对生成的embedding(下图Mode1)或者distribution(下图Mode2)进行校准。
简单介绍一下强化学习的基本设置
时刻 的state:
时刻 的action:
policy
文章还准备了 (i) 两个数据集
每个时刻的reward定义为
其中
接下来的问题就是如何针对这两个mode设计不同的奖励信号了
MODE1: Word Embedding Debias
在embedding的层次上,文章采取的策略是这样的,给定
前两项希望word
MODE2: Classifier Guided Debias
生成文本到 时刻生成的结果一共可以写作
这里的 是一个discounting factor。而这个增益可以写为一个cross-entropy的形式
还记得我们预先训练的
最后,为了防止
该算法被称为校准,因为它不是从零开始生成无偏文本,而是对原始的hidden states执行debias。该算法将产生一个无偏政策
Expermients
对于每个属于某个选项 的关键字 ,我们生成10个样本,长度为100个token,每个样本有M=10种提示。因此,对于一个给定的选项,我们生成|a|·M·10个样本。(比如文章选择了17个男性名字来代表这一性别属性,因此总共产生了1700个句子作为代表样本。)
简单看一眼evaluation的结果,显然比起baseline来,无论是mode1还是mode2,提升都比较显着。
同时,模型的偏见在减小的同时,可读性,与关键词的一致性甚至有所提升。
Be First to Comment