Press "Enter" to skip to content

KDD 2021 | 算法公平性解释框架FACTS

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

对 算法公平性 进行解释是一个重要而又充满挑战的问题。

 

本文提出了一个通过 因果图 来解决这个问题的框架。该框架可以从因果图中找出造成模型不公平的因果路径并定量计算这些路径对模型不公平的贡献。该框架不仅能 应用于不同的公平性判据 ,而且适用于因果图中部分边的方向未知的场景,因此具有较强的实用性。

 

 

论文地址:

 

https://arxiv.org/abs/2108.05335

 

https://dl.acm.org/doi/abs/10.1145/3447548.3467258

 

代码地址:

 

https://github.com/weishenpan15/FACTS

 

文章作者:

 

清华 大学张长水教授以及学生潘伟燊、崔森,佛罗里达大学卞江教授,以及康奈尔大学王飞教授

 

一、研究背景

 

随着机器学习算法在 贷款审批、案件判决、医疗保险 等高风险领域的应用,算法公平性也受到了越来越多的关注。已有的研究对公平性有着不同的定义,在本文中研究人员关注的是 群体公平(group fairness) ,其要求模型的预测结果在不同子群体间是相等的。关于如何去判断模型是否满足群体公平,已有的研究工作提出了不同的判据,如: 人口统计学均等(demographic parity) ,其要求预测结果 独立于 群体属性(sensitive attribute) ; 机会均等(equalized opportunity) ,其要求在给定样本为正样本时 条件独立于 。基于不同的公平性判据,我们可以定义相应的 群体间差距(disparity) 来度量不公平的程度,以人口统计学均等为例,群体间差距为:

 

目前已有的大多数工作均集中在如何度量算法公平性和设计公平学习算法上,但还有一些问题没有被充分研究: 造成某个具体预测模型不公平的原因是什幺?它们各自对不公平的影响有多大?  这在现实问题中十分重要,以最近的新冠肺炎为例,已有研究表明在美国新冠肺炎的感染率和死亡率均存在明显的种族间差距。而造成这差异的可能原因包括基因,经济状况和食物安全性,以及医疗资源分配不均等。不同的原因对于干预手段地采用以及公共卫生政策的制定有着非常大的影响。这一问题十分具有挑战性: 敏感属性和各输入变量之间存在着复杂的因果关系 ,这些关系能用如下图所示的因果图来表示。直观地来看,图中存在连接 和 的路径说明 和 不独立,从而导致模型不满足人口统计学均等。本文以因果图中的路径为研究对象,来分析算法不公平的来源和提出相应的公平学习算法。

 

 

图1. 因果图示例

 

二、主要贡献

 

本文提出了 一个算法公平性的解释框架FACTS (Fairness-Aware Causal paTh decompoSition) 。对于给定的公平性判据,该框架可以利用数据以及数据生成满足的因果图,从图中找到引起不公平性的因果路径并把群体间差距分解成以上路径的贡献加总。该框架支持部分边的方向无法被确定的 因果图(Partially Directed Acyclic Graph)。

 

· 在以上框架的基础上,本文进一步提出了通过选择性地移除因果路径对预测结果的作用来得到能公平预测的算法。

 

· 本文在基准数据集上进行了不同实验来评估以上公平性解释框架和公平学习算法,证明了FACTS可以更准确地度量各路径对群体间差距的贡献,基于FACTS的公平学习算法能有效提高最终结果的公平性。

 

三、 基于因果路径的算法

 

公平性解 释框架

 

我们以人口统计学均等为例来叙述FACTS框架的流程,该流程分为以下两大步骤:

 

3.1 发现引起不公平的因果路径

 

人口统计学均等要求 独立于 (其他公平判据要求给定 时 条件独立于 ,分析过程类似,详见文章附录)。如果给定因果图是有向无环图,已有因果学习的工作发现: 在因果模型满足faithfulness假设的前提下 ,如果给定空集 和 之间没有活动路径连接(也称 和 被空集d-分离),则 独立于 。关于活动路径的定义可参考相关文献,以图1为例, 、 A→和 均是活动路径,而 则不是。

 

针对因果图中部分边的方向不能被确定的情况,本文作者提出了 潜在活动路径(potential active path) ,综合考虑图中无向边的方向和数据满足的条件独立关系来判断某一路径是否可能引起 和 之间的相关性。如图2所示, 中的 , 中的 和数据满足特定的条件独立关系时 中的 均属于从 到 的潜在活动路径。可以证明当 和 之间不存在潜在活动路径时, 和 是独立的,即模型满足人口统计学均等。反过来说,可以认为 和 之间的潜在活动路径是引起模型不公平性的原因,因此把这些路径称为 顾及公平性的因果路径(Fairness-Aware Causal paThs) 。基于定义,作者提出了算法来从图中搜索全部顾及公平性的因果路径的算法。

 

 

图2. 不同因果图中的潜在活动路径示例

 

3.2 基于因果路径的群体间差距分解

 

在得到全部顾及公平性的因果路径集合 后,本文接下来 采用基于Shapley值的策略把关于公平性的度量 分解成各顾及公平性的因果路径的贡献之和 。首先,作者按照从 到 的先后顺序建立变量之间的关系模型。直观上来看, 的信息沿着图上顾及公平性的因果路径传播,最终影响 的计算。接着作者定义了在给定某一数据样本 时, 的信息只经由 的一个子集合 进行传播时最终预测的值 。则某一路径 对样本 的预测以及整体的群体间差距的贡献可用以下公式计算,其中 为 中所有路径可能排序的集合。

 

 

把以上结果代入 的计算公式(1)中,即可得到路径 对群体间差距 的贡献:

 

通过本框架计算得到的贡献值满足以下性质:

 

 

四、基于FACTS框架的公平学习算法

 

由上述框架可以得到对群体间差距的分解 ,如果把分解对象变成模型的效用(本文采用了预测正确率,用 表示),则在公式(1)的基础上可得到对模型的效用分解结果:

 

 

为了得到满足公平性要求的模型,可从公平性相关的因果路径中选出一个最优子集最小化以下目标函数:

 

 

其中 为决定公平性权重的参数。

 

五、实验结果

 

5.1 对 基于路径的解释

 

为了本文提出框架和算法的有效性,本文在多个 真实数据集(Adult,COMPAS,Nutrition) 上进行了实验。在对算法公平性进行解释方面,在Nutrition数据集上的结果如下:

 

 

图3. Nutrition数据集上基于特征的基线方法得到的各变量对群体间差距的贡献。

 

 

图4. Nutrition数据集上FACTS框架得到的结果,左子图为包含了公平性相关的因果路径的因果图,每个节点的含义见图3;右子图为各路径对群体间差距及准确两侧的贡献。

 

从图4中结果可以发现,通过本文的框架可以找到引起不公平性的因果路径并分别度量其各自对群体间差距和正确率的贡献值。与图3中一些基于特征的基线方法相比, 本文的框架可以从因果路径的角度对算法公平性作出更全面的解释,而基于特征的解释方法会忽略掉某些路径的影响或把经过同一变量的不同路径的影响混在一起。

 

5.2 公平学习算法的性能比较

 

为了度量不同公平学习的性能,我们绘制了在不同公平性权重参数的设定下,正确率与群体间差距的曲线图:

 

 

图5. 不同数据集中公平学习算法性能比较,每个方法对应的曲线由运行算法时设定不同大小的公平性参数所得。

 

从结果中可以看到: 基于FACTS的公平学习算法可以取得与基线方法效果可比的结果。 而得益于FACTS框架,本文提出的公平学习算法的结果具有更强的可解释性:该算法能返回最终模型所保留的路径集合。

 

 

图6. 基于FACTS的公平学习算法在Nutrition数据集上在选用不同公平性系数  λ 时所选择的路径结果(由红线标注)。

 

六、结论

 

对算法公平性进行解释是一个重要而又充满挑战的问题。本文提出了一个通过因果图来解决这个问题的框架。 该框架可以从因果图中找出造成模型不公平的因果路径并定量计算这些路径对模型不公平的贡献 。该框架不仅能应用于不同的公平性判据,而且适用于因果图中部分边的方向未知的场景,因此具有较强的实用性。基于以上框架文本还提出了一种可解释的公平学习算法, 通过选择性地移除公平性相关的因果路径对预测结果的作用来使得结果满足公平性的要求 。

 

Illustrastion   by Semenin Egor from Icons8

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注