Press "Enter" to skip to content

以不变应万变:因果启发的稳定学习年度研究进展

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

演讲者丨崔鹏、况琨、张兴璇、徐韧喆、刘家硕、何玥

 

整理丨熊宇轩

 

编辑丨李梦佳

 

机器学习技术在计算机视觉、自然语言处理等领域得到了广泛的应用。然而,当下的机器学习技术大多以挖掘数据的关联性为基础,可能会带来稳定性、可解释性、公平性等方面的一系列不足。因此, 如何将因果统计融入机器学习的框架,成为了一个具有挑战性的基础问题。 稳定学习的目标正是寻找机器学习和因果统计的共同基础。

 

在近期的报告中,来自 清华大学计算机系长聘副教授、智源青年科学家崔鹏,浙江大学计算机学院副教授况琨,来自清华大学计算机系的 4 位博士张兴璇、徐韧喆、刘家硕和何玥 介绍了稳定学习理论和方法的年度进展,以及在解决分布外(OOD)泛化问题方面的机会和挑战。

 

本期整理自智源LIVE,报告详情、视频回放和PPT下载:

 

https://event.baai.ac.cn/activities/181

 

1

 

清华大学崔鹏 : 关于分部外泛化和稳定学习的一些思考

 

近年来,分布外(OOD)泛化问题广泛引起了机器学习和计算机视觉等领域研究者的兴趣。以监督学习为例,我们希望找到一个模型 f 以及其参数 θ,使得我们能够在测试数据分布上最小化 和 y 之间损失的期望。

 

 

原则上说,我们测试时的数据分布是未知的,为了对其进行优化,传统的机器学习方法认为训练数据和测试数据满足独立同分布假设,从而对问题进行简化,使我们可以在训练数据分布下搜索带有参数 θ 的函数 f。

 

然而,这种简化的问题设定无法满足许多实际应用场景的要求,我们往往很难保证测试时和训练时的数据分布一致。通过上述方式学习到的 缺乏理论保障,模型在真实的测试环境下的性能与实验室中训练时的性能可能相差甚远。为此,一些研究人员开始研究分布外场景下的学习问题。

 

根据测试时数据分布的不同,分布外学习问题衍生出了 两条技术路径:(1)分布外域自适应:测试数据(目标域)部分已知,基于域自适应/迁移学习技术,将利用训练数据(源域)得到的模型适配到不同的数据分布(目标域)下(2)分布外泛化:测试数据分布完全未知。

 

 

在传统的独立同分布学习场景下,模型泛化是一种内插(Interpolation)泛化,在分布外学习场景下,模型泛化则指的是外推(Extrapolation)。

 

如上图所示,在独立同分布场景下,如果 参数量太少,则模型对数据欠拟合;若参数量过多,则模型可能对数据过拟合。论文「Direct Fit to Nature:An EvolutionaryPerspective on Biological and Artificial Neural Networks」的作者认为,过参数化的深度学习网络之所以具有较好的泛化能力,可能是由于模型用类似折线的形式直接对数据点进行了拟合。

 

如果我们直观测到整体中很小的一部分数据,就需要对未观测到的数据进行外推。传统上,我们需要进行精巧的实验设计,基于小量的观测数据推理出分布外的情况。在这一过程中,我们会引入大量人类总结出的一些通用规律,从而实现数据的外推。

 

 

正所谓「以不变应万变」,「不变性」(invariance)是实现外推的基础。 例如:牛顿观察到苹果从树上落下,从而推导出万有引力定律,进而可以将这一规律外推到其它物体的运动上。

 

在独立同分布场景下,由于我们认为训练数据和测试数据分布相同,我们的目标是数据拟合,此时「相关性」自然成为了一个很好的统计指标。 在 OOD 场景下,我们旨在通过以下两条路径寻找「不变性」:(1)因果推理(2)从变化中寻找不变性。

 

因果推理

 

 

因果推理是一种与不变性相关的科学。在经典的因果模型中,我们试图控制X,寻找 T 的变化对 Y 的影响。具体而言,利用观测数据,我们会通过样本重加权(Sample Reweighting)将 T=1 和 T=0 时的样本具有相似的 X 分布,如果这两种情况下的 Y 有显着变化,则 T 对 Y 有因果效应。此时,我们估计出的 T 对 Y 的因果效应平均而言对于 X的变化是具有不变性的。

 

为了将不变性适配到学习框架中,我们要研究多个输入变量对输出变量预测性的影响。在稳定学习框架下,我们试图找到一组合适的样本权重,进行样本重加权后再通过输入变量对输出变量进行回归,此时的回归系数即为满足因果关系的回归系数。通过上述方式训练出的模型具有 OOD 的泛化能力。

 

从变化中寻找不变性

 

 

变化与不变性是对立统一的。在机器学习场景下,数据中的「变化」指的是训练数据中存在的异质性(例如,图像背景的不同、物体品类的不同)。然而,我们无法手动定义这种数据的异质性,因为我们无法保证数据在所有的特征维度上都满足不变性约束。

 

因此,一种可行的方式是从潜在的异质性中寻找不变性。我们假设环境是未知的,存在一定的异质性。在这种情况下,我们首先需要发现数据中的异质性,再根据数据的异质性发现其中的不变性,接着我们还可以反过来利用不变性提升对变化部分(异质性)的学习效果,这一过程将一直迭代下去。

 

稳定学习的定位

 

 

在稳定学习框架下,我们利用一个异质的数据分布学习模型,希望将学习到的模型应用到一系列未知数据集上时具有一定的性能保证。除了通过实验证明此类模型的有效性,我们还希望为其发展出理论的支撑。 (详见清华大学崔鹏组稳定学习综述:https://arxiv.org/abs/2108.13624)

 

2

 

清华大学 张兴璇:StableNet——用于分布外泛化的深度稳定学习

 

我们具体来讨论深度稳定学习,比如我的训练图片中是很多狗都在草地上,然后少量的狗在其他背景上时,那幺它需要能及及时分辨出草地上的狗,通常这个模型可以给出比较准确的预测。但是当给到一个他建的比较少的背景,他可能就会不一定给出一个准确的预测,但大部分可能还可以给出类似的预测,但是当它出现了一个他完全没有见过的背景的时候,这个模型很有可能就给出一个错误的预测。 所以说这种分布偏移的问题,会给现在的深度网络带来很大的挑战。

 

 

对于当下基于独立同分布假设开发的深度学习网络而言,若训练数据和测试数据分布不一致时,模型的泛化性能将会较差。如上图所示,假设训练集包含大量背景为草地的狗,如果在测试时面对一张站在草地上的狗的图片,网络一般可以准确地对图片进行预测;然而,如果测试图片中的背景在训练集中出现地较少或从未出现,则网络的预测效果很可能较差。这种分布偏移问题是当前的深度学习网络面临的重大挑战之一。

 

之所以会出现上述问题,是因为网络学习到的很可能是数据之间的相关性。在上图中,由于训练集中大量存在 「狗站在草地上」 的样本,因此草地的特征和狗的图像特征之间建立了关联,进而在草地的特征和狗的标签之间建立了关联,导致在测试集上对其它背景图片的预测性能有所下降。

 

 

为了解决上述问题,我们试图转而抽取因果特征(例如,部分和整体的因果关系)。在稳定学习框架下,我们重点关注的是物体本身的因果特征,而非环境的特征。

 

如上图所示,ResNet18(第二行)网络不仅关注狗的特征,也关注到了背景的无关特征,而 Stable Net 则主要关注狗本身的特征。

 

 

具体而言,我们采用全局平衡(Global Balancing)方法提取因果特征。给定任意的干预(treatment),我们对训练样本进行加权,从而消除各类特征之间的统计关联性,断开背景与因果特征之间的关联,最终找到更加具有因果关系的特征,实现更加稳定的预测。

 

 

先前的稳定学习方法主要针对较简单的模型(例如,线性模型)开发,考虑的问题主要是消除特征之间的线性相关性。然而,在深度网络中,各类特征之间的相关性通常是非常复杂的非线性相关性。因此,StableNet 首先将所有的特征映射到其随机傅里叶特征的空间中,该步骤将较低维度空间中的特征映射到较高维度的空间中;接着,我们在较高维度的空间中去掉各类特征的线性相关性;这样以来,我们就可以去掉原始的特征空间中特征之间的线性相关性以及非线性相关性,保证特征的严格独立。

 

 

此外,原始的全局重加权方法需要对所有的样本进行操作。然而,在深度学习场景下,训练样本量一般非常大,我们无法对全局样本进行加权。为此,我们提出了一种预存储的方式,将网络之前见过的特征和样本权重存储下来,进而在新的一轮训练中结合当前的特征进行重加权。

 

 

StableNet 的网络架构如上图如所示。网络架构有两个分支,下面的分支为基本的图像分类网络,上面的分支是对样本进行 RFF 映射后再进行重加权的过程。我们可以将两个分支分离开来,从而将StableNet 插入到任何深度学习架构中。

 

目前,在计算机视觉领域的域泛化任务中,我们往往假设训练数据中的异质性十分显着,且各个域的样本容量相当。这在一定程度上限制了在 CV 领域中对 OOD 泛化方法进行验证。

 

 

本文作者基于 PACS 和 VLCS 两个数据集构建了各个图片域数量不平衡的实验环境,有一些图片域占据主导地位,具有更强的虚假关联。 在该设定下,StableNet 相较于对比基线具有最佳的泛化性能。

 

 

在更加灵活的 OOD 泛化场景下,不同类别的图像所处的域可能不同。在该场景下,StableNet 的性能仍优于所有的对比基线。

 

 

在对抗性 OOD 泛化场景下,域和标签的虚假关联很强(例如,训练集中的大部分数字 1 的颜色为绿色,数字 2 为黄色;在测试时两种数字的颜色与训练集中相反)。StableNet 在几乎所有的实验设定下都超过了现有的方法。

 

3

 

清华大学 徐韧喆:稳定学习——对协变量迁移的理论分析

 

 

目前,稳定学习算法已经在一些深度学习任务中展现出了对协变量偏移泛化的有效性,但是相关的理论分析仍较为有限。在本文中,作者将稳定学习算法解释为一种特征选择机制,选择出来的特征是能够解决协变量泛化问题的最小且最优的集合。具体而言,「最优」指的是选择出来的特征可以有效解决协变量偏移问题;「最小」指的是忽略无关变量,消除其在协变量偏移场景下的负面影响。

 

研究背景

 

协变量偏移泛化

 

 

「协变量迁移」指的是测试和训练数据中输入特征 x 的分布不同,而特征 x 对标签 y 的产生机制不变。「协变量迁移泛化」问题要求测试时的数据分布和训练时的数据分布存在协变量迁移,且测试时的数据分布未知。

 

稳定学习算法

 

 

通常而言,稳定学习算法包含以下 两个步骤:

 

(1)重要性采样:学习一组样本权重,使得新分布中的各维变量严格相互独立(2)加权最小二乘:利用重要性采样学习到的样本权重训练加权的最小二乘回归模型。

 

 

现有的常见稳定学习算法包括:

 

(1)DWR 算法,学习一组样本权重,使任意两个特征之间线性无关

 

(2)StableNet:引入随机傅里叶特征机制,使变量之间在深度学习场景下严格独立

 

(3)SRDO:明确目标分布,并采用密度比估计进行重要性采样,学习样本权重。上述算法通过不同的方式学习出使 X 更为独立的加权函数。

 

在本文中,作者假设数据满足严格正密度假设,即将输入样本的不同特征维度所有取值的组合都有可能发生,即:

 

协变量偏移泛化的最优、最小变量

 

最优变量集合 S 是X 的子集。给定训练数据分布 ,训练算法 L,评价指标 M,最优变量 S 在预测 Y 的任务中可以得到最优的 M。最优且最小的变量指的是最小的 S 子集。

 

 

在严格正密度假设下, 对于一些常见的损失函数(例如,MSE 损失,二分交叉熵损失)往往是使得评价指标 M 最大的最优解。令 S 为 X 的子集,则:

 

(1)当且仅当 时,S 为分布 下对 Y 的最优变量,我们将这样的 S 定义为稳定变量集合。

 

(2)当且仅当 且没有 满足 时,S 为分布下对 Y 的最小且最优变量,我们将这样的 S 定义为最小稳定变量集合。

 

可以证明,在严格正密度假设下,最小稳定变量集合是存在且唯一的。稳定学习的目标正是针对协变量迁移泛化问题寻找一组最小且最优的变量。

 

稳定学习算法的理论分析

 

如前文所述,在稳定学习算法框架下,我们首先要寻找一组采样权重,使重加权后的各位特征X严格独立,进而通过加权最小二乘让模型拟合独立的数据。进一步,我们可以将学习到的加权后的系数 看做对 特征的选择,将稳定学习解释为一种特征选择算法。具体而言,若 非零,则选用对应的,否则就剔除对应的。

 

 

可以证明,在理想情况下(样本量无限大,准确学习到样本权重),若不在最小稳定变量集合中,则对于任意的 ,稳定学习算法可以剔除特征。若在最小稳定变量集合中,则存在 ,通过稳定学习算法可以找到特征。

 

与马尔可夫毯/边界的对比

 

 

相较之下,马尔科夫边界要求 ,即严格的条件独立;而最小稳定变量集则要求条件线性无关。在因果图中,在一定的假设下,马尔科夫边界可以解释成变量 Y 的父节点、孩子节点和兄弟节点,它对应能够预测 Y 的最小集合,该预测定义在 上。

 

 

可以看出,最小稳定变量集合是马尔科夫边界的子集。但是在协变量迁移泛化场景下,并不一定需要满足马尔科夫边界的要求。相较之下,最小稳定变量集合要求评价指标 M 在 被精确估计时取最大值,而马尔科夫边界则要求评价指标 M 在 被精确估计时取最大值。然而, 往往难以估计也不必要精确估计。

 

综上所述,严格的马尔科夫边界要求我们进行条件独立性检测,这是一种困难的假设检验任务,而稳定学习可以求解相对容易的最小稳定变量集合。 此外,对于常见的损失函数,马尔科夫边界并不是解决协变量迁移泛化的最小、最优的变量集合。 ( 详见参考文献: https://arxiv.org/pdf/2111.02355.pdf)

 

4

 

浙江大学况琨:通过工具变量回归实现因果泛化

 

因果关系与稳定学习

 

如前文所述,现有的基于关联关系的机器学习算法存在一定的不稳定性。为此,研究者们提出了稳定预测/学习的框架,重点关注对未知的测试数据进行准确、稳定的预测。

 

 

现有的机器学习算法之所以不稳定,是因为这些算法是关联驱动的,而数据中存在大量的偏差,可能会导致模型提取出一些非因果关系的特征(虚假关联),从而导致模型不可解释、不稳定。为此,我们试图恢复出每个特征变量和标签 Y 之间的因果关系,从而找出因果特征。

 

 

2018 年,崔鹏老师、况琨老师等人提出了因果正则化技术,通过学习到全局权重使得变量之间相互独立,通过将该技术应用到逻辑回归、浅层深度网络等模型上,可以取得一定的性能提升。这种寻找因果关系的过程要求我们能够观测到所有的特征,然而有时一些因果特征是我们无法观测到的。

 

工具变量回归

 

 

在因果科学领域,研究者们以往通过工具变量(InstrumentalVariable)处理未观测到的变量。如上图所示,假设我们需要估计 T(干预)和 Y(结果)之间的因果效应,U 为未观测到的变量。 工具变量 Z 必须满足以下三个条件:(1)Z 与 T 相关(2)Z 与 U 相互独立(3)Z 需要通过 T 影响 Y。

 

找到合适的工具变量 Z 后,我们可以通过二阶段最小二乘方法估计 T 与 Y 之间的因果效应。在第一阶段,我们根据 Z 回归 T,从而得到 ;在第二阶段,我们根据回归 Y,从而估计出T 与 Y 之间的因果函数。在上图左下角的例子中,黄色的曲线代表直接用神经网络回归的结果,红色的曲线代表引入工具变量后通过二阶段最小二乘回归得到的结果。实验结果表明,红色的曲线对原函数的拟合程度更好。

 

 

原始的工具变量回归方法以来于一些较强的线性假设。为此,近年来一些计算机研究人员提出了非线性的工具变量回归算法(例如,DeepIV、KernelIV 等)。从理论上说,在第一阶段,我们通过 Z 和 X 回归 T,得到;在第二阶段,我们通过和 X 回归 Y。此时,回归函数是非线性的。

 

然而,在实验中,DeepIV、KernelIV 等方法的效果并没有达到预期,这是因为第一阶段的回归为第二阶段引入了混淆偏差。在这里,我们考虑将混淆因子均衡引入工具变量回归中,从而解决这种混淆偏差问题。具体而言,在第一阶段的回归之后,我们会学习一种均衡的混淆因子表征 ,使得与无关。接着,在第二阶段,我们通过和回归 Y。

 

 

在使用原始的工具变量回归方法时,我们往往需要预先定义一个工具变量。在论文「Auto IV:Counterfactual Prediction viaAutomatic Instrumental Variable Decomposition」中,况琨博士等人在给定干预 T,输出结果 Y,观测到的混淆因子 X,未观测到的混淆因子 U 的情况下,从观测到的混淆因子 X 中解耦出工具变量。尽管分理出的工具变量可能不具备明确的物理意义,但是它满足前文提到的工具变量所需要满足的三个属性。这样生成的工具变量可以帮助我们估计 T 和 Y 之间的关系。具体而言,我们通过互信息判断特征之间的条件独立性,以及表征学习实现解耦操作。

 

通过工具变量回归实现因果泛化

 

 

工具变量回归可以被用于域泛化、不变因果预测、因果迁移学习等任务中。以域泛化为例,给定来自不同观测环境中的数据,该任务旨在利用给定的 X 预测 Y。我们希望从多个数据域(环境)中学习不变性,使得预测模型对于所有可能的环境都鲁棒。

 

 

在通过工具变量回归解决域泛化问题时,首先,我们通过因果图刻画各个域中数据的生成过程(DGP)。对于域 m,在生成样本数据 X时,除了样本的域不变性特征之外,还可能受到域特定特征(例如,光照、天气)的影响;在为样本打标签时,标注者除了会考虑图片样本特征,也会受到域特定特征的影响。

 

在这里,我们假设各个域间具有不变性特征,且 X 和 Y 之间的关系是不变的。纵观多个域中的数据生成过程,域 n 中的样本 恰好是域 m 中样本 的工具变量,满足上述工具变量的三个特性。因此,我们可以通过工具变量回归的方式学习 X 和Y 之间的因果效应 f。

 

 

在具体的求解过程中,我们首先通过工具变量回归,即估计 。接着,我们利用近似出的 和 学习不变性函数 。值得注意的是,在通过工具变量进行域泛化时,我们只需要一个域中的标签Y,以及其它域中的无标签数据 X。

 

机器学习技术在计算机视觉、自然语言处理等领域得到了广泛的应用。然而,当下的机器学习技术大多以挖掘数据的关联性为基础,可能会带来稳定性、可解释性、公平性等方面的一系列不足。因此, 如何将因果统计融入机器学习的框架,成为了一个具有挑战性的基础问题。 稳定学习的目标正是寻找机器学习和因果统计的共同基础。

 

上期推文中,我们分享了来自 清华大学计算机系长聘副教授、智源青年科学家崔鹏,以及清华大学计算机系张兴璇博士、徐韧喆博士,浙江大学计算机学院副教授况琨四位学者的观点。 本期我们将继续为大家带来, 清华大学计算机系刘家硕博士和何玥博士 在报告会上的分享。

 

5

 

清华大学刘家硕:从异质性数据到分布外泛化

 

分布外泛化的背景

 

 

经验损失风险最小化(ERM)是目前最常用的优化算法,该算法优化的是所有数据点的平均损失,所有样本的权重都是1/N。如上图所示,当数据中存在异质性时,数据集中的样本分布并不均衡。因此,通过 ERM 算法进行优化可能会更加关注出现较多的群体,而忽视出现较少的群体对损失的影响。

 

 

具体而言,在真实场景中,我们采集到的不同来源的数据分布可能不均衡,存在一定的异质性。通过 ERM 对模型进行优化时,尽管可以在整体上获得较高的准确率,但这可能是由于模型对数据集中多数群体的预测性能很完美,而在少数群体上的预测效果并不一定很好。

 

如上图所示,当训练数据分布与测试数据分布一致时,若使用 ERM 算法进行优化,模型的泛化性能是有理论保证的。然而,如果数据的分布出现了偏移,则 ERM 算法的得到的模型的泛化性能可能较差。

 

因此,我们应该充分考虑数据 的异质性,设计更加合理的风险最小化方法,为不同的样本点施加合适的权重,使得模型对多数群体和少数群体都有较好的预测能力,从而提升模型的泛化性能。

 

 

如上图所示,OOD 泛化问题旨在保证模型在发生分布偏移时的泛化能力,即通过「min-max」优化找到一组参数 ,使得模型在最差的环境下的表现性能能够接受。考虑到分布偏移的情况,在不同环境下采集到的数据的 X 和 Y 的联合分布也有所区别。

 

异质性风险最小化

 

 

我们从不变性学习的角度试图解决 OOD 泛化问题。在此,我们假设随机变量 满足以下假设:(1)不变性假设:在不同的环境下,特征与标签 Y 的关系是稳定不变的(2)充分性假设:标签 Y 可以完全由产生。基于以上两点假设,使用特征做预测可以以较高的准确率实现跨环境的稳定预测,是一种具有因果效应的不变特征。

 

要想找到上述不变特征,我们需要对环境有很强的约束。现有的许多不变性学习方法都会针对从多个环境中寻找符合上述性质的特征。然而,在真实情况下,许多数据集是收集自多个不同数据源的混合数据,我们往往很难为环境保留明确且对模型学习真正有效的标签。

 

 

针对混杂环境下数据存在异质性的现象,刘家硕博士等人提出了异质性风险最小化框架(HRM)。首先,我们假设数据中存在跨环境变化十分剧烈的部分 ,不同环境下的 与 Y 的关系存在差异。

 

接着,我们将异质性风险最小化问题定义为:给定存在异质性的混合数据集D,在缺乏环境标签的条件下,旨在学习到不变性特征的集合,使模型具有更好的 OOD 泛化能力。

 

 

如上图所示,HRM 算法框架包含以下 两个模块:(1)异质性识别模块 (2)不变性预测模块 。在不断的迭代中,上述两个模块会相互促进。

 

具体而言,我们首先通过模块学习混合数据集中不稳定的特征,识别出数据中具有异质性的环境,得到具有强异质性的环境 。接着,我们通过不变性学习模块学习中不变的特征 。

 

数据中存在相互依赖的变化的部分和不变的部分,我们对学到的不变特征进行转化,可以得到变化的特征 ,二者相互促进。为了得到较好的理论性质,作者在本文中重点关注较为简单的数据,通过上图中的简单特征选择过程得到和。 ( 详细算法细节见论文:https://arxiv.org/abs/2105.03818 )

 

核异质风险最小化

 

 

HRM 算法无法处理复杂的数据(例如,图片、文本)。在 KerHRM 中,刘家硕博士等人将 HRM 算法拓展至更加复杂的数据类型上。

 

在 HRM 算法流程的基础之上,刘家硕博士等人在 KerHRM 中引入了神经正切核(NTK)。根据 NTK 理论,神经网络(例如,MLP)的操作等价于在复杂的特征空间中进行线性回归。

 

如上图中的公式(5)所示,假设神经网络的参数为 w,输入数据为 X。对在 的位置的做泰勒展开,根据模型参数的一阶泰勒展开式可以发现的作用相当于在梯度项上做线性操作。因此,通过 NTK 技术,我们可以将复杂的神经网络操作转变为在神经正切特征上进行线性回归。

 

通过上述方式,我们可以将 HRM 应用到较为复杂的数据上,同时保留 HRM 框架的特性。KerHRM通过构造一组正交的核区分数据中稳定和不稳定的部分。 ( 详细算法见论文:https://arxiv.org/abs/2110.12425 )

 

仿真实验:Colored MNIST

 

 

本文作者采用与论文「Invariant RiskMinimization」中相同的实验设定,测试了 KerHRM 方法在 Colored MNIST 数据集上的性能。在该实验环境下,作者将 MNIST 中 0-4 的数字标记为「0」类,将「5-9」的数字标记为「1」类,从而将十分类问题改造为了二分类问题。

 

接着,作者将「0」类中大部分的图片染成某种颜色,将「1」类中大部分的图片染成另一种颜色,从而构建了数字标签和颜色之间的虚假关联。在测试时,我们将图片的染色情况翻转过来,此时传统的机器学习模型的性能往往会大幅下降。

 

 

实验结果如上图所示, 随着迭代轮数的增加,KerHRM 框架学习到的环境的异质性逐渐变大,测试时的预测准确率也递增。 同时,训练时和测试时准确率的差距在逐渐缩小。可见,OOD 泛化的性能和我们构造的环境的异质性程度呈十分强的正相关,异质性对于 OOD 泛化性能十分重要。因此,环境标签的质量(异质性)对于泛化性能也会有很大的影响。

 

小结

 

 

KerHRM 框架仍然具有一些不足之处。尽管通过引入了 NTK,但是仍然难以处理现代深度学习模型面对的大型的图片、长文本等更加复杂的数据。如何将现代深度学习模型引入到 KerHRM 框架中仍然有待探索。

 

此外,对 OOD 泛化问题的研究,仍然面临以下开放性问题:

 

(1)如何形式化定义OOD 泛化问题?如何度量其可学习性。

 

(2)需要在多复杂的环境下研究 OOD 泛化问题?

 

(3)现有的数据集是否支持我们验证 OOD 泛化能力?

 

(4)如何通过引入与训练模型处理更加复杂的数据?

 

6

 

清华大学 何玥:分布外泛化图像数据集——NICO

 

非独立同分布图像分类

 

 

图像分类是计算机视觉领域中最基础、最重要的任务之一。在传统的独立同分布假设下,通过最小化训练集上的经验损失,现有的深度学习模型已经可以在测试时达到很好的预测性能。然而,在真实情况下采集到的数据集很难满足独立同分布假设,训练集几乎不可能覆盖所有的测试样本中的数据分布情况。此时,如果我们依然通过最小化模型在训练集上的经验损失来优化模型,往往会导致模型在测试时的性能严重下降。

 

如上图所示,训练数据和测试数据中猫和狗所处的背景差异很大,并不满足独立同分布假设,深度学习模型可能会错误地将背景当做对图片进行分类的标准。而人类对此类分类问题则天然地具有很强的泛化能力,好的分类模型也应该对这种背景分布的变化不敏感。

 

 

我们将该问题称为非独立同分布的图像分类问题,其中训练集和测试集中的数据分布不同。 此类问题包含两种子任务:(1)Targeted Non-I.I.D 图像分类 :测试集中的部分信息已知,我们可以借助迁移学习等方法将当前训练好的模型迁移到目标域的数据分布上,实现较好的预测性能 (2)General Non-I.I.D 图像分类 :利用不变性等机制,将学习到的模型以较高准确率泛化到任意未知数据分布上。

 

实际上,非独立同分布场景下的学习问题对计算机视觉任务十分重要。在自动驾驶、自动救援等场景下,我们希望模型能够迅速识别不常见但非常危险的情况。

 

衡量数据分布差异

 

 

为了刻画分布之间的差异,我们定义了一种名为「NI」的指标。在计算 NI 的过程中,我们利用预训练好的通用视觉模型提取图像特征,然后在特征层面上计算两个分布之间的一阶矩距离,并采用分布的方差进行归一化。大量实验证明,NI 对图像分布差异的描述是较为鲁棒的。此外,在有限采样的情况下,数据分布偏差无处不在,随着数据分布偏差变强,分类模型的错误率也不断提升。

 

 

实际上,分布偏移现象广泛的存在PASCAL VOC、ImageNet、MSCOCO 等标杆数据集中。以 ImageNet 为例,我们首先选取了 10 个常见的动物类别,然后针对每类动物选取不同的子类,形成了不同的三个数据集 A、B、C。

 

接着,我们采集了一些固定的测试样本。通过测量 NI,我们发现不同的数据集存在数据分布偏差,但是这种偏差较弱,且这种数据偏差不可控,分布偏差的大小随机。 为了推动 OOD 泛化在视觉领域的研究,我们构建 了存在明显的数据分布偏差,且偏差可调节的视觉数据集——NICO。

 

NICO数据集

 

 

首先,我们考虑从图片中分解出主体和上下文的视觉概念。如上图所示,主体可能为猫或狗,上下文可能为主体的姿态、背景、颜色等概念。通过在训练和测试中组合不同的主体和上下文,我们可以形成数据分布的差异。

 

 

上下文概念来自于真实世界,我们可以从很多角度描述上下文,进而描述一种有偏的数据分布。当上下文和主体的组合有意义时,我们可以很容易地收集到足够多的图像。

 

目前公开的 NICO 数据集具有如上图所示的层次结构。动物和交通工具两个超类包含 9-10 个主体类别,每个主体类别拥有一系列上下文概念。我们希望上下文尽可能多样,且主体与上下文的组合有意义,各个上下文之间有一定的重叠。此外,我们要求每类主体和上下文组合的样本数量尽可能均衡,不同上下文之间的差异尽可能大。

 

和独立同分布的经典数据集相比,由于 NICO 引入了上下文概念,且图像是非中心化、非规则的,所以 NICO 数据集上的图像分类任务更加具有挑战性。

 

 

面对有限样本,无论如何采样都会产生一定程度的数据分布偏差,这是由图像本身的性质,以及采样规模的差异造成的。在 NICO 数据集中,我们通过随机采样的方式模拟近似独立同分布的场景。与ImageNet 数据集相比,确实 NICO 引入了非中心化性质/上下文概念,其识别任务更加困难。

 

OOD 泛化——比例偏差

 

 

当测试数据和训练数据分布存在「比例偏差」时,我们要求训练集和测试集数据都包含所有类别上下文,但是我们在训练和测试中选择不同的上下文作为主导上下文(在整采集的图像中占比较高)。通过在训练和测试中设置不同的主导上下文,我们可以自然地形成数据分布的差异。

 

在这里,我们还定义了「主导率」(Dominant Ratio)指标来刻画具有主导上下文的样本量具有其它上下文的样本量的比例。如上图所示,随着主导率的提升,训练和测试数据之间的分布差异越来越大,对模型准确率的影响也越来越大,

 

OOD 泛化——成分偏差

 

 

「成分偏差」模拟了我们在训练数据、测试数据采样时的时空限制。在该设定下,训练集并不包含所有类别的上下文,有一些测试集中的上下文是训练中未曾见过的。随着训练集包含上下文的种类减少,测试集和训练集的数据分布差异递增,模型学习的效果也越来越差。

 

为了实现更大的数据分布偏差,我们还可以组合成分偏差和比例偏差。我们可以要求某些类别上下文在训练集包含的上下文中占据主导地位,即通过同时调节训练集可见上下文的数量和主导率控制数据分布偏差的程度,进而观察模型在不同数据偏差场景下表现出的性能。

 

OOD 泛化——对抗攻击

 

 

在「对抗偏差」场景下,我们选择某些类样本作为正类,其它类别的样本作为负类。接着,我们定义某种上下文只出现在训练集的正类中,以及测试集的负类中。此时,模型就会错误地将该上下文与正类联系到一起,从而在测试时取得较差的性能。我们将这种上下文称为混淆上下文,随着混淆上下文比例的增加,模型对正类的学习越来越容易受到虚假关联的影响。

 

小结

 

 

综上所述,在不同的场景下,我们通过这种有效的调节手段(例如,主导率、上下文个数、混淆上下文的比例),利用 NICO 数据集形成显着 的数据分布差异,并控制这种差异的大小,从而支持各种 OOD 场景下的研 究。 研究者们可以利用 NICO 数据集设计有效的算法实现一般性的非独立同分布图像分类,学习具有不变性的模型。

 

 

最近,崔鹏老师课题组开始对 NICO 进行扩充,旨在满足研究者对更深、更大规模模型的训练。具体而言,新 NICO 数据集中的样本类别具有更多的层次,各层次的类别尽可能均匀、多样。此外,新的NICO 数据集还将上下文细分为「公有上下文」(所有类别都包含的上下文概念)、「私有上下文」(某些类别特有的上下文)。

 

 

为了更好地构建公有上下文,我们认为公有上下文相当于一系列等价类,即每一类共有上下文并不一定具体对应某个词,而是对应于具有共性的词的集合。通过这些词的共性,我们可以引入数据分布的偏差,找到有偏的数据环境。目前,我们是计划将 NICo 扩展到大概 80 个主体类别,10 类公有上下文,每个类别至少有 10 类私有上下文。

 

 

崔鹏老师研究组计划依托NICO 扩展版数据集发起跨分布泛化的视觉识别挑战赛。 该挑战赛下设两个赛道,旨在测试模型在未知环境上的泛化性能:(1)域泛化:模型训练时利用对齐的、有域标签的上下文(2)一般性分布 外泛化:模型训练时每类样本上下文标签未知。

 

NICO 数据集下载地址:http://nico.thumedialab.com/

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。