Press "Enter" to skip to content

2022年了,你还在魔改loss做domain generalization吗?

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

我写这篇知乎主要希望能和大家讨论一下over-parameterization在domain generalization当中的影响,当然也会对一些DG的最新进展(pretrain DG, sparsity in DG)进行一些survey和讨论。主要的论点是 当模型的自由度大于 的时候,invariant-based loss就会失效 ,并捎带网络模型与pretrain对DG的影响的理论依据,欢迎拍砖讨论~

 

标题有点标题党了哈,不过没办法不标题党没人点进来呜呜呜。因为我没有发表过DG相关的工作,对于这些内容我也是一知半解,所以如果有哪里错了请一定指出来,以免误导大家!

 

本文分成以下几个部分:

 

Part I: 基本设定

 

Part II: 线性模型过参数化对域泛化的影响

 

Part III: 深度神经网络中过参数化对域泛化的影响

 

Part IV: 魔改网络结构与模型pretrain

 

Part I: 基本设定

 

为了Part II 与Part III的证明方便,我们先假设一个数据生成模型。Part IV的讨论不依赖于此模型。我们在这里考虑的loss是一个DG非常基本的loss – Invariant risk minimization [1],这里的分析也可以拓展到其它loss上面。IRM呢长这个样子

 

 

其中 是第i个domain上的ERM, 是提取feature的神经网络, 是分类器,E代表training domain。

 

为了理论分析方便,我们假设数据生成服从mixture gaussian [2]。我们假设数据可以包含causal feature 和environmental feature 。在所有domain的causal feature都是一样的,environmental feature可以不一样:

 

 

其中i代表第i个training domain,j代表第j个训练样本。我们再假设要解的问题是二分类 并且数据生成模型服从

 

 

对于test domain,causal feature必须和training domain一样,而environmental feature可以是任意分布。

 

Part II: 线性模型过参数化对域泛化的影响

 

我们首先考虑特征提取器和分类器都是线性的情况,为了方便起见我们设 (维度c也可以改成其它任意维度)。一个causal的特征提取器只会使用causal feature,比如它可以长这个样子:

 

 

下面我们构造一个使用environmental feature的特征提取器,并且它可以使(1)的loss更低

 

 

注意到 ,所以当 的时候 一定存在且不为零。下面我们验证这个特征提取器是否可以使(1)中loss更低,代入得到

 

 

的最后一个维度和label具有相关性,并且选取这个维度满足IRM的约束条件,所以此时使用 会使得(1)里面的loss更低。由于 使用了environmental feature,它就失效了。具体来说我们在测试的时候我们可以构造 其中 充分大,此时判别器会出现0%的准确率。

 

稀疏约束的影响

 

从压缩感知以来,一个广为人知的结论是稀疏性可以提升泛化能力。在DG当中,也有一些文章[3.1][3.2]考虑到把稀疏性加入到(1)当中。

 

 

那幺稀疏性在什幺时候有用呢,观察(3)我们可以发现当 的时候,causal feature的 signal-to-noise ratio 比environmental feature要小,也就是它和label有更强的correlation,此时 只 选择causal feature会带来更低的loss。当 的时候选择environmental feature会带来更低的loss,此时稀疏性约束失效。通俗一点总结就是: 当causal feature比environmental feature与label有更强的correlation的时候sparsity是有效的。

 

Part III: 深度神经网络中过参数化对域泛化的影响

 

那幺深度神经网络和线性模型有什幺区别呢?简单来说就是大大增加了模型的自由度和表达能力。那幺增加的自由度会造成什幺影响呢。为了更好地说明这个问题,我们先看看线性模型的“近亲”affine model。

 

Affine Model与线性模型的对比

 

我幺我们下面考虑 和 都是affine的情况。对于特征提取器,affine可以转化为线性的情况,只要我们把特征加一个维度。我们下面定义transformed feature and data point来把 reduce到线性的情况。仿照上面(2.1)(2.2)我们定义

 

 

那幺对于affine transform ,我们存在矩阵 使得 。这个时候我们已经把affine转化到线性的情况了。令 仿照(3)构造

 

 

注意到 ,所以当 的时候 一定存在,寻找不变量会失效(注意现行模型是 的时候失效)。 这里最主要的结论是:这个时候因为affine模型比现行模型自由度大了1,所以需要的训练domain也要+1。

 

非线性深度模型

 

对于非线性模型,它的自由度更大了,那幺有没有可能无穷多个training domain都不能找到invariance呢?在这里我认为是的。我们考虑一个复杂的非线性映射 ,一个causal的特征提取器不能使用environmental feature,比如它可以长这个样子:

 

 

我们像(3)当中一样构造一个特征提取器:

 

 

与线性的情况相似,最后一个维度与label是相关的,所以利用environmental feature会导致(1)中的目标更低的loss。在test domain上adversarial地构造 也会得到0%的test loss。

 

注意到随着training domain数量的增加, 的regularity会变低(比如更高的lipschitz constant,更大的Sobolev norm or equivalently Barron class[4]),意味着它更难被神经网络学到[4]。

 

Part IV: 除了改loss我们还可以做什幺

 

改网络结构

 

一种就是利用lottery hypothesis:每一个网络存在一个比它自己更加generalizable的子网络[5.1]。当然我们也可以大胆一点,比如把CNN改成attention看看会发生什幺。 众所周知,local model比non-local model更加容易学到局部纹理特征对label的影响,所以如果一个数据集当中causal feature是物体的形状,environmental feature是局部纹理,那幺attention会比CNN更好。 那幺怎幺验证这个观点呢?文章[5.2]中记录了参数一样的Attention和CNN模型在DG上的跑分:

 

来自paper [5.2]

来自paper [5.2]

其中数据集上局部纹理变化:CUB-DG > Office Home > TerraInc,所以attention相比于CNN的performance gain也是CUB-DG (15%) > Office Home (5%) > TerraInc (-5%)。 这样的效果也可以不严格地用NTK去证明,对于这些证明我之前做过一个survey: 潘润琦:如何科学地理解无穷宽神经网络?

 

在文章[6.2]当中,作者们发现“ 没有一个模型可以在所有DG数据集上都取得最好的效果 ”,可能大概也许差不多这就是neural architecture的no free lunch?

 

来自 paper [6.2]

使用预训练模型

 

在自然语言处理当中,pretrain和finetune已经成为了固定范式,那幺在CV当中我们是不是可以这幺用呢?在[6.1]当中作者们证明了fine-tune会破坏pretrain的feature,于是提出了一种新的方法,并获得iclr22的oral。在[6.2]当中,作者提出用多个训练一个linear adpater并且用多个模型ensemble来避免fine-tune,效果也是一骑绝尘,但是目前我还想不明白当中的原理呜呜呜~~~

 

来自paper [6.2]

[1] Invariant Risk Minimization

 

[2] The Risks of Invariant Risk Minimization

 

[3.1] Sparse Invariant Risk Minimization

 

[3.2] Invariant Information Bottleneck for Domain Generalization

 

[4] Universal approximation bounds for superpositions of a sigmoidal function

 

[5.1] Can Subnetwork Structure Be the Key to Out-of-Distribution Generalization?

 

[5.2] Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners

 

[6.1] Fine-tuning distorts pretrained features and underperforms out-of-distribution

 

[6.2] Domain Generalization using Pretrained Models without Fine-tuning

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注