Press "Enter" to skip to content

CVPR’2022|利用特征混合正则化(Feature Statistics Mixing Regularization)减轻GAN对图片Style判…

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

FSMR: Feature Statistics Mixing Regularization for Generative Adversarial Networks

 

Paper Link: https:// arxiv.org/pdf/2112.0412 0.pdf

 

Code Link:Yunjey Choi(作者主页,代码还未公开,TBA)

 

Motivation

 

近期众多的分类研究方法表明,分类模型更倾向于学习图片的Style(风格,纹理等)信息,也就是说如果这类信息足够充分从而能够帮助实现较高的分类准确率,模型就不会再学习复杂的表示。由于GAN中的判别器同样可以视作是一个简单的分类器,那幺我们可以推断,判别器也依赖于图片的纹理信息进行判别。这就带来了值得研究的问题:1)判别器对图片Style信息敏感吗?2)如果是的话,让判别器不对Style信息敏感能够提升生成性能吗?

 

Style-bias in GANs

 

我们首先来回答上面的第一个问题,要判断判别器对Style信息是否敏感,需要一个能够衡量判别器对不同Style图片的信息输出的标准,基于此,首先给出相对距离,其计算方式如下图所示:

 

图1 Style Distance 和Content Distance

相对距离由风格距离和内容距离计算得来,风格距离为同一张内容图片经过不同的风格图片风格迁移(由T表示)后,输入到判别器中,判别器对得到的不同风格图片的判别分数距离就是风格距离。

 

 

d表示计算余弦相似度,类似的,内容距离由不同内容图片经过同一张风格图片风格迁移后,判别器对不同的内容图片的判别分数距离就是内容距离。

 

 

这里的相对距离就表示为:

 

 

p越大,就表示Style distance的干扰越大,文章用这一指标来描述判别器对Style的敏感程度。

 

然后对比不同模型在不同数据集上的相对距离,证明判别器对图片风格的确是有敏感性的,如下图所示。

 

图2 不同模型不同数据集的相对距离

Baseline:On-the-fly Stylization

 

那幺如何减轻判别器对Style的敏感性呢?减轻敏感性是否会提升生成性能呢?作者首先给出了一个常规的思路来讨论,那既然判别器对Style是敏感的,那我们可以直接通过一个风格迁移模型将原始训练的图片都进行风格化,然后约束判别器对内容相同,但是风格不同的图片输出要保持一致,就可以降低判别器对Style的敏感性,但实际上,这样的方式,不仅需要收集大量的风格化图片、需要额外训练风格化模型、还需要额外的内存,耗时又费力,这样的方式并不可取。

 

Method:Feature Statistic mixing regularization

 

熟悉风格迁移领域的同学应该知道,AdaIN是非常有效的风格化方式,它通过将内容图片的内容保留并将风格图片的风格很好的迁移到内容图片上:

 

 

那幺借助AdaIN的风格化,FSMR通过实现在训练过程中,取出当前批次的特征x和另外一个随机选取的y,分别当做风格图片和内容图片,让内容图片发生风格迁移:

 

 

具体而言,对于判别器的第 层得到的特征 ,我们选取一个内容特征 和一个风格特征 ,将它们的特征图利用FSM来实现判别器中特征层面的风格迁移:

 

 

通过这样forward的过程,对于 我们最后会得到一个与 相关的图片 ,而判别器对这一风格化后的图片判别为:

 

 

这样隐式的类似于特征增广但是同时实现了风格化的操作,我们需要让判别器对不同风格的图片判别不敏感,那就直接让判别器对原始图片和风格化后的图片判别分数差别尽可能小:

 

 

整体的流程图如下图所示。

 

图3 FSM实现特征层面风格化,并将判别器判别结果拉近流程

Experiments

Visualizing the effect of FSM : 将风格化的中间结果重构出来,对比AdaIN可以看出,FSM能够更好的保留原始的Content信息。

图4 FSM的作用可视化结果

Comparison with the on-the-fly stylization : 与我们前面提及的使用风格化的模型直接对训练图片进行风格迁移,利用一致性约束让判别器对风格迁移后的图像同样不敏感:

 

结果:FSMR不仅在量化性能FID、相对距离上表现更好,而同时所增加的计算代价和内存消耗都是更小的。

 

图5 FID量化指标

图6 相对距离对比

Results on Standard Datasets: 在CIFAR10,FFHQ和AFHQ数据集上进一步验证相对距离、量化指标的,Baseline表示StyleGAN2,结果如下.

图7 Standard 和Small datasets FID对比结果

图8 相对距离对比结果,Resnet50和Resnet50 w/SIN做为分类模型,来验证其对Style不敏感的时候(也就是相对距离更小的时候),准确率更高。这样更能说明相对距离的合理性,以及判别器对风格敏感从而影响判别的结果。

Results on Small Datasets: 将AFHQ分为Dog,Cat和Wild数据集,当数据更小时,FSMR同样有效。
Conditional/Unconditional Generation:有/无条件生成,在baseline上添加FSMR都能进一步提升性能,个人认为这也无可厚非,相当于实现了特征增广,一定程度上实现了更合理的数据增强。

Conditional/Unconditional Generation

Conclusions

 

本文首先分析判别器对图片Style敏感性,提出相对距离进行量化对比,并验证确实存在敏感性, 提出特征层面的风格化后约束判别器对内容图片和风格化后的图片输出一致,来降低判别器语义相同但是风格不同图片的敏感程度,提升了模型性能。作为第一篇做判别中Style信息sensitivity的调研,实验也很丰富,能中CVPR也无可厚非,作者也是响当当的StarGAN和StarGAN2的原作。还提出过GAN中的PRDC评测指标。

 

值得一提的是,去年12月刚投完CVPR的时候就开始找最新的文章,当时对照这DiffAug和ADA的引文一篇一篇看,有没有最新的小样本生成文章,但是这篇文章其实从分类问题可能很新的点出发,分析GAN中的同样现象,其实就算不分析,也一定存在的,但是这样带着问题解决问题并且在所有数据集上都SOTA的文章太吸引人了,也可以学习这类写作的思路,另外,小样本场景下的判别器对Style应当是更加敏感的,也可以拓展这一方向的思路。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。