Press "Enter" to skip to content

ICCV 2021 | 马里兰大学&马普所&英伟达联合提出生成对抗网络最新工作成果

当今最好的生成对抗网络(StyleGAN2)在复杂数据上仍频繁出现肉眼可见的瑕疵,使得这个方向充满进展空间。为此, 马里兰大学与马克斯普朗克研究所联合培养博士于宁 等人从损失函数和网络架构方面对GANs进行长足改进。最终实验表明,在Frechet Inception Distance (FID)度量下,本文方案在各个数据集上有高达17.5% – 47.5%的性能提升,从而奠定了图像生成的最新前沿。

 

 

论文链接:

 

https://arxiv.org/pdf/2103.16748.pdf

 

代码链接:

 

https://github.com/ningyu1991/AttentionDualContrastGAN

 

海报链接:

 

https://github.com/ningyu1991/AttentionDualContrastGAN

 

视 频链接:

 

https://www.youtube.com/watch?v=hviCTQJzhd0

 

一、背景与动机

 

生成对抗网络(GANs)让图像生成技术有了质的飞跃和长足发展,得益于四个维度的突破:大数据驱动、损失函数设计、网络架构设计、优化算法设计。然而当今最好的生成对抗网络(StyleGAN2)[1]在复杂数据上仍频繁出现肉眼可见的瑕疵,我们为此在 损失函数 和 网络架构 方面寻找原因。

 

损失函数 方面,人们常常使用判别器进行真假二分类,但判别器总是对有限的真实图像过拟合,从而对不断进化的生成器和生成图像没有普适性,失去有效表征和反馈,最终无法激励生成器向正确方向优化,无法产生全部图像模态(又称 模态塌缩mode collapse )。

 

网络架构 方面,StyleGAN2移除了在图像识别领域广泛证明有效的自注意力机制(self-attention),因而暴露出卷积层的固有问题,也就是卷积核视野狭小(空间3×3)并且不同位置都不得不和同一个卷积核进行运算,这最终导致生成图像中出现 不连贯的物体结构 。

 

二、贡献

 

针对以上发现,我们认为生成对抗网络的技术层面充满进展空间,因此本文提出五大贡献。

 

1. 针对传统损失函数的不足,我们提出一个 全新的双对比损失函数(dual contrastive loss)  应用于对抗训练,代替传统的真假二分类交叉熵损失函数,使得学到的图像表征更有真假区分性和普适性,从而激励高质量的图像生成。

 

2. 自注意力机制出现在曾经的生成器中但在最新的StyleGAN2中被移除,考虑到自注意力机制的宽视野和空间自适应的优点,我们探索了多种最前沿的 自注意力机制技术用于StyleGAN2的生成器架构中 。

 

3. 一个自然的想法就是在判别器架构中应用同样的自注意力机制,然而我们发现这样只有适得其反的效果,于是我们结合自注意力的优势, 提出了一个全新的参考注意力机制(reference-attention)用于SyleGAN2的判别器中 。我们的技术汇总如图1所示。

 

4. 综合以上技术,我们在不同尺度的数据集上进行了全面实验, 发现我们的损失函数设计和生成器架构改进在各个数据集上都有性能提升 ;对判别器架构的改进在不同数据量下有不同的表现,在小规模数据集上性能提升尤为明显,这为小数据的生成对抗技术打开了全新的思考。

 

5. 结果上来看,我们重新定义了图像生成的最新前沿性能,在各种大规模数据集上 Frechet Inception Distance (FID)指标至少提升17.5% ,尤其是在强几何和光学的CLEVR数据场景下,我们的方法有惊人的47.5%的FID提升。

 

 

图1 技术汇总包含三个方面:自注意力机制(self-attention)用于生成器、参考注意力机制(reference-attention)用于判别器、双对比损失函数(dual contrastive loss)。

 

三、 双对比损失函数(dual contrastive loss)

 

传统的对抗学习损失函数基本思路始终都是对每一个样本单独进行真假二分类,具体到StyleGAN2就是二分类非饱和交叉熵损失函数。受限于有限的真实图像样本,训练得到的判别器容易过拟合于真实图像,而对动态进化的生成器缺乏区分性和普适性。我们发现广泛运用于图像识别的 对比学习(contrastive learning) [2]技术恰好针对的是图像表征的 区分性和普适性 ,于是我们自然启发提出一个全新的双对比损失函数(dual contrastive loss),整批图像样本形成真假对比,贡献于一个统一的损失函数,应用于对抗学习,替换传统的每张图像单独真假二分类。

 

具体来说,训练迭代过程中对于一批真假图像,我们形成两种场景的 “多选一”对比 。第一种场景是 在所有生成图像中混入一张真实图像 ,然后要求判别器把这唯一一张真实图像挑选出来。数学上,将这些图像输入判别器会得到各自的标量输出logit,我们希望唯一一张真实图像的logit要远大于其他logits,从而形成鲜明对比,增加判别器的区分性。由于判别器是作用于一大批图像而非单张图像,这也间接增强了判别器的普适性。类似于多分类问题,我们对这一批logits取softmax操作,然后计算其与one-hot ground truth的交叉熵,这里的one-hot正式代表了那唯一一张真实图像。对于同一批生成图像,我们可以混入不同的一张真实图片,我们把这些不同组态分别进行对比和交叉熵的计算,取平均得到在第一种场景下的对比损失函数如下:

 

 

对偶地,我们可以 在一批真实图像中混入一张生成图像 ,训练判别器将这唯一一张生成图像挑选出来。我们将这些图像的判别器logits取负再取softmax,再与one-hot ground truth取交叉熵。最后我们对不同组态取平均,得到在第二种场景下的对比损失函数如下:

 

 

最后我们把两种场景的损失函数简单相加应用与对抗学习,得到我们的双对比损失函数如下:

 

 

双对比损失函数示意图如图2。

 

 

图2 传统生成对抗网络损失函数和我们的双对比损失函数。

 

实验方面,基于同样的StyleGAN2主干,我们在多个数据集上对比了多种主流传统损失函数表一,我们发现 在绝大部分数据集上双对比损失函数对FID都有提升作用(数值下降) ,在CLEVR数据集上也是表现次优的。

 

 

表1 双对比损失函数在绝大多数数据集上对FID都有提升作用(数值下降)。

 

四、 生成器中的自注意力机制

 

(self-attention)

 

自注意力机制(self-attention)曾出现于图像生成技术[3],后来又被最近的StyleGAN2摒弃。与此同时,自注意力机制的 宽视野 和 空间自适应 的优势在图像识别领域得到了进一步发展和广泛认可,于是我们好奇把最新的自注意力机制SAN[4]和最新的生成对抗网络StyleGAN2结合会收获怎样的效果?具体来说就是在生成器架构中用如图3所示的自注意力机制模块替换一层传统卷积层,至于替换那一层,对不同数据依经验而定。

 

 

图3 自注意力机制和参考注意力机制模块图。左上角的开关用于切换两种机制,主体设计启发于SAN[4]。

 

实验方面,我们探索了各种自注意力机制包括最前沿的SAN用于StyleGAN2生成器,在不同数据集上的对比结果见表2。我们发现 在所有数据集上所有自注意力机制对FID都有提升作用(数值下降),而最前沿的SAN提升最明显 ,在CelebA数据集上提升也是次优的。

 

 

表2 所有自注意力机制对FID都有提升作用(数值下降),而最前沿的SAN在绝大多数数据集上提升最明显。

 

五、 判别器中的参考注意力机制

 

(reference-attention)

 

虽然自注意力机制在生成器中替代卷积层是有益的,然而使用在判别器中却使FID变差(数值上升),见表3。这归因于生成器和判别器训练本身的不平衡。由于判别的任务远比生成的任务简单,进一步提高判别器的性能让两者更加不平衡,从而使对抗学习更不稳定。于是我们考虑保留注意力机制的优点,但是引入任意一张真实图像作为参考, 用于注意力机制中的key和query模块计算 ,我们将此新提出的模块称之为参考注意力机制(reference-attention),见图3左上角的开关。

 

具体来说,就是在判别器中增加一个真实图像的输入,用 Siamese网络架构 并行编码原始图像输入和参考图像输入直至很深的一层(8×8张量尺寸),在 用参考注意力模块融合两个编码 ,最终输入原始图像的判别器logit,详见图1。我们的动机在于,正如在图像识别中引入不同的图像变换作为数据增强,从而增加分类器的鲁棒性,这里我们引入 不同的参考图像,通过参考注意力机制作特征增强,从而增加判别器的鲁棒性 。同时,不同的特征增强,进一步挑战的判别器的任务,让判别器和生成器的难度变得接近,从而使两者训练更均衡。

 

实验方面,我们在多个数据集上对比了原始StyleGAN2、自注意力机制用于判别器、以及参考注意力机制用于判别器,发现不同于自注意力机制的副作用,我们的参考注意力机制全面提升了FID性能(数值下降)。

 

 

表3 不同于自注意力机制的副作用,我们的参考注意力机制全面提升了FID性能(数值下降)。

 

六、综合实验

 

由于我们在各个方面的改进彼此独立,我们直接将其一并用于StyleGAN2主干,并与StyleGAN2原始设计和另一并行前沿技术U-Net GAN[5]进行对比,主要的FID对比见表4,定性对比见图4,更多度量对比见原文补充材料表12和图8-12。 我们的方法一致地优于另两个基准方法,在不同数据集上有至少17.%的FID性能提升(数值下降),尤其是在强几何和光学的CLEVR数据场景下,我们的方法有惊人的47.5%的FID提升。

 

 

表4 我们的方法一致地优于基准方法,在不同数据集上有至少17.%的FID性能提升(数值下降),尤其是在强几何和光学的CLEVR数据场景下,我们的方法有惊人的47.5%的FID提升。

 

 

图4 未经挑选的随机生成的图片直观对比,我们尽量对齐生成图片的布局和结构。最后一行是结合我们所有改进的结果,质量显着优于其他方法,瑕疵明显更少。对比之下,我们用红色边框标出了原始StyleGAN2的瑕疵部分。

 

参考文献

 

[1] Karras, Tero, et al. “Analyzing and improving the image quality of stylegan.” CVPR 2020.

[2] Chen, Ting, et al. “A simple framework for contrastive learning of visual representations.” ICML 2020.

[3] Zhang, Han, et al. “Self-attention generative adversarial networks.” ICML 2019.

[4] Zhao, Hengshuang, Jiaya Jia, and Vladlen Koltun. “Exploring self-attention for image recognition.” CVPR 2020.

[5] Schonfeld, Edgar, Bernt Schiele, and Anna Khoreva. “A u-net based discriminator for generative adversarial networks.” CVPR 2020.

 

//

 

本文作者

 

 

于宁

 

于宁,美国马里兰大学与德国马克斯普朗克研究所联合培养博士,师从Larry Davis教授和Mario Fritz教授。于宁的研究涉猎计算机视觉和安全,尤其深耕于生成模型的应用与其潜在危害的预防。于宁在计算机视觉和计算机安全顶会发表论文多篇,是Twitch研究奖学金获得者、微软小学者、两次Qualcomm创新奖学金提名、以及SPIE最佳学生论文提名。

 

详见其个人主页: https://ningyu1991.github.io/

 

Illustrastion   b y Irina Molchanova from  Icons8

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注