Press "Enter" to skip to content

CUT简介 — Contrastive Learning for Unpaired Image-to-Image Translation

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

CUT简介 — Contrastive Learning for Unpaired Image-to-Image Translation

 

Taesung Park, Alexei A. Efros, Richard Zhang, Jun-Yan Zhu. Contrastive Learning for Unpaired Image-to-Image Translation . In ECCV’20.

 

ECCV 2020 paper

 

Paper link: https://arxiv.org/abs/2007.15651

 

Github(Pytorch): https://github.com/taesungp/contrastive-unpaired-translation

 

Video link: https://www.youtube.com/watch?v=jSGOzjmN8q0

 

有时间的人非常推荐观看,下文大量使用影片所使用之投影片。

 

简介

 

本文对于非监督式图像转换任务(Unsupervised image-to-image translation)提出新的框架,

 

该框架摆脱以往 Cycle-GAN 需要 2 组 GAN 并使用 Cycle-consistency loss 的架构,

 

改为利用对比学习(Contrastive Learning)来鼓励输出的图片相似输入图片,

 

因此该模型只需要一组 GAN 即可进行图像转换,

 

以下图为例,透过对比学习让右边斑马的头部区块要相似左边马的头部,

 

并且利用斑马的其他部位或是背景(e.g., 脚、草地等)作为负样本(Negative),

 

透过这概念将整张图切分为图像区块(Patch)进行对比学习。

 

概念

 

以马变成斑马的图像转换任务为例,

 

模型会希望将马的部分可以转换成斑马,

 

此部分我们称作外观(Apperance),

 

而背景或是其他部分保持不变,此处称作结构(Content)。

 

以往的做法是透过 GAN 的对抗式学习来让外观部分学习如何变成斑马,

 

并利用 Cycle-consistency loss 来学习两者的关联性,

 

然而这项条件有时候其实是太过严苛,

 

以下图斑马转换成马的任务为例,

 

假设一开始是棕马转换成斑马,之后再从斑马转换成白马,

 

但仅仅是颜色变换就会使 Cycle-consistency loss 认为这转换的不好。

 

下图为 Cycle-consistency loss 的示意图。

 

因此本论文提出一种替代方法,

 

透过学习 Mutual information 来学习图片中的结构,

 

此概念是来自该篇论文 INFONCE Loss — Representation Learning with Contrastive Predictive Coding

 

在非监督式的学习中,希望能让模型学会高阶的特徵,

 

Mutual Information(相互资讯) 的概念去学习一个 Latent vector — c。

 

未来可透过该 Latent vector 只要在结合几层 Linear classification 就可以有不错的分类效果。

 

概念可以去看此篇 简介 Self-Supervised Learning 的近期发展 (2018–2020)

 

最终达成不需 Cycle-consistency loss 就可以有不错的图像转换效果。

 

模型架构

 

Step1. Adversarial learning

 

首先将一张图片经过 Generator 生成出图片接着进行对抗式学习,

 

让 Generator 经由 Adversarial loss 来学习如何输出一张像目标种类的图片。

 

接着我们补充一些生成器的细节,

 

虽然架构图上面写 G(Generator),

 

但其实 G 是 由 Encoder 和 Decoder 组成。

 

Step2. Contrastive learning

 

接着会进行对比训练(Contrastive learning),

 

简单来说我们要希望模型可以有效的学会某个特徵时(称做 Query),

 

我们会利用正样本(Positive)以及负样本(Negative)来学习,

 

而在图像转换的任务中可以透过提取相同图像位置的区块作为正样本,

 

而其他部分就是负样本。

 

将输入图像以及转换后的图像相同区块(下图为马的头)的部分我们希望越像越好,

 

而马的头与其他部分(马的背、马的脚、背景)与马的头不相关的部分越不像越好,

 

因此在做的事情等同于利用 Cross-entropy 在训练分类器。

 

写成数学式就会变成这样, v+(Postive)、v-(Negative)

 

值得一提的是以往是透过整张图片来进行对比学习,

 

MoCo: He et al., CVPR20; SimCLR: Chen et al., ICML20

 

而本论文是基于图像区块(Patch)来实作的。

 

补充架构的细节:整体架构是 Generator(Encoder + Decoder) + Discriminator + MLP Network(H)

 

以往 GAN 架构只要 Generator + Discriminator,

 

而本文增加对比训练,

 

因此还会透过 Generator 中的 Encoder 与 MLP 进行对比学习。

 

Multilayer, patchwise constractive learning

 

简单来说是依据不同大小的图像区块进行学习,

 

Encoder 中不同的 Layer 所输出的特徵大小不同,

 

而利用不同尺度的特徵进行对比学习可以让模型学得更好。

 

而接着也对资料集内(External)的所有图片进行对比学习,

 

然而成效却没有 Patch 的方式好。

 

而作者也提出了该原因可能是因为利用其他图片的 Patch 会不小心取样到 Positive 的部分却作为 Negative 做学习,

 

如上图,当我们目前所 Query 的是马的头部,

 

但当取样整个资料集时,

 

我们不知道该图片哪个部分是马的头部,

 

所以可能会取错图片区块,造成 False negative。

 

最终的训练公式如下:

 

上方的 휆y 指的是 Identity loss。

 

成果

 

而本文提出两种设定

CUT(採用 Identity loss): 휆x = 1, 휆y = 1
FastCUT(不採用 Identity loss): 휆x = 10, 휆y = 0

Last layer only 指的是没有使用 Multilayer 的方式做对比学习。

 

透过视觉化解释 Encoder 有办法呈现整张图与该点相关性。

 

透过将高解析度的影像拆解成小区块(128 x 128)训练,

 

此处有一些细节如送进 Discriminator 会再切分成 64 x 64 的图像大小等等的,称之为 SinCUT,

 

有兴趣的去看实验部分,下方为高解析度画风转换。

 

在 GTA5 以及 Cityscapes 的画风转换。

 

参考资料:

 

Contrastive Learning for Unpaired Image-to-Image Translation

 

Youtube CUT: Contrastive Learning for Unpaired Image-to-Image Translation

 

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

 

简介 Self-Supervised Learning 的近期发展 (2018–2020)

 

同步发表于: Xiaosean的个人网站

 

Related Articles

 

Bayesian Neural Network Series Post 2: Background Knowledge

 

18. January 2019

 

Deep Learning para Sistemas de Recomendação (Parte 3) — Recomendação por Similaridade

 

26. October 2019

 

Simple Character-based Neural Language Model for Poem Generator using Keras

 

8. December 2019

 

The Most Basic Analysis of Data that We All Need to Know

 

30. January 2018

 

 

Request for deletion

 

Impressum

Impressum

About

 

MC.AI – Aggregated news about artificial intelligence

 

MC.AI collects interesting articles and news about artificial intelligence and related areas. The contributions come from various open sources and are presented here in a collected form.

 

The copyrights are held by the original authors, the source is indicated with each contribution.

 

Contributions which should be deleted from this platform can be reported using the appropriate form (within the contribution).

 

MC.AI is open for direct submissions, we look forward to your contribution!

 

Search on MC.AI


mc.ai aggregates articles from different sources – copyright remains at original authors

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注