百年铁木,寻有缘人!微信:18077095366

当前位置: 主页 > 世界

[CVPR2020]StarGANv2_多域艺术风格影像制备,效..._chan_

时间:2022-05-05 01:07

人气:

作者:admin

标签:

导读:[CVPR 2020] StarGAN v2: 多域艺术风格影像制备,效用不可思议,史上最强大!​mp...com/s?__biz=MzU2OTgxNDgxNQ==&mid=&idx=1&sn=5eabc2be625f4d16bccf4&chksm=fcf9b79fcb8e3ecfb71e1fe927fab38cb09f62ac316aa985b584fc58137ab1db&token=&lan...
[CVPR 2020] StarGAN v2: 多域艺术风格影像制备,效用不可思议,史上最强大!mp...com/s?__biz=MzU2OTgxNDgxNQ==&mid=&idx=1&sn=5eabc2be625f4d16bccf4&chksm=fcf9b79fcb8e3ecfb71e1fe927fab38cb09f62ac316aa985b584fc58137ab1db&token=&lang=zh_CN#rd


前言

该文明确提出了StarGAN v2,这是一类能与此同时化解聚合影像多元性和多域扩展性的单个架构。较之于了baselines,它赢得了显著的提高。该文对StarGAN 赢得的听觉产品质量、多元性和可扩展性都展开了校正。

paper: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=
code: https://github.com/clovaai/stargan-v2
cite:
@inproceedings{DBLP:conf/cvpr/ChoiUYH20,
author = {Yunjey Choi and
Youngjung Uh and
Jaejun Yoo and
Jung{-}Woo Ha},
title = {StarGAN v2: Diverse Image Synthesis for Multiple Domains},
booktitle = {{CVPR}},
pages = {8185–8194},
publisher = {{IEEE}},
year = {2020}
}

上方↓前台申明“starGAN2”,方可赢得学术论文电子零件天然资源。


该文产品目录

前言1. Introduction2. StarGAN v22.1. Proposed frameworkGenerator (Figure 2a)Mapping network (Figure 2b)Style encoder(Figure 2c)Discriminator (Figure 2d)


2.2. Training objectivesAdversarial objectiveStyle reconstruction.Style diversification.Preserving source characteristics.Full objective.



3. Experiments3.1. Analysis of individual components3.2. Comparison on diverse image synthesisLatent-guided synthesis.Reference-guided synthesis.Human evaluation.


4. Discussion6. Conclusion




1. Introduction

domain :a set of images that can be grouped as a visually distinctive categorystyle: each image has a unique appearance, which we call style比如,他们能用异性恋做为相同的域,则艺术风格是眼妆、胡须和妆容等(图1的上部份)。An ideal image-to-image translation method : should be able to synthesize images considering the diverse styles in each domain.原有的方式: 只考量的三个域间的态射,当域数目减少的这时候,她们不具备扩展性。StarGAN [6]:one of the earliest models, which learns the mappings between all available domains using a single generator。计算机程序盖隆康条码做为附带的输出,自学影像到相关联域的切换。
不过,StarGAN依然自学每一域的估值合理态射,该态射没捕捉曲线拟合的多模式其本质。StarGAN v2: a scalable approach that can generate diverse images across multiple domains.基于StarGAN,并用他们明确提出的域特定艺术风格代码取代掉了StarGAN的域条码,这个域特定艺术风格代码能表示特定域的相同艺术风格。
为此,他们引入了三个模块,一个态射网络(mapping network),一个艺术风格编码器(style encoder)。mapping network : learns to transform random Gaussian noise into a style code自学如何将随机高斯噪声切换为艺术风格编码style encoder: the encoder learns to extract the style code from a given reference image.而编码器则自学从给定的参考影像中提取艺术风格编码。

在多个域的情况下,这三个模块都拥有多个输出分支,每一个都为特定域提供了艺术风格编码。最终,使用这些艺术风格编码,计算机程序就能成功地自学在多个域下制备艺术风格影像。

2. StarGAN v2

2.1. Proposed framework

他们用X 和Y来分别表示影像和域的集合,给定x属于X 和任意域y属于Y,他们的目标是训练一个单个的计算机程序G ,使它能够根据x针对每一个域y聚合多样化的影像。 他们在每一域自学到的艺术风格空间中聚合域特定的艺术风格向量,并且训练G来表达这个艺术风格向量。图2 阐释了他们架构的概述, 其中包含了如下的四个模块。


Generator (Figure 2a)

计算机程序G(x,s)需要输出影像x和特定艺术风格编码s,s由态射网络F或者艺术风格编码器E提供。
他们使用adaptive instance normalization(AdaIN)来注入s到G中。
s被设计为表示特定域y的艺术风格,从而消除了向G提供y的必要性,并允许G制备所有域的影像。

Mapping network (Figure 2b)

给定一个潜在编码z和一个域y,态射网络F聚合艺术风格编码s = F y ( z ) s = F_y(z)s=Fy​(z),其中F y ( ⋅ ) F_y(\cdot)Fy​(⋅) 表示F相关联于域y的输出。
F由带有多个输出分支的MLP组成,用来为所有可用域提供艺术风格编码。
F 通过随机采样潜在向量z和域y来提供多样化艺术风格编码。
他们的多任务架构允许F高效地自学所有域的艺术风格表达。

Style encoder(Figure 2c)

给定影像x和它相关联的域y,编码器E提取艺术风格编码s = E y ( x ) s = E_y(x)s=Ey​(x). 其中E y ( ⋅ ) E_y(\cdot)Ey​(⋅)表示编码器特定域域y的输出。 和F类似,艺术风格编码器E也受益于多任务自学设置。
E能使用相同参考图片聚合多样化艺术风格编码。
这允许G制备反映参考影像x的艺术风格s的输出影像。

Discriminator (Figure 2d)

判别器D是一个多任务判别器,由多个输出分支组成。
每一分支D y D_yDy​ 自学一个二进制分类决定输出影像x是否是它相关联域y的真实影像,或者是由G产生的假影像G(x,s)

2.2. Training objectives

给定一张影像x和它相关联的原始域y。

Adversarial objective

对抗目标:
他们随机采样潜在编码z和目标域y,并且聚合目标艺术风格编码 s ~ = F y ~ ( z ) \tilde{s} = F_{\tilde{y}}(z)s~=Fy~​​(z).
编码器G 将影像x和s ~ \tilde{s}s~ 做为输出,并通过对抗损失自学聚合输出影像G ( x , s ~ ) G(x,\tilde{s})G(x,s~)


Style reconstruction.

艺术风格重建:
为了增强计算机程序 来在聚合影像G ( x , s ~ ) G(x,\tilde{s})G(x,s~)的这时候,使用艺术风格编码s ~ \tilde{s}s~, 他们采用艺术风格重建损失:


在测试时,他们自学的编码器E允许G变换输出影像,以反映参考影像的艺术风格。

Style diversification.

艺术风格多样化:
为了进一步增强计算机程序G来产生多样化影像,他们用多元性敏感损失来调整G。


其中目标艺术风格编码s ~ 1 \tilde{s}_1s~1​ 和s ~ 2 \tilde{s}_2s~2​由F根据三个随机潜在编码z 1 z_1z1​和z 2 z_2z2​产生。
最大化正则项会迫使G探索影像空间并发原有意义的艺术风格特征,以聚合各种影像。
他们删除了分母部份,并设计了一个新的方程来展开稳定的训练,但要保持直觉。

Preserving source characteristics.

保留原始特征:

为了保证聚合的影像适当地保留输出影像x域无关特征(比如,姿势),他们采用了循环一致性损失:


其中,s ^ = E y ( x ) \hat{s} = E_y(x)s^=Ey​(x) 是输出影像x的估计艺术风格编码,y是x的原始域。
通过鼓励计算机程序G 重新构造带有估计艺术风格编码s ^ \hat{s}s^的输出影像x, G自学在改变艺术风格的与此同时保留x的原始特征。

Full objective.



他们还以与上述目标相同的方式训练模型,在聚合艺术风格编码时使用参考影像而不是潜在向量。 他们在附录中提供了训练详细信息。

3. Experiments

在训练阶段,所有实验均使用看不见的影像展开
baselines:

MUNIT [13]DRIT [22]MSGAN[27]StarGAN [6]

All the baselines are trained using the implementations provided by the authors.

datasets:

CelebA-HQ [17]
分为三个域,男性和女性our new AFHQ dataset (Appendix)
分为三个域,猫,狗,野生动物

评估策略:

Frechét inception distance (FID) [11]learned perceptual image patch similarity (LPIPS) [38].

3.1. Analysis of individual components

We evaluate individual components that are added to our baseline StarGAN using CelebA-HQ.


FID 表示真实和聚合影像的分布间的距离,越小越好,LPIPS表示聚合影像的多元性,越大越好

一个输出影像在相同配置情况下的相应聚合影像如图3所示。


baseline 配置(A)就相当于是StarGAN。
如图3a所示,StarGAN程序只通过在输出影像上展开了眼妆的局部改变。
配置(F)相关联着他们明确提出的方式 StarGAN v2

图4展示了StarGAN v2 能制备参照包括妆容、眼妆和胡须在内的反应多样化艺术风格的影像,与此同时,还没破坏原有的特征。


自学了眼妆、发现、胡须等艺术风格,保留了姿势和身份。

3.2. Comparison on diverse image synthesis

In this section, we evaluate StarGAN v2 on diverse image synthesis from two perspectives: latent-guided synthesis and reference-guided synthesis.

Latent-guided synthesis.

潜在引导制备


图5提供了产品质量的比较。


For both CelebA-HQ and AFHQ, our method achieves FIDs of 13.8 and 16.3, respectively, which are more than two times improvement over the previous leading method.

Reference-guided synthesis.

参考引导制备



Here, MUNIT and DRIT suffer from mode-collapse in AFHQ, which results in lower LPIPS and higher FID than other methods.

Human evaluation.

For each comparison, we randomly generate 100 questions, and each question is answered by 10 workers. We also ask each worker a few simple questions to detect unworthy workers. The number of total valid workers is 76.


These results show that StarGAN v2 better extracts and renders the styles onto the input image than the other baselines.

4. Discussion

We discuss several reasons why StarGAN v2 can successfully synthesize images of diverse styles over multiple domains.

our style code is separately generated per domain by the multi-head mapping network and style encoder.our style space is produced by learned transformationsour modules benefit from fully exploiting training data from multiple domains

To show that our model generalizes over the unseen images, we test a few samples from FFHQ [18] with our model trained on CelebA-HQ (Figure 7). Here, StarGAN v2 successfully captures styles of references and renders these styles correctly to the source images.


6. Conclusion

他们明确提出来 StarGAN v2,化解了三个image-to-image转化的主要挑战,切换一个域的单张影像到目标域的多张相同艺术风格的影像,和支持多目标域。 实验结果表明,他们的模型能跨多个域中聚合丰富的艺术风格影像,并且超过了此前的领先方式 [13, 22, 27]。 他们还发布了一个新的动物脸集(AFHQ)数据集,用来在大规模域内域间变化设置中评估各种方式。


https://mp...com/s?__biz=MzU2OTgxNDgxNQ==&mid=&idx=1&sn=5eabc2be625f4d16bccf4&chksm=fcf9b79fcb8e3ecfb71e1fe927fab38cb09f62ac316aa985b584fc58137ab1db&token=&lang=zh_CN#rdmp...com/s?__biz=MzU2OTgxNDgxNQ==&mid=&idx=1&sn=5eabc2be625f4d16bccf4&chksm=fcf9b79fcb8e3ecfb71e1fe927fab38cb09f62ac316aa985b584fc58137ab1db&token=&lang=zh_CN#rd
温馨提示:以上内容整理于网络,仅供参考,如果对您有帮助,留下您的阅读感言吧!
相关阅读
本类排行
相关标签
本类推荐

网站地图 sitemap sitemap

Copyright © 2002-2021 真越铁木砧板网 版权所有 备案号:桂ICP备2021004354号-1
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信