百年铁木,寻有缘人!微信:18077095366
时间:2022-05-05 01:07
人气:
作者:admin
该文明确提出了StarGAN v2,这是一类能与此同时化解聚合影像多元性和多域扩展性的单个架构。较之于了baselines,它赢得了显著的提高。该文对StarGAN 赢得的听觉产品质量、多元性和可扩展性都展开了校正。
paper: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=上方↓前台申明“starGAN2”,方可赢得学术论文电子零件天然资源。
该文产品目录
在多个域的情况下,这三个模块都拥有多个输出分支,每一个都为特定域提供了艺术风格编码。最终,使用这些艺术风格编码,计算机程序就能成功地自学在多个域下制备艺术风格影像。
他们用X 和Y来分别表示影像和域的集合,给定x属于X 和任意域y属于Y,他们的目标是训练一个单个的计算机程序G ,使它能够根据x针对每一个域y聚合多样化的影像。 他们在每一域自学到的艺术风格空间中聚合域特定的艺术风格向量,并且训练G来表达这个艺术风格向量。图2 阐释了他们架构的概述, 其中包含了如下的四个模块。
计算机程序G(x,s)需要输出影像x和特定艺术风格编码s,s由态射网络F或者艺术风格编码器E提供。
他们使用adaptive instance normalization(AdaIN)来注入s到G中。
s被设计为表示特定域y的艺术风格,从而消除了向G提供y的必要性,并允许G制备所有域的影像。
给定一个潜在编码z和一个域y,态射网络F聚合艺术风格编码s = F y ( z ) s = F_y(z)s=Fy(z),其中F y ( ⋅ ) F_y(\cdot)Fy(⋅) 表示F相关联于域y的输出。
F由带有多个输出分支的MLP组成,用来为所有可用域提供艺术风格编码。
F 通过随机采样潜在向量z和域y来提供多样化艺术风格编码。
他们的多任务架构允许F高效地自学所有域的艺术风格表达。
给定影像x和它相关联的域y,编码器E提取艺术风格编码s = E y ( x ) s = E_y(x)s=Ey(x). 其中E y ( ⋅ ) E_y(\cdot)Ey(⋅)表示编码器特定域域y的输出。 和F类似,艺术风格编码器E也受益于多任务自学设置。
E能使用相同参考图片聚合多样化艺术风格编码。
这允许G制备反映参考影像x的艺术风格s的输出影像。
判别器D是一个多任务判别器,由多个输出分支组成。
每一分支D y D_yDy 自学一个二进制分类决定输出影像x是否是它相关联域y的真实影像,或者是由G产生的假影像G(x,s)
给定一张影像x和它相关联的原始域y。
对抗目标:
他们随机采样潜在编码z和目标域y,并且聚合目标艺术风格编码 s ~ = F y ~ ( z ) \tilde{s} = F_{\tilde{y}}(z)s~=Fy~(z).
编码器G 将影像x和s ~ \tilde{s}s~ 做为输出,并通过对抗损失自学聚合输出影像G ( x , s ~ ) G(x,\tilde{s})G(x,s~)
艺术风格重建:
为了增强计算机程序 来在聚合影像G ( x , s ~ ) G(x,\tilde{s})G(x,s~)的这时候,使用艺术风格编码s ~ \tilde{s}s~, 他们采用艺术风格重建损失:
在测试时,他们自学的编码器E允许G变换输出影像,以反映参考影像的艺术风格。
艺术风格多样化:
为了进一步增强计算机程序G来产生多样化影像,他们用多元性敏感损失来调整G。
其中目标艺术风格编码s ~ 1 \tilde{s}_1s~1 和s ~ 2 \tilde{s}_2s~2由F根据三个随机潜在编码z 1 z_1z1和z 2 z_2z2产生。
最大化正则项会迫使G探索影像空间并发原有意义的艺术风格特征,以聚合各种影像。
他们删除了分母部份,并设计了一个新的方程来展开稳定的训练,但要保持直觉。
保留原始特征:
为了保证聚合的影像适当地保留输出影像x域无关特征(比如,姿势),他们采用了循环一致性损失:
其中,s ^ = E y ( x ) \hat{s} = E_y(x)s^=Ey(x) 是输出影像x的估计艺术风格编码,y是x的原始域。
通过鼓励计算机程序G 重新构造带有估计艺术风格编码s ^ \hat{s}s^的输出影像x, G自学在改变艺术风格的与此同时保留x的原始特征。
他们还以与上述目标相同的方式训练模型,在聚合艺术风格编码时使用参考影像而不是潜在向量。 他们在附录中提供了训练详细信息。
在训练阶段,所有实验均使用看不见的影像展开
baselines:
All the baselines are trained using the implementations provided by the authors.
datasets:
CelebA-HQ [17]评估策略:
Frechét inception distance (FID) [11]learned perceptual image patch similarity (LPIPS) [38].We evaluate individual components that are added to our baseline StarGAN using CelebA-HQ.
一个输出影像在相同配置情况下的相应聚合影像如图3所示。
baseline 配置(A)就相当于是StarGAN。
如图3a所示,StarGAN程序只通过在输出影像上展开了眼妆的局部改变。
配置(F)相关联着他们明确提出的方式 StarGAN v2
图4展示了StarGAN v2 能制备参照包括妆容、眼妆和胡须在内的反应多样化艺术风格的影像,与此同时,还没破坏原有的特征。
In this section, we evaluate StarGAN v2 on diverse image synthesis from two perspectives: latent-guided synthesis and reference-guided synthesis.
潜在引导制备
图5提供了产品质量的比较。
For both CelebA-HQ and AFHQ, our method achieves FIDs of 13.8 and 16.3, respectively, which are more than two times improvement over the previous leading method.
参考引导制备
Here, MUNIT and DRIT suffer from mode-collapse in AFHQ, which results in lower LPIPS and higher FID than other methods.
For each comparison, we randomly generate 100 questions, and each question is answered by 10 workers. We also ask each worker a few simple questions to detect unworthy workers. The number of total valid workers is 76.
These results show that StarGAN v2 better extracts and renders the styles onto the input image than the other baselines.
We discuss several reasons why StarGAN v2 can successfully synthesize images of diverse styles over multiple domains.
our style code is separately generated per domain by the multi-head mapping network and style encoder.our style space is produced by learned transformationsour modules benefit from fully exploiting training data from multiple domainsTo show that our model generalizes over the unseen images, we test a few samples from FFHQ [18] with our model trained on CelebA-HQ (Figure 7). Here, StarGAN v2 successfully captures styles of references and renders these styles correctly to the source images.
他们明确提出来 StarGAN v2,化解了三个image-to-image转化的主要挑战,切换一个域的单张影像到目标域的多张相同艺术风格的影像,和支持多目标域。 实验结果表明,他们的模型能跨多个域中聚合丰富的艺术风格影像,并且超过了此前的领先方式 [13, 22, 27]。 他们还发布了一个新的动物脸集(AFHQ)数据集,用来在大规模域内域间变化设置中评估各种方式。
我的世界_新武器新动作游戏,四处是要积极探索的新军用物资,不必害怕无趣了
Copyright © 2002-2021 真越铁木砧板网 版权所有
备案号:桂ICP备2021004354号-1
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。