Nvidia的样式生成对抗网络文章阅读记录

A Style-Based Generator Architecture for Generative Adversarial Networks

摘要

文章提出了一种生成对抗网络的替代生成器架构。新的架构可以自动学习、无监督地分离高级属性(例如,在人脸上训练时的姿态和身份)和生成图像中的随机变化(例如,雀斑、头发),并实现直观的、特定规模的合成控制。新生成器改进了传统分布质量指标的先进技术,导致了明显更好的插值属性,也更好地解开了变异的潜在因素。为了量化插值质量和解缠,文章提出了两种新的自动化方法,可适用于任何生成器架构。最后,文章介绍了一个新的、高度多样化和高质量的人脸数据集。

1. 引言

受风格转移文献27的激励,重新设计了生成器架构,以一种新方法来控制图像合成过程。新的生成器从一个学习到的常量输入开始,在每个卷积层根据潜码调整图像的“风格”,从而直接控制不同尺度下图像特征的强度。结合直接注入到网络中的噪声,这种结构变化将自动、无监督地从生成图像中的随机变化(如雀斑、头发)中分离出高级属性(如姿态、身份),并实现直观的特定尺度的混合和插值操作。我们没有以任何方式修改鉴别器或损失函数,因此我们的工作与正在进行的关于GAN损失函数、正则化和超参数的研究可以交叉使用。

我们的生成器将输入潜在代码嵌入到一个中间潜在空间中,这对网络中的变量表示有着深远的影响。输入潜在空间必须遵循训练数据的概率密度,我们认为这导致了某种程度上不可避免的纠缠、耦合。我们的中间潜在空间不受这种限制。由于之前估计潜在空间解偶的度量方法并不直接适用于我们的案例,我们提出了两个新的自动化度量——感知路径长度和线性可分性。使用这些指标,与传统的生成器体系结构相比,我们的生成器允许对不同的变异因素使用更线性、更少的耦合表示。

最后,我们提供了一个新的人脸数据集(Flickr-Faces-HQ, FFHQ),它比现有的高分辨率数据集具有更高的质量和更广泛的变化。我们已经将该数据集连同我们的源代码、和预先训练的网络开源,随附的视频可以在下面链接下找到。https://github.com/NVlabs/stylegan

2. 样式生成器

一般来说,潜码通过输入层(即前馈网络的第一层)提供给生成器,而本文完全省略输入层,从一个已知的常量开始 如图1

zoom

在输入隐空间给定Z中的隐码z,和非线性映射网络f: Z→W,首先产生w∈W。如图1中b的左半边。为简单起见,我们将两者的维度都设置到512.映射f是使用8层MLP实现的,我们将在4.1节中分析这个策略。学习仿射变换后,将w转化为样式y = (ys,yb),该样式控制合成网络g的每个卷积层后的自适应实例归一化(AdaIN)操作。AdaIN操作定义为

$$\begin{equation}\operatorname{AdaIN}\left(\mathbf{x}{i}, \mathbf{y}\right)=\mathbf{y}{(s, i)} \frac{\mathbf{x}{i}-\mu\left(\mathbf{x}i\right)}{\sigma\left(\mathbf{x}{i}\right)}+\mathbf{y}{(b, i)}\end{equation}$$

其中,每个特征映射$x_i$分别归一化,然后使用样式y对应的标量分量进行缩放和偏移。因此,$y$的维数是该层上特征映射数的两倍。

比较我们的风格转移的方法,我们从向量w而不是一个示例图像来计算空间不变的风格y。我们选择使用“风格”这个词来表示y,因为类似的网络架构已经用于前馈风格传输[27]、无监督图像到图像转换[28]和域混合[23]。与更一般的特征变换相比[38,57],AdaIN因其高效和紧凑的表示而特别适合于我们的目的。

最后,我们通过引入显式噪声输入,为我们的生成器提供一种产生随机细节的直接方法。这些是由不相关的高斯噪声构成的单通道图像,我们为合成网络的每一层提供一个专用的噪声图像。噪声图像使用学习到的特征比例因子广播到所有特征图,然后添加到相应卷积的输出中,如图1b所示。添加噪声输入的含义将在第3.2和3.3节中讨论。

在研究我们的生成器的特性之前,我们通过实验证明,重新设计并不会损害图像质量,事实上,它得到了相当大的改善。表1给出了CELEBA-HQ[30]

1

和我们新的FFHQ数据集中各种生成器架构的Fréchet初始距离(FID)[25]。其他数据集的结果在附录e中给出。我们的基线配置(A)是Karras等人的渐进式GAN设置。我们从那里继承网络和所有超参数,除非另有说明. 我们首先通过使用双线性上/下采样操作[64]、更长时间的训练和调整超参数切换到改进的基线(B)。附录C中包含了训练设置和超参数的详细描述。然后,我们通过添加映射网络和AdaIN操作(C)进一步改进这个新的基线,并且惊讶的发现,网络不再从把最后的编码输入到第一个卷积层而获益。 因此,我们通过去除传统的输入层,从学习到的4 × 4 × 512常量张量(D)开始图像合成,从而简化了体系结构。我们发现相当了不起的是,合成网络能够产生有意义的结果7,尽管它只通过控制AdaIN操作的样式接收输入。

最后,我们引入噪声输入(E),进一步改善结果,以及新的混合正则化(F),解除相邻样式,使生成的图像更精细控制(第3.1节)。

我们使用两种不同的损失函数评估我们的方法:对于CELEBA-HQ,我们依赖WGAN-GP [24],FFHQ对配置A使用WGAN-GP,对配置B-F使用R1正则化[44,51,14]的非饱和损耗[22]。我们发现这些选择可以得到最好的结果。我们的贡献不修改损失功能。

我们观察到,与传统的生成器(B)相比,基于样式的生成器(E)显著提高了fid,几乎提高了20%,这证实了并行工作中进行的大规模ImageNet测量结果[6,5]。图2显示了使用我们的生成器从FFHQ数据集生成的一组未经管理的新图像。通过fid确认,平均质量是高的,甚至眼镜、帽子等配件都成功合成。对于这个数字,我们避免极端地区的抽样W使用所谓的截断技巧[42 5 34]——附录B细节如何执行的技巧在W z的注意,我们的发电机允许应用截断选择性低分辨率,所以highresolution细节不受影响。本文中所有的fid都是在没有截断技巧的情况下计算的,在图2和视频中,我们仅用于说明目的。所有图像均以$1024^2$分辨率生成。

现有方法

GAN体系结构的很多工作都集中在改进鉴别器上,例如使用多个鉴别器[18,47,11],多分辨率鉴别[60,55],或自我注意[63]。生成器方面的研究主要集中在输入潜在空间[5]的精确分布上,或者通过高斯混合模型[4]、聚类[48]或鼓励凸性[52]来塑造输入潜在空间。最近的条件生成器通过一个单独的嵌入网络将类标识符提供给生成器[46]中的大量层,而潜伏层仍然通过输入层提供。一些作者考虑过将潜在代码的一部分提供给多个生成器层[9,5]。在并行工作中,Chen等人使用AdaINs[6]“自调制”生成器,类似于我们的工作,但不考虑中间潜在空间或噪声输入

3. 样式生成器的属性

我们的生成器架构使控制图像合成通过规模特定的修改的风格。我们可以把映射网络和仿射变换看作是一种从学习到的分布中为每种风格绘制样本的方法,而合成网络则是一种基于一组风格生成新图像的方法。每个样式的效果在网络中都是局部的,也就是说,修改样式的一个特定子集只能影响图像的某些方面

为了了解这种本地化的原因,让我们考虑一下adainoperation (Eq.1)如何首先将每个通道归一化为零均值和单位方差,然后才基于风格应用尺度和偏差。按照样式的要求,新的每通道统计信息修改了后续卷积操作中特征的相对重要性,但由于归一化,它们并不依赖于原始统计信息。因此,在被下一个AdaIN操作覆盖之前,每个样式只控制一个卷积。

3.1 混合风格

为了进一步鼓励样式的本地化,我们采用混合正则化,即在训练期间使用两个随机潜在代码而不是一个生成给定百分比的图像。当生成这样的图像时,我们只需在合成网络中随机选择一点,从一个潜在代码切换到另一个潜在代码——我们称之为样式混合的操作。具体来说,我们通过映射网络运行两个潜码z1、z2,并让相应的w1、w2控制样式,使w1在交点前应用,w2在交点后应用。这种正则化技术防止网络假定相邻样式是相关的。

2显示了使混合正则化如何极大地提高了定位能力,这表明在测试时混合了多种潜在因素的情况下,识别能力得到了改善。图3给出了在不同尺度上混合两种潜码合成图像的例子。我们可以看到,每个样式子集控制图像的有意义的高级属性。

2

3

3.2 随机变化

在人像中有很多方面可以被认为是随机的,比如头发、胡茬、雀斑或皮肤毛孔的精确位置。只要它们遵循正确的分布,它们都可以被随机化,而不会影响我们对图像的感知。 让我们考虑一下传统生成器是如何实现随机变化的。假设网络的唯一输入是通过输入层,网络需要发明一种方法来产生空间变化的伪随机数,在需要时从早期的激活中删除。这将消耗网络容量,并且隐藏生成信号的周期性是困难的——而且并不总是成功的,这可以从生成图像中常见的重复模式中得到证明。我们的架构通过在每次卷积后添加逐像素噪声来完全回避这些问题。

4显示了同一底层图像的随机实现,使用我们的生成器与不同的噪声实现产生。我们可以看到,噪声只影响随机方面,而保持整体组成和高层方面,如身份完整。图5进一步说明了应用随机变异对不同层次子集的影响。由于这些效果最好在动画中看到,请参考随附的视频演示如何改变一个层的噪声输入导致匹配规模的随机变化。

4

5

有趣的是,噪声的影响在网络中出现了紧密的局部化。我们假设在生成器的任何时候,都存在着尽快引进新内容的压力,而我们的网络创造随机变化的最简单方法便是依赖于所提供的噪声。每一层都有一组新的噪声,因此没有动机从早期激活中产生随机效应,从而导致局部效应.

3.3 全局效应与随机性的分离

前面的章节以及伴随的视频表明,虽然风格的变化具有全局影响(改变姿势、身份等),但噪声只影响无关重要的随机变化(不同梳理的头发、胡须等)。这一观察结果与风格转移文献一致,其中已经确定,空间不变的统计数据(革兰氏矩阵、信道均值、方差等)可靠地编码图像的风格[20,39],而空间变化的特征则编码特定的实例。在我们的基于样式的生成器中,样式会影响整个图像,因为完整的特征图是缩放和带有相同的值。因此,全局效果,如姿态,灯光,或背景风格可以被连贯地控制。同时,噪声是独立添加到每个像素,因此非常适合控制随机变化。如果网络试图控制,例如,使用噪声构成,这将导致空间不一致的决定,然后将被鉴别器惩罚。因此,该网络学会在没有明确指导的情况下适当地使用全球和本地频道。

4. 解耦学习

解耦有各种不同的定义[54,50,2,7,19],但共同的目标是一个由线性子空间组成的潜在空间,每个子空间控制一个变异因素。但是,Z中每个因子组合的采样概率需要与训练数据中相应的密度相匹配。如图6所示,这排除了与典型数据集和输入潜在分布完全分离的因素 我们的生成器体系结构的一个主要好处是中间潜在空间W不必支持根据任何固定分布采样;它的采样密度是由学习的分段连续映射f(z)诱导的。这种映射可以适应“unwarp”W,使变异因素变得更加线性。我们假设生成器有这样做的压力,因为基于解缠表示比基于纠缠表示更容易生成真实的图像。因此,我们期望在无监督的情况下,即在变异因素事先不知道的情况下,训练得到的W纠缠度更小[10,35,49,8,26,32,7]。

不幸的是,最近提出的用于量化解纠缠的指标[26,32,7,19]需要一个将输入图像映射到潜在代码的编码器网络。这些度量不适合我们的目的,因为我们的基线GAN缺少这样的编码器。虽然可以为此目的添加一个额外的网络[8,12,15],但我们希望避免在不属于实际解决方案一部分的组件上投入精力。为此,我们描述了两种量化解纠缠的新方法,它们都不需要编码器或已知的变异因素,因此对于任何图像数据集和生成器都是可计算的。

4.1 感知路径长度

正如Laine[37]所指出的,隐空间向量的插值可能会在图像中产生令人惊讶的非线性变化。例如,任何一个端点都没有的特性可能出现在线性插值路径的中间。这表明潜在空间是纠缠的,变异因素没有被适当分离。为了量化这种效果,我们可以测量当我们在潜在空间执行插值时,图像经历的剧烈变化。从直觉上看,弯曲较小的潜在空间应该比高度弯曲的潜在空间在感知上更平滑的过渡。

作为我们的度量的基础,我们使用基于感知的成对图像距离[65],该距离计算为两个VGG16[58]嵌入之间的加权差,其中的权重是合适的,因此该度量符合人类的感知相似性判断。如果我们将一个潜在空间插值路径细分为线性分段,我们可以定义这个分段路径的总感知长度为每个分段的感知差异之和,通过图像距离度量报告。感知路径长度的一个自然定义是这个和在无限细细分下的极限,但在实践中,我们用一个小细分来近似它?= 10−4。因此,潜在空间Z中所有可能端点的平均感知路径长度为

$$\begin{equation} \begin{array}{r} l_{\mathcal{Z}}=\mathbb{E}\left[\frac { 1 } { \epsilon ^ { 2 } } d \left(G\left(\operatorname{slerp}\left(\mathbf{z}_{1}, \mathbf{z}_{2} ; t\right)\right)\right.\right. \
\left.\left.\quad G\left(\operatorname{slerp}\left(\mathbf{z}_{1}, \mathbf{z}_{2} ; t+\epsilon\right)\right)\right)\right] \end{array} \end{equation}$$

其中z1,z2∼P(z), t∼U(0,1), G是生成器(即,G◦f为基于样式的网络),和d(·,·)评估每个图像之间的概念距离。这里slerp表示球面插值[56],这是我们的标准化输入潜空间中最合适的插值方式[61]。为了集中于面部特征而不是背景,我们对生成的图像进行裁剪,使其只包含人脸,然后评估成对图像的度量。因为度规d是二次的[65],我们除以?2。我们用100,000个样本值来计算期望

计算W中平均感知路径长度的方法类似

$$\begin{equation} \begin{array}{r} l_{w}=\mathbb{E}\left[\frac { 1 } { \epsilon ^ { 2 } } d \left(g\left(\operatorname{lerp}\left(f\left(\mathbf{z}_{1}\right), f\left(\mathbf{z}_{2}\right) ; t\right)\right)\right.\right. \
\left.\left.g\left(\operatorname{lerp}\left(f\left(\mathbf{z}_{1}\right), f\left(\mathbf{z}_{2}\right) ; t+\epsilon\right)\right)\right)\right] \end{array} \end{equation}$$

唯一的区别是插值是在W空间中进行的。因为W中的向量不以任何方式归一化,所以我们使用线性插值(lerp)。

3显示,这对我们就模式化了的完整路径长度大大缩短发电机噪声输入,表明W是感知比Y Z等更线性,这测量实际上是稍微偏向支持输入潜在空间Z如果W的确是一个进行分解,Z的“扁平化”的映射它可能包含不在输入流形上的区域——因此被生成器严重重构——甚至在从输入流形映射的点之间,而输入潜在空间Z根据定义没有这样的区域。因此可以预料,如果我们将度量限制到路径端点,即t∈{0,1},我们应该得到一个较小的lZis,而lZis不受影响。这确实是我们在表3中观察到的

3

4显示了路径长度如何受到映射网络的影响。我们发现传统和基于样式的生成器都受益于映射网络,并且额外的深度通常会改善感知路径长度以及fid。有趣的是,虽然lw在传统的生成器中有所改进,但lz却变得相当糟糕,这说明了我们声称的输入潜在空间确实可以在gan中任意纠缠。

4

4.2 线性可分性

如果一个潜在空间被充分解缠,它应该有可能找到方向向量,一致地对应于个别的变异因素。我们提出了另一个度量,通过测量潜在空间点如何通过线性超平面被分割成两个不同的集合来量化这种效果,这样每个集合对应于图像的一个特定的二值属性。

为了对生成的图像进行标记,我们训练了一些辅助分类网络来识别一些二值属性,例如区分男性和女性的面孔。在我们的测试中,分类器具有与我们使用的鉴别器相同的架构(即,与[30]中的相同),并且使用保留原始CelebA数据集中的40个可用属性的CelebA - hq数据集进行训练。为了测量一个属性的可分性,我们用z ~ P(z)生成20万张图像,并使用辅助分类网络对它们进行分类。然后我们根据分类器的置信度对样本进行分类,并去除最不置信度的一半,得到10万个标记的潜在空间向量。

对于每个属性,我们使用线性SVM来基于潜在空间点(传统的z和基于样式的w)来预测标签,并通过该平面对这些点进行分类。然后,我们计算条件熵H(Y | X),其中X是SVM预测的类,Y是预训练分类器确定的类。这告诉我们确定样品的真实类别需要多少附加信息,因为我们知道它位于超平面的哪一侧。较低的值表明对应的变化因子具有一致的潜在空间方向。

我们计算最终的可分性得分为$\exp \left(\sum_{i} \mathrm{H}\left(Y_{i} \mid X_{i}\right)\right)$其中$i$列举了40个属性。与初始分数[53]类似,取幂将数值从对数域带入线性域,以便于比较。

表3和表4显示W的可分离性始终优于Z,这表明耦合性较低。

此外,增加映射网络的深度可以提高W中的图像质量和可分性,这与合成网络天生倾向于一个解缠的输入表示的假设一致。有趣的是,在传统的发电机前添加映射网络会导致Z区域的可分性严重损失,但会改善中间潜在空间W的情况,FID也会得到改善。这表明,即使是传统的生成器体系结构,当我们引入一个不必遵循训练数据分布的中间潜在空间时,性能也更好。

5. 结论

基于我们的结果和Chen等人[6]的并行工作,很明显,传统的GAN生成器架构在各个方面都不如基于风格的设计。我们进一步相信,我们对高级属性和随机效应的分离以及中间潜在空间的线性的研究将证明在提高对GAN合成的理解和可控性方面是有成效的。

我们注意到,我们的平均路径长度度量可以很容易地作为训练期间的正则化器使用,也许线性可分性度量的一些变体也可以作为正则化器使用。一般来说,我们期望在训练期间直接塑造中间潜在空间的方法将为未来的工作提供有趣的途径。

  • [1] M. Abadi, P . Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, M. Kudlur, J. Levenberg, R. Monga, S. Moore, D. G. Murray, B. Steiner, P . Tucker, V . V asudevan, P . Warden, M. Wicke, Y . Y u, and X. Zheng. TensorFlow: a system for large-scale machine learning. In Proc. 12th USENIX Conference on Operating Systems Design and Implementation, OSDI’16, pages 265– 283, 2016. 9
  • [2] A. Achille and S. Soatto. On the emergence of invari- ance and disentangling in deep representations. CoRR, abs/1706.01350, 2017. 6
  • [3] D. Bau, J. Zhu, H. Strobelt, B. Zhou, J. B. Tenenbaum, W. T. Freeman, and A. Torralba. GAN dissection: Visualizing and understanding generative adversarial networks. In Proc. ICLR, 2019. 1
  • [4] M. Ben-Y osef and D. Weinshall. Gaussian mixture genera- tive adversarial networks for diverse datasets, and the unsu- pervised clustering of images. CoRR, abs/1808.10356, 2018. 3
  • [5] A. Brock, J. Donahue, and K. Simonyan. Large scale GAN training for high fidelity natural image synthesis. CoRR, abs/1809.11096, 2018. 1, 3, 8 [6] T. Chen, M. Lucic, N. Houlsby, and S. Gelly. On self modulation for generative adversarial networks. CoRR, abs/1810.01365, 2018. 3, 8 [7] T. Q. Chen, X. Li, R. B. Grosse, and D. K. Duvenaud. Isolat- ing sources of disentanglement in variational autoencoders. CoRR, abs/1802.04942, 2018. 6 [8] X. Chen, Y . Duan, R. Houthooft, J. Schulman, I. Sutskever, and P . Abbeel. InfoGAN: interpretable representation learn- ing by information maximizing generative adversarial nets. CoRR, abs/1606.03657, 2016. 6 [9] E. L. Denton, S. Chintala, A. Szlam, and R. Fergus. Deep generative image models using a Laplacian pyramid of ad- versarial networks. CoRR, abs/1506.05751, 2015. 3
  • [10] G. Desjardins, A. Courville, and Y . Bengio. Disentan- gling factors of variation via generative entangling. CoRR, abs/1210.5474, 2012. 6
  • [11] T. Doan, J. Monteiro, I. Albuquerque, B. Mazoure, A. Du- rand, J. Pineau, and R. D. Hjelm. Online adaptative curricu- lum learning for GANs. CoRR, abs/1808.00020, 2018. 3
  • [12] J. Donahue, P . Krähenbühl, and T. Darrell. Adversarial fea- ture learning. CoRR, abs/1605.09782, 2016. 6
  • [13] A. Dosovitskiy, J. T. Springenberg, and T. Brox. Learning to generate chairs with convolutional neural networks. CoRR, abs/1411.5928, 2014. 1
  • [14] H. Drucker and Y . L. Cun. Improving generalization perfor- mance using double backpropagation. IEEE Transactions on Neural Networks, 3(6):991–997, 1992. 3
  • [15] V . Dumoulin, I. Belghazi, B. Poole, A. Lamb, M. Arjovsky, O. Mastropietro, and A. Courville. Adversarially learned in- ference. In Proc. ICLR, 2017. 6
  • [16] V . Dumoulin, E. Perez, N. Schucher, F. Strub, H. d. Vries, A. Courville, and Y . Bengio. Feature-wise transforma- tions. Distill, 2018. https://distill.pub/2018/feature-wise- transformations. 2
  • [17] V . Dumoulin, J. Shlens, and M. Kudlur. A learned represen- tation for artistic style. CoRR, abs/1610.07629, 2016. 2
  • [18] I. P . Durugkar, I. Gemp, and S. Mahadevan. Generative multi-adversarial networks. CoRR, abs/1611.01673, 2016. 3
  • [19] C. Eastwood and C. K. I. Williams. A framework for the quantitative evaluation of disentangled representations. In Proc. ICLR, 2018. 6 [20] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. In Proc. CVPR, 2016. 6
  • [21] G. Ghiasi, H. Lee, M. Kudlur, V . Dumoulin, and J. Shlens. Exploring the structure of a real-time, arbitrary neural artistic stylization network. CoRR, abs/1705.06830, 2017. 2
  • [22] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio. Gen- erative Adversarial Networks. In NIPS, 2014. 1, 3, 9
  • [23] W.-S. Z. Guang-Y uan Hao, Hong-Xing Y u. MIXGAN: learn- ing concepts from different domains for mixture generation. CoRR, abs/1807.01659, 2018. 2
  • [24] I. Gulrajani, F. Ahmed, M. Arjovsky, V . Dumoulin, and A. C. Courville. Improved training of Wasserstein GANs. CoRR, abs/1704.00028, 2017. 1, 2
  • [25] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter. GANs trained by a two time-scale update rule converge to a local Nash equilibrium. In Proc. NIPS, pages 6626–6637, 2017. 2
  • [26] I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, and A. Lerchner. beta-vae: Learning basic visual concepts with a constrained variational framework. In Proc. ICLR, 2017. 6
  • [27] X. Huang and S. J. Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. CoRR, abs/1703.06868, 2017. 1, 2
  • [28] X. Huang, M. Liu, S. J. Belongie, and J. Kautz. Mul- timodal unsupervised image-to-image translation. CoRR, abs/1804.04732, 2018. 2
  • [29] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. CoRR, abs/1502.03167, 2015. 9
  • [30] T. Karras, T. Aila, S. Laine, and J. Lehtinen. Progressive growing of GANs for improved quality, stability, and varia- tion. CoRR, abs/1710.10196, 2017. 1, 2, 7, 8, 9
  • [31] V . Kazemi and J. Sullivan. One millisecond face alignment with an ensemble of regression trees. In Proc. CVPR, 2014. 8
  • [32] H. Kim and A. Mnih. Disentangling by factorising. In Proc. ICML, 2018. 6
  • [33] D. P . Kingma and J. Ba. Adam: A method for stochastic optimization. In ICLR, 2015. 9
  • [34] D. P . Kingma and P . Dhariwal. Glow: Generative flow with invertible 1x1 convolutions. CoRR, abs/1807.03039, 2018. 3, 8
  • [35] D. P . Kingma and M. Welling. Auto-encoding variational bayes. In ICLR, 2014. 6
  • [36] K. Kurach, M. Lucic, X. Zhai, M. Michalski, and S. Gelly. The gan landscape: Losses, architectures, regularization, and normalization. CoRR, abs/1807.04720, 2018. 1
  • [37] S. Laine. Feature-based metrics for exploring the latent space of generative models. ICLR workshop poster, 2018. 1, 6
  • [38] Y . Li, C. Fang, J. Yang, Z. Wang, X. Lu, and M.-H. Yang. Universal style transfer via feature transforms. In Proc. NIPS, 2017. 2
  • [39] Y . Li, N. Wang, J. Liu, and X. Hou. Demystifying neural style transfer. CoRR, abs/1701.01036, 2017. 6
  • [40] M. Lucic, K. Kurach, M. Michalski, S. Gelly, and O. Bous- quet. Are GANs created equal? a large-scale study. CoRR, abs/1711.10337, 2017. 1
  • [41] A. L. Maas, A. Y . Hannun, and A. Ng. Rectifier nonlin- earities improve neural network acoustic models. In Proc. International Conference on Machine Learning (ICML), vol- ume 30, 2013. 9
  • [42] M. Marchesi. Megapixel size image creation using genera- tive adversarial networks. CoRR, abs/1706.00082, 2017. 3, 8
  • [43] L. Matthey, I. Higgins, D. Hassabis, and A. Lerch- ner. dsprites: Disentanglement testing sprites dataset. https://github.com/deepmind/dsprites-dataset/, 2017. 6
  • [44] L. Mescheder, A. Geiger, and S. Nowozin. Which train- ing methods for GANs do actually converge? CoRR, abs/1801.04406, 2018. 1, 3, 9
  • [45] T. Miyato, T. Kataoka, M. Koyama, and Y . Y oshida. Spectral normalization for generative adversarial networks. CoRR, abs/1802.05957, 2018. 1, 9
  • [46] T. Miyato and M. Koyama. cGANs with projection discrim- inator. CoRR, abs/1802.05637, 2018. 3
  • [47] G. Mordido, H. Yang, and C. Meinel. Dropout-gan: Learn- ing from a dynamic ensemble of discriminators. CoRR, abs/1807.11346, 2018. 3
  • [48] S. Mukherjee, H. Asnani, E. Lin, and S. Kannan. Cluster- GAN : Latent space clustering in generative adversarial net- works. CoRR, abs/1809.03627, 2018. 3
  • [49] D. J. Rezende, S. Mohamed, and D. Wierstra. Stochastic backpropagation and approximate inference in deep genera- tive models. In Proc. ICML, 2014. 6
  • [50] K. Ridgeway. A survey of inductive biases for factorial representation-learning. CoRR, abs/1612.05299, 2016. 6
  • [51] A. S. Ross and F. Doshi-V elez. Improving the adversarial robustness and interpretability of deep neural networks by regularizing their input gradients. CoRR, abs/1711.09404,
  1. 3
  • [52] T. Sainburg, M. Thielk, B. Theilman, B. Migliori, and T. Gentner. Generative adversarial interpolative autoencod- ing: adversarial training on latent space interpolations en- courage convex latent distributions. CoRR, abs/1807.06650,
  1. 1, 3
  • [53] T. Salimans, I. J. Goodfellow, W. Zaremba, V . Cheung, A. Radford, and X. Chen. Improved techniques for training GANs. In NIPS, 2016. 7
  • [54] J. Schmidhuber. Learning factorial codes by predictability minimization. Neural Computation, 4(6):863–879, 1992. 6
  • [55] R. Sharma, S. Barratt, S. Ermon, and V . Pande. Improved training with curriculum gans. CoRR, abs/1807.09295, 2018. 3
  • [56] K. Shoemake. Animating rotation with quaternion curves. In Proc. SIGGRAPH ’85, 1985. 7
  • [57] A. Siarohin, E. Sangineto, and N. Sebe. Whitening and col- oring transform for GANs. CoRR, abs/1806.00420, 2018. 2
  • [58] K. Simonyan and A. Zisserman. V ery deep convolu- tional networks for large-scale image recognition. CoRR, abs/1409.1556, 2014. 6
  • [59] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dropout: A simple way to prevent neu- ral networks from overfitting. Journal of Machine Learning Research, 15:1929–1958, 2014. 9
  • [60] T. Wang, M. Liu, J. Zhu, A. Tao, J. Kautz, and B. Catanzaro. High-resolution image synthesis and semantic manipulation with conditional GANs. CoRR, abs/1711.11585, 2017. 3
  • [61] T. White. Sampling generative networks: Notes on a few effective techniques. CoRR, abs/1609.04468, 2016. 7
  • [62] F. Y u, Y . Zhang, S. Song, A. Seff, and J. Xiao. LSUN: Con- struction of a large-scale image dataset using deep learning with humans in the loop. CoRR, abs/1506.03365, 2015. 9
  • [63] H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena. Self-attention generative adversarial networks. CoRR, abs/1805.08318, 2018. 3, 9
  • [64] R. Zhang. Making convolutional networks shift-invariant again, 2019. 2, 9
  • [65] R. Zhang, P . Isola, A. A. Efros, E. Shechtman, and O. Wang. The unreasonable effectiveness of deep features as a percep- tual metric. In Proc. CVPR, 2018. 6, 7

See Also