SinGAN介绍

Alt text

SinGAN由多个不同尺度的生成器和判别器组成，如上图所示。对于每一个尺度，都会进行一次与普通GAN训练类似的训练过程。

具体地，从下往上看：

在最开始训练时，当前尺度的生成器$G_N$接受噪声$Z_N$，输出生成图像$\widetilde{x}_N$；然后将$\widetilde{x}_N$与真实图像下采样得到的$x_N$一起输入判别器$D_N$，$D_N$负责判别输入图像是真实的还是生成的；(对应图中倒数第一行)

在第二次训练时，当前尺度的生成器$G_{N-1}$接受两个东西：噪声$Z_{N-1}$和上一阶段生成的$\widetilde{x}N$的上采样结果，输出生成图像$\widetilde{x}{N-1}$；然后将$\widetilde{x}{N-1}$与真实图像下采样得到的$x{N-1}$一起输入判别器$D_{N-1}$，$D_{N-1}$负责判别输入图像是真实的还是生成的；(对应图中倒数第二行)

在第三次以及之后的训练中，都重复类似的步骤，直到生成的图像尺度达到预期大小，训练就结束了。

需要注意的是，判别器在进行判别时，仅仅根据输入图像的局部（感受野）而非全局，且这个感受野随着训练的进行在缩小，如图中最右侧一列所示。

可以理解为，在开始时，较大的感受野可以更好的把握全局的特征，而随着训练的不断进行，图像的细节逐步被优化，此时判别器只需关注细节优化的效果即可。也就是说，不同训练阶段的判别器的任务是不同的，一开始需要先把握全部的特征，然后在后续过程中去优化每个细节。