Pix2Pix Paper
[1] P.Isola, A.Efros, B.Ai et al, Image-to-Image Translation with Conditional Adversarial Networks, CVPR 2017
Pix2Pix 网络结构
Pix2Pix生成器为Unet
作者提到,输入和输出图像的外表面(surface appearance)应该不同而潜在的结构(underlying structure)应该相似,对于image translation的任务来说,输入和输出应该共享一些底层的信息,因此使用Unet这种跳层连接(skip connection)的方法,这里说的跳层连接是第$i$层直接与$n-i$层相加,如下所示:
判别器为PatchGAN
之前在介绍AE和VAE的时候有说,用L1和L2 loss重建的图像很模糊,也就是说L1和L2并不能很好的恢复图像的高频部分(图像中的边缘等),但能较好地恢复图像的低频部分(图像中的色块)。为了能更好得对图像的局部做判断,作者提出patchGAN的结构,也就是说把图像等分成patch,分别判断每个Patch的真假,最后再取平均!作者最后说,文章提出的这个PatchGAN可以看成所以另一种形式的纹理损失或样式损失。在具体实验时,不同尺寸的patch,最后发现70x70的尺寸比较合适。