Pix2Pix(1)

Pix2Pix Paper

[1] P.Isola, A.Efros, B.Ai et al, Image-to-Image Translation with Conditional Adversarial Networks, CVPR 2017

Pix2Pix 网络结构

Pix2Pix 网络结构

  • Pix2Pix生成器为Unet

    作者提到,输入和输出图像的外表面(surface appearance)应该不同而潜在的结构(underlying structure)应该相似,对于image translation的任务来说,输入和输出应该共享一些底层的信息,因此使用Unet这种跳层连接(skip connection)的方法,这里说的跳层连接是第$i$层直接与$n-i$层相加,如下所示:

  • 判别器为PatchGAN

    之前在介绍AE和VAE的时候有说,用L1和L2 loss重建的图像很模糊,也就是说L1和L2并不能很好的恢复图像的高频部分(图像中的边缘等),但能较好地恢复图像的低频部分(图像中的色块)。为了能更好得对图像的局部做判断,作者提出patchGAN的结构,也就是说把图像等分成patch,分别判断每个Patch的真假,最后再取平均!作者最后说,文章提出的这个PatchGAN可以看成所以另一种形式的纹理损失或样式损失。在具体实验时,不同尺寸的patch,最后发现70x70的尺寸比较合适。

Read more
Hexo-Icarus & Github-Pages博客搭建
ISP-Pipeline-Notes(3)

ISP-Pipeline-Notes(3)

LTM 局部色调映射

HDR显示

显示设备的动态范围 < HDR 成像结果的动态范围,对于一般的显示设备来说,HDR 成像结果仍然是高动态范围,比如说 4000:1,但一般显示设备达不到这么高的动态显示范围,可能只有 2^8=256 的动态范围,所以,需要压缩动态范围(粗略理解成对比度吧),同时要保留细节。

常用的解决办法有两类——第一类是全局的动态范围压缩方法,使用类 S 曲线,如 Reinhard、ACES 等,像素的调整只和像素本身的灰度值有关系,这种方法速度快、直观、有效避免光晕和色调逆转,但是容易破坏图像的白平衡、局部丢失细节;第二类是局部的动态范围压缩方法,像素的调整和邻域的亮度分布有关系,局部方法可以呈现保留更多的细节,但是计算十分耗时、容易引入噪声且可能生成光晕。

LTM算法

经典算法之一就是源于 2002年的 《Fast Bilateral Filtering for the Display of High-Dynamic-Range Images》,基于快速双边滤波的高动态范围压缩方法。

基本思路是,使用滤波等手段将 HDR 图像分解成基础层(base)和细节层(detail),对基础层做对比度压缩,压缩之后的基础层再和原来的细节层相加,得到保留了细节信息的低动态范围图像。如下图

img

Read more