CycleGAN无配对图像翻译的原理

Question

CycleGAN实现了无需配对数据的图像到图像翻译。请解释其核心的循环一致性损失（Cycle Consistency Loss）、双生成器-双判别器架构设计。。AI 面试题。UC Berkeley 面试题

专业代码师 · Accepted Answer

CycleGAN由Zhu等人于2017年提出，在无需配对训练数据的情况下实现两个域之间的图像翻译，是图像生成领域的里程碑。

问题背景：传统的pix2pix需要配对数据（如相同场景的边缘图和彩色图），但许多任务（如照片转油画、斑马转马）难以获得配对数据。

双生成器-双判别器架构：

循环一致性损失（核心创新）： L_cyc(G,F) = E_{x~p_data(x)}[||F(G(x))-x||₁] + E_{y~p_data(y)}[||G(F(y))-y||₁]

完整损失函数： L(G,F,D_X,D_Y) = L_GAN(G,D_Y,X,Y) + L_GAN(F,D_X,Y,X) + λ·L_cyc(G,F)

对抗损失：确保G生成的图像在域Y中逼真。
循环一致性损失：确保内容结构不变（λ通常为10）。
可选的身份映射损失（Identity Loss）：L_id(G,F) = E_y[||G(y)-y||₁] + E_x[||F(x)-x||₁]，确保色彩稳定性。

生成器架构：

采用ResNet风格的编码器-解码器：
- 编码器：卷积+Instance Normalization+ReLU（下采样）。
- 转换器：9个残差块。
- 解码器：转置卷积（上采样）。
使用Instance Normalization而非批归一化，更适合风格迁移任务。

应用：照片风格化、季节转换、物体变形等，已成为无监督图像翻译的标准框架。

回答