StyleGAN的风格控制与解耦潜在空间

Question

StyleGAN通过风格映射网络和自适应实例归一化实现了出色的风格控制和解耦。请解释其映射网络、AdaIN、风格混合和随机变化机制。。AI 面试题。NVIDIA 面试题

孤独的心 · Accepted Answer

StyleGAN由Karras等人于2018年提出（NVIDIA），通过重新设计生成器架构，实现了对生成图像不同层次风格的精确保控。 映射网络（Mapping Network）： 将输入潜码z（512维，服从高斯分布）通过8层MLP映射到中间潜码w。 目的：解耦z的分布——z通常是纠缠的（高斯分布各维度不独立），而w空间更解耦（Disentangled）。 中间潜码w随后通过仿射变换为每种风格提供调制参数。 AdaIN（Adaptive Instance Normalization）： AdaIN(x, y) = σ(y)·(x - μ(x))/σ(x) + μ(y) 其中x是特征图，y是风格输入。 将特征图的均值和方差与目标风格对齐，实现风格控制。 合成网络（Synthesis Network）： 从4×4×512的常量输入开始，通过一系列卷积和上采样逐步生成图像。 每个分辨率层（4×4→8×8→...→1024×1024）中： 将w通过仿射变换A产生风格参数（缩放因子s和偏置b）。 对卷积输出应用调制（Modulation）：s·（卷积输出）。 归一化后进行解调（Demodula...

StyleGAN的风格控制与解耦潜在空间

回答

孤独的心