StyleGAN的风格控制与解耦潜在空间
StyleGAN通过风格映射网络和自适应实例归一化实现了出色的风格控制和解耦。请解释其映射网络、AdaIN、风格混合和随机变化机制。
回答
孤独的心
StyleGAN由Karras等人于2018年提出(NVIDIA),通过重新设计生成器架构,实现了对生成图像不同层次风格的精确保控。
映射网络(Mapping Network):
- 将输入潜码z(512维,服从高斯分布)通过8层MLP映射到中间潜码w。
- 目的:解耦z的分布——z通常是纠缠的(高斯分布各维度不独立),而w空间更解耦(Disentangled)。
- 中间潜码w随后通过仿射变换为每种风格提供调制参数。
AdaIN(Adaptive Instance Normalization):
- AdaIN(x, y) = σ(y)·(x - μ(x))/σ(x) + μ(y)
- 其中x是特征图,y是风格输入。
- 将特征图的均值和方差与目标风格对齐,实现风格控制。
合成网络(Synthesis Network):
- 从4×4×512的常量输入开始,通过一系列卷积和上采样逐步生成图像。
- 每个分辨率层(4×4→8×8→...→1024×1024)中:
- 将w通过仿射变换A产生风格参数(缩放因子s和偏置b)。
- 对卷积输出应用调制(Modulation):s·(卷积输出)。
- 归一化后进行解调(Demodulation)。
- 添加噪声(通过噪声输入B产生随机变化)。
- 风格混合:用两个不同的w控制不同分辨率层,低分辨率w控制姿态和脸型,高分辨率w控制皮肤纹理和颜色。
随机变化机制:
- 在每层卷积后添加独立的噪声输入(缩放后加)。
- 噪声影响发型、皮肤毛孔等随机细节而不改变整体语义。
StyleGAN2改进:
- 移除AdaIN,改为权重调制+解调。
- 改善水滴伪影(Droplet Artifacts)。
- 引入Path Length Regularization促进潜空间平滑性。
StyleGAN3改进:
- 使用等变架构,消除纹理粘连(Texture Sticking)。
- 确保平移不变性和旋转不变性。