MAE掩码自编码器原理与设计
解释MAE(Masked Autoencoder)的核心设计理念及其在自监督学习中的创新。
回答
Yahuda
MAE (He et al., 2021) 是一种自监督学习方法,通过对图像块的高比例掩码并重建实现有效表征学习。
核心设计:
-
非对称编码器-解码器架构:
- 编码器(Encoder, ViT):只处理可见图像块(25%),节省计算量
- 解码器(Decoder, 轻量Transformer):重建完整图像(含掩码块),仅在预训练时使用
-
极高掩码比例(75%):
- 随机掩码75%的图像块
- 迫使模型学习高级语义(而非简单的颜色/纹理插值)
- 与BERT的15%掩码形成鲜明对比(语言vs视觉的信息密度不同)
-
重建目标:MSE损失,仅计算掩码块的像素误差
为何有效:
- 75%掩码创造了一个极具挑战性的任务,模型必须理解物体形状和语义
- 非对称架构使训练速度提升3倍以上(编码器处理量少)
- 微调时仅用编码器,性能∼监督预训练
MAE推动了自监督视觉表征的实用化,ViT-S/16用MAE预训练后在ImageNet达到84.2% Top-1。