MAE掩码自编码器原理与设计

Question

解释MAE(Masked Autoencoder)的核心设计理念及其在自监督学习中的创新。。AI 面试题。FAIR (Facebook AI Research) 面试题

Yahuda · Accepted Answer

MAE (He et al., 2021) 是一种自监督学习方法，通过对图像块的高比例掩码并重建实现有效表征学习。 核心设计： 非对称编码器-解码器架构： 编码器(Encoder, ViT)：只处理可见图像块（25%），节省计算量 解码器(Decoder, 轻量Transformer)：重建完整图像（含掩码块），仅在预训练时使用 极高掩码比例(75%)： 随机掩码75%的图像块 迫使模型学习高级语义（而非简单的颜色/纹理插值） 与BERT的15%掩码形成鲜明对比（语言vs视觉的信息密度不同） 重建目标：MSE损失，仅计算掩码块的像素误差 为何有效： 75%掩码创造了一个极具挑战性的任务，模型必须理解物体形状和语义 非对称架构使训练速度提升3倍以上（编码器处理量少） 微调时仅用编码器，性能∼监督预训练 MAE推动了自监督视觉表征的实用化，ViT-S/16用MAE预训练后在ImageNet达到84.2% Top-1。

MAE掩码自编码器原理与设计

回答

Yahuda