BERT的Masked Language Model训练目标详解
BERT使用Masked Language Model(MLM)作为预训练目标。请解释MLM的具体实现方式(15%掩码策略、80-10-10比例设计的原因),以及MLM相比标准语言模型的优缺点。
回答
编译有声
MLM实现:随机选择15%的token进行掩码处理,其中:80%替换为[MASK]、10%替换为随机token、10%保持不变。80-10-10设计原因:如果全部替换为[MASK],预训练和微调之间存在分布偏移(微调时无[MASK])。随机替换和保持不变迫使模型学习上下文相关表示而非简单地记忆词汇关联。优点:双向上下文建模,适合理解任务(分类/抽取/语义匹配);缺点:预训练和微调之间存在gap;MLM假设被掩码token相互独立(实际不独立);计算效率低于自回归(每token只预测15%)。后续改进(如ELECTRA的RTD任务)试图克服MASK带来的预训练-微调不一致问题。