微调(Fine-tuning)的三种策略及适用场景

Question

微调是迁移学习中最常用的方法。请解释三种微调策略（全参数微调、冻结特征提取器、渐进解冻）的原理、优缺点，以及各策略适合的场景。。AI 面试题

我还是少年 · Accepted Answer

1. 全参数微调（Full Fine-tuning）： 所有层参数都在目标数据集上更新 优点：充分适应目标域，效果上限最高 缺点：计算成本高、需要足够目标域数据、易过拟合（小数据集） 适用：目标域数据充足（>10k样本）、与预训练域差异大 2. 冻结特征提取器（Freeze backbone）： 预训练网络前n层冻结（不更新），只在目标域上训练最后分类头 优点：计算快（只更新1-2层）、防过拟合、训练稳定 缺点：特征"固化"，无法适应目标域的独特模式 适用：目标域数据极少（<1k）、与预训练域相似 3. 渐进解冻（Gradual Unfreezing）： 开始时只训练最后1-2层，逐步解冻更底层 优点：平衡适应性和特征保持，可减少灾难性遗忘 缺点：超参数多（解冻节奏、每阶段步数），训练更复杂 典型策略：每N个epoch解冻一组层，或按学习率差异（底层lr<顶层lr） 实践建议（LLM场景）： 参数高效微调（LoRA/Adapter）逐渐成为主流，比全参数微调更实用 学习率通常设为预训练时的1/10到1/100

微调(Fine-tuning)的三种策略及适用场景

回答

我还是少年