微调(Fine-tuning)的三种策略及适用场景
微调是迁移学习中最常用的方法。请解释三种微调策略(全参数微调、冻结特征提取器、渐进解冻)的原理、优缺点,以及各策略适合的场景。
回答
我还是少年
1. 全参数微调(Full Fine-tuning):
- 所有层参数都在目标数据集上更新
- 优点:充分适应目标域,效果上限最高
- 缺点:计算成本高、需要足够目标域数据、易过拟合(小数据集)
- 适用:目标域数据充足(>10k样本)、与预训练域差异大
2. 冻结特征提取器(Freeze backbone):
- 预训练网络前n层冻结(不更新),只在目标域上训练最后分类头
- 优点:计算快(只更新1-2层)、防过拟合、训练稳定
- 缺点:特征"固化",无法适应目标域的独特模式
- 适用:目标域数据极少(<1k)、与预训练域相似
3. 渐进解冻(Gradual Unfreezing):
- 开始时只训练最后1-2层,逐步解冻更底层
- 优点:平衡适应性和特征保持,可减少灾难性遗忘
- 缺点:超参数多(解冻节奏、每阶段步数),训练更复杂
- 典型策略:每N个epoch解冻一组层,或按学习率差异(底层lr<顶层lr)
实践建议(LLM场景):
- 参数高效微调(LoRA/Adapter)逐渐成为主流,比全参数微调更实用
- 学习率通常设为预训练时的1/10到1/100