CodeWalk

微调(Fine-tuning)的三种策略及适用场景

作者:我还是少年 · 2026-05-30 12:55

微调是迁移学习中最常用的方法。请解释三种微调策略(全参数微调、冻结特征提取器、渐进解冻)的原理、优缺点,以及各策略适合的场景。

回答

我还是少年

1. 全参数微调(Full Fine-tuning)

  • 所有层参数都在目标数据集上更新
  • 优点:充分适应目标域,效果上限最高
  • 缺点:计算成本高、需要足够目标域数据、易过拟合(小数据集)
  • 适用:目标域数据充足(>10k样本)、与预训练域差异大

2. 冻结特征提取器(Freeze backbone)

  • 预训练网络前n层冻结(不更新),只在目标域上训练最后分类头
  • 优点:计算快(只更新1-2层)、防过拟合、训练稳定
  • 缺点:特征"固化",无法适应目标域的独特模式
  • 适用:目标域数据极少(<1k)、与预训练域相似

3. 渐进解冻(Gradual Unfreezing)

  • 开始时只训练最后1-2层,逐步解冻更底层
  • 优点:平衡适应性和特征保持,可减少灾难性遗忘
  • 缺点:超参数多(解冻节奏、每阶段步数),训练更复杂
  • 典型策略:每N个epoch解冻一组层,或按学习率差异(底层lr<顶层lr)

实践建议(LLM场景):

  • 参数高效微调(LoRA/Adapter)逐渐成为主流,比全参数微调更实用
  • 学习率通常设为预训练时的1/10到1/100