CodeWalk

微调SFT与RLHF/DPO对齐技术对比

作者:编译有声 · 2026-05-30 12:55

请对比大模型微调对齐的三种主要技术:SFT(监督微调)RLHF(基于人类反馈的强化学习)DPO(直接偏好优化)。它们在目标、数据需求、训练复杂度上有什么不同?各自适合什么场景?

回答

编译有声

技术原理数据训练复杂度
SFT监督学习(输入->输出)问答对
RLHFPPO优化+Reward Model偏好数据+RM高(需4模型)
DPO直接偏好优化偏好数据中(2模型)

SFT

  • 最基础的指令微调
  • 数据:高质量的Instruction-Response对
  • 缺点:模型可能学习风格而非推理,对训练数据分布敏感

RLHF

  • 训练Reward Model,再用PPO优化策略
  • 数据:人类偏好对比数据
  • 优点:对齐效果好,能超越SFT数据分布
  • 缺点:训练不稳定,需要同时维护4个模型(策略/参考/RM/价值)

DPO

  • 直接优化偏好损失(不需显式RM)
  • 数据:偏好对(chosen/rejected)
  • 优点:训练简单稳定,效果不输RLHF
  • 缺点:对偏好数据的质量更敏感

选择建议:

  • 起步:先用SFT
  • 对齐优化:DPO(推荐,轻量高效)
  • 极致效果(资源充足):RLHF
  • 数据有限:DPO(偏好数据比RM训练更容易获取)