微调SFT与RLHF/DPO对齐技术对比

Question

请对比大模型微调对齐的三种主要技术：SFT（监督微调）、RLHF（基于人类反馈的强化学习）和DPO（直接偏好优化）。它们在目标、数据需求、训练复杂度上有什么不同？各自适合什么场景？。AI 面试题。Anthropic 面试题

编译有声 · Accepted Answer

技术原理数据训练复杂度 SFT监督学习(输入->输出)问答对低 RLHFPPO优化+Reward Model偏好数据+RM高(需4模型) DPO直接偏好优化偏好数据中(2模型) SFT： 最基础的指令微调 数据：高质量的Instruction-Response对 缺点：模型可能学习风格而非推理，对训练数据分布敏感 RLHF： 训练Reward Model，再用PPO优化策略 数据：人类偏好对比数据 优点：对齐效果好，能超越SFT数据分布 缺点：训练不稳定，需要同时维护4个模型(策略/参考/RM/价值) DPO： 直接优化偏好损失(不需显式RM) 数据：偏好对(chosen/rejected) 优点：训练简单稳定，效果不输RLHF 缺点：对偏好数据的质量更敏感 选择建议： 起步：先用SFT 对齐优化：DPO(推荐，轻量高效) 极致效果(资源充足)：RLHF 数据有限：DPO(偏好数据比RM训练更容易获取)

技术	原理	数据	训练复杂度
SFT	监督学习(输入->输出)	问答对	低
RLHF	PPO优化+Reward Model	偏好数据+RM	高(需4模型)
DPO	直接偏好优化	偏好数据	中(2模型)

微调SFT与RLHF/DPO对齐技术对比

回答

编译有声