微调SFT与RLHF/DPO对齐技术对比
请对比大模型微调对齐的三种主要技术:SFT(监督微调)、RLHF(基于人类反馈的强化学习)和DPO(直接偏好优化)。它们在目标、数据需求、训练复杂度上有什么不同?各自适合什么场景?
回答
编译有声
| 技术 | 原理 | 数据 | 训练复杂度 |
|---|---|---|---|
| SFT | 监督学习(输入->输出) | 问答对 | 低 |
| RLHF | PPO优化+Reward Model | 偏好数据+RM | 高(需4模型) |
| DPO | 直接偏好优化 | 偏好数据 | 中(2模型) |
SFT:
- 最基础的指令微调
- 数据:高质量的Instruction-Response对
- 缺点:模型可能学习风格而非推理,对训练数据分布敏感
RLHF:
- 训练Reward Model,再用PPO优化策略
- 数据:人类偏好对比数据
- 优点:对齐效果好,能超越SFT数据分布
- 缺点:训练不稳定,需要同时维护4个模型(策略/参考/RM/价值)
DPO:
- 直接优化偏好损失(不需显式RM)
- 数据:偏好对(chosen/rejected)
- 优点:训练简单稳定,效果不输RLHF
- 缺点:对偏好数据的质量更敏感
选择建议:
- 起步:先用SFT
- 对齐优化:DPO(推荐,轻量高效)
- 极致效果(资源充足):RLHF
- 数据有限:DPO(偏好数据比RM训练更容易获取)