RLHF和DPO如何缓解LLM幻觉问题?
RLHF和DPO等人类偏好对齐方法可以在一定程度上缓解LLM幻觉。请解释RLHF(基于人类反馈的强化学习)和DPO(直接偏好优化)在缓解幻觉方面的作用机制,它们在减少幻觉方面的优缺点。
回答
苦行僧
1. RLHF缓解幻觉的机制:
三阶段流程:
- SFT微调基础模型
- 训练Reward Model:奖励"真实且有用"的回答,惩罚幻觉
- PPO优化:用RM作为信号,约束模型行为
关键:
- Reward Model学会区分事实正确和事实错误的回答
- PPO阶段模型学习避开产生幻觉的生成路径
- KL正则化防止模型偏离基础模型过远
局限:
- Reward Model本身可能包含幻觉偏好
- 训练不稳定,超参数敏感
- 奖励 hacking(模型学会取悦RM而非说真话)
2. DPO(Direct Preference Optimization):
核心创新:无需显式训练Reward Model,直接用偏好数据优化
$$ \mathcal{L}{DPO} = -\mathbb{E}{(x,y_w,y_l)} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right] $$
y_w:正确/事实正确的回答(偏好)y_l:包含幻觉的回答(被拒绝)- 模型学习增加偏好回答的概率,降低幻觉回答的概率
RLHF vs DPO对比:
| 维度 | RLHF | DPO |
|---|---|---|
| 架构 | SFT + RM + PPO 三阶段 | 单阶段直接优化 |
| 训练稳定性 | 不稳定(PPO敏感) | 稳定 |
| 计算开销 | 高(需RM推理) | 低 |
| 缓解幻觉 | 通过RM惩罚间接实现 | 通过偏好对直接学习 |
| 扩展性 | 需要大量偏好标注 | 同样需要偏好数据 |
局限:
- 只能缓解已被RM/偏好对覆盖的幻觉类型
- 对长尾知识(训练数据外的罕见事实)难以覆盖
- 最好与RAG/知识检索结合使用