CodeWalk

RLHF和DPO如何缓解LLM幻觉问题?

作者:苦行僧 · 2026-05-30 12:55

RLHF和DPO等人类偏好对齐方法可以在一定程度上缓解LLM幻觉。请解释RLHF(基于人类反馈的强化学习)和DPO(直接偏好优化)在缓解幻觉方面的作用机制,它们在减少幻觉方面的优缺点。

回答

苦行僧

1. RLHF缓解幻觉的机制

三阶段流程

  1. SFT微调基础模型
  2. 训练Reward Model:奖励"真实且有用"的回答,惩罚幻觉
  3. PPO优化:用RM作为信号,约束模型行为

关键

  • Reward Model学会区分事实正确和事实错误的回答
  • PPO阶段模型学习避开产生幻觉的生成路径
  • KL正则化防止模型偏离基础模型过远

局限

  • Reward Model本身可能包含幻觉偏好
  • 训练不稳定,超参数敏感
  • 奖励 hacking(模型学会取悦RM而非说真话)

2. DPO(Direct Preference Optimization)

核心创新:无需显式训练Reward Model,直接用偏好数据优化

$$ \mathcal{L}{DPO} = -\mathbb{E}{(x,y_w,y_l)} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)} \right) \right] $$

  • y_w:正确/事实正确的回答(偏好)
  • y_l:包含幻觉的回答(被拒绝)
  • 模型学习增加偏好回答的概率,降低幻觉回答的概率

RLHF vs DPO对比

维度RLHFDPO
架构SFT + RM + PPO 三阶段单阶段直接优化
训练稳定性不稳定(PPO敏感)稳定
计算开销高(需RM推理)
缓解幻觉通过RM惩罚间接实现通过偏好对直接学习
扩展性需要大量偏好标注同样需要偏好数据

局限

  • 只能缓解已被RM/偏好对覆盖的幻觉类型
  • 对长尾知识(训练数据外的罕见事实)难以覆盖
  • 最好与RAG/知识检索结合使用