RLHF和DPO如何缓解LLM幻觉问题？

Question

RLHF和DPO等人类偏好对齐方法可以在一定程度上缓解LLM幻觉。请解释RLHF（基于人类反馈的强化学习）和DPO（直接偏好优化）在缓解幻觉方面的作用机制，它们在减少幻觉方面的优缺点。。AI 面试题

苦行僧 · Accepted Answer

1. RLHF缓解幻觉的机制： 三阶段流程： SFT微调基础模型 训练Reward Model：奖励"真实且有用"的回答，惩罚幻觉 PPO优化：用RM作为信号，约束模型行为 关键： Reward Model学会区分事实正确和事实错误的回答 PPO阶段模型学习避开产生幻觉的生成路径 KL正则化防止模型偏离基础模型过远 局限： Reward Model本身可能包含幻觉偏好 训练不稳定，超参数敏感 奖励 hacking（模型学会取悦RM而非说真话） 2. DPO（Direct Preference Optimization）： 核心创新：无需显式训练Reward Model，直接用偏好数据优化 $$ \mathcal{L}{DPO} = -\mathbb{E}{(x,y_w,y_l)} \left[ \log \sigma \left( \beta \log \frac{\pi_	heta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_	heta(y_l|x)}{\pi_{ref}(y_l|x)} ight) ight] $$...

维度	RLHF	DPO
架构	SFT + RM + PPO 三阶段	单阶段直接优化
训练稳定性	不稳定（PPO敏感）	稳定
计算开销	高（需RM推理）	低
缓解幻觉	通过RM惩罚间接实现	通过偏好对直接学习
扩展性	需要大量偏好标注	同样需要偏好数据

RLHF和DPO如何缓解LLM幻觉问题？

回答

苦行僧