DPO直接偏好优化的原理

Question

DPO（Direct Preference Optimization）简化了RLHF的对齐过程。请解释DPO如何将偏好学习转化为简单的二分类损失，以及它与RLHF的区别。。AI 面试题。Stanford University 面试题

专业代码师 · Accepted Answer

DPO（Direct Preference Optimization）由Rafailov等人于2023年（Stanford）提出，直接从偏好数据优化LLM，无需训练显式的奖励模型和强化学习步骤。 背景： RLHF（Reinforcement Learning from Human Feedback）是目前广泛使用的对齐方法： SFT监督微调。 用人类偏好训练奖励模型（Reward Model）。 使用PPO等RL算法最大化奖励。 问题：RLHF流程复杂、训练不稳定、需要维护4个模型（策略、参考、奖励、Critic）。 DPO的核心洞察： 奖励函数可以被隐式地表示为策略和参考策略的比值。 根据Bradley-Terry偏好模型，偏好概率为： p*(y_w > y_l | x) = σ(r*(x,y_w) - r*(x,y_l)) DPO的关键推导：最优策略π和最优奖励r的关系为： r*(x,y) = β·log(π*(y|x)/π_ref(y|x)) + β·log(Z(x)) 代入Bradley-Terry模型后，Z(x)消去，得到直接基于策略的偏好概率： p*(y_w &gt...

特性	RLHF	DPO
流程	RM训练→PPO训练	直接优化
训练稳定性	差（PPO难调）	好（简单交叉熵）
计算成本	4个模型	2个模型
超参数	多（KL系数、PPO clip等）	少（β）
理论保证	强（RL理论）	等价于RLHF
数据效率	类似	类似或更好
实现难度	高	低

DPO直接偏好优化的原理

回答

专业代码师