GPT-4的RLHF和Alignment训练

Question

GPT-4（和GPT-3.5）使用RLHF（Reinforcement Learning from Human Feedback）进行对齐训练。请解释RLHF的三个阶段（SFT→Reward Model→PPO），以及为什么需要对齐训练而非直接使用pretrained模型。。AI 面试题。OpenAI 面试题

我还是少年 · Accepted Answer

RLHF三阶段：1）SFT（Supervised Fine-tuning）：在人工标注的高质量对话数据上微调预训练模型，使其具有基本的指令跟随能力。2）RM（Reward Model）训练：对同一prompt生成多个回答，标注员排序优劣，训练一个奖励模型（通常为SFT模型去掉最后一层+线性头）预测排序分数。3）PPO强化学习：用SFT模型初始化策略，在RM的奖励信号下通过PPO算法优化策略——最大化奖励的同时限制与SFT模型分布不偏离太远（KL惩罚）。为什么需要对齐：1）预训练模型生成内容不贴合用户意图（只会续写而非回答）；2）生成有害/偏见/不安全内容；3）没有「helpfulness」、「honesty」、「harmlessness」概念。GPT-4的对齐改进：使用更多高质量的标注数据，安全的奖励模型设计，以及迭代的红队测试和安全性训练。对齐训练是GPT-4相比GPT-3最关键的质的改进之一。

GPT-4的RLHF和Alignment训练

回答

我还是少年