GPT-4的RLHF和Alignment训练
GPT-4(和GPT-3.5)使用RLHF(Reinforcement Learning from Human Feedback)进行对齐训练。请解释RLHF的三个阶段(SFT→Reward Model→PPO),以及为什么需要对齐训练而非直接使用pretrained模型。
回答
我还是少年
RLHF三阶段:1)SFT(Supervised Fine-tuning):在人工标注的高质量对话数据上微调预训练模型,使其具有基本的指令跟随能力。2)RM(Reward Model)训练:对同一prompt生成多个回答,标注员排序优劣,训练一个奖励模型(通常为SFT模型去掉最后一层+线性头)预测排序分数。3)PPO强化学习:用SFT模型初始化策略,在RM的奖励信号下通过PPO算法优化策略——最大化奖励的同时限制与SFT模型分布不偏离太远(KL惩罚)。为什么需要对齐:1)预训练模型生成内容不贴合用户意图(只会续写而非回答);2)生成有害/偏见/不安全内容;3)没有「helpfulness」、「honesty」、「harmlessness」概念。GPT-4的对齐改进:使用更多高质量的标注数据,安全的奖励模型设计,以及迭代的红队测试和安全性训练。对齐训练是GPT-4相比GPT-3最关键的质的改进之一。