Reward Shaping奖励塑形加速学习
奖励塑形通过设计辅助奖励引导智能体更快学习。请解释奖励塑形的基本思想、势能函数塑形定理以及过度塑形的风险。
回答
专业代码师
奖励塑形(Reward Shaping)是强化学习中通过修改奖励函数来引导智能体更快收敛到最优策略的技术。
基本思想: 在稀疏奖励环境中,智能体需要大量随机探索才能偶尔获得奖励。奖励塑形通过提供额外的辅助奖励(Shaped Rewards),为中间状态/动作提供及时的反馈信号,加速学习。
示例:
- 倒立摆:到达目标位置的稀疏奖励(+1或0)→加上'靠近目标'的连续负距离奖励。
- 迷宫寻路:仅在终点给奖励 → 每步加'减少到终点距离'的正奖励。
势能函数塑形(Potential-based Shaping, Ng et al., 1999): 定义势能函数Φ(s),新增奖励:F(s, a, s') = γ·Φ(s') - Φ(s)
- 关键性质:势能基塑形不改变最优策略!
- 证明:如果原始MDP的回报为R,添加F后的回报为R+F,两者最优策略相同。
- 数学原因:F是折扣累积势能的telescoping sum,总和为γ^T·Φ(s_T)-Φ(s_0),与动作选择无关。
- 限制了塑形奖励的设计必须是势能的差分形式。
设计势能函数的策略:
- 使用领域知识:如距离目标点的负距离。
- 使用学习得到的值函数:Φ(s)=V(s)(一旦学好了,F≈0)。
- 使用反事实推理:对比当前状态与最优状态。
过度塑形的风险:
-
次优策略:如果塑形奖励引导到'局部最优'而非'全局目标'。
- 例如:在赛车游戏中,奖励'在赛道上'可能鼓励车辆稳定行驶但不敢加速。
-
非势能塑形:如果Φ的设计不符合势能函数,可能改变最优策略。
- 例如:直接给靠近目标多加奖励F(s'),未考虑折扣。
-
探索抑制:塑形奖励可能使智能体满足于局部好的策略,不再探索更好的解法。
- 与探索-利用的权衡类似。
-
奖励黑客(Reward Hacking):智能体发现非预期的方式获取塑形奖励。
- 如扫地机器人发现'推倒垃圾桶'然后'靠近'可以获得更多正面奖励。
实际应用:
- 机器人控制:基于势能函数的塑形广泛使用。
- 游戏AI:配合课程学习(Curriculum Learning)逐渐增加任务难度。
- 交通信号控制:利用排队长度差值设计塑形函数。
总结:好的奖励塑形能加速训练10-100×,但必须遵循势能函数原则(或后果自负),且需谨慎避免引入偏差。