Reward Shaping奖励塑形加速学习

Question

奖励塑形通过设计辅助奖励引导智能体更快学习。请解释奖励塑形的基本思想、势能函数塑形定理以及过度塑形的风险。。AI 面试题

专业代码师 · Accepted Answer

奖励塑形（Reward Shaping）是强化学习中通过修改奖励函数来引导智能体更快收敛到最优策略的技术。 基本思想： 在稀疏奖励环境中，智能体需要大量随机探索才能偶尔获得奖励。奖励塑形通过提供额外的辅助奖励（Shaped Rewards），为中间状态/动作提供及时的反馈信号，加速学习。 示例： 倒立摆：到达目标位置的稀疏奖励（+1或0）→加上'靠近目标'的连续负距离奖励。 迷宫寻路：仅在终点给奖励 → 每步加'减少到终点距离'的正奖励。 势能函数塑形（Potential-based Shaping, Ng et al., 1999）： 定义势能函数Φ(s)，新增奖励：F(s, a, s') = γ·Φ(s') - Φ(s) 关键性质：势能基塑形不改变最优策略！ 证明：如果原始MDP的回报为R，添加F后的回报为R+F，两者最优策略相同。 数学原因：F是折扣累积势能的telescoping sum，总和为γ^T·Φ(s_T)-Φ(s_0)，与动作选择无关。 限制了塑形奖励的设计必须是势能的差分形式。 设计势能函数的策略： 使用领域知识：如距离目标点的负距离。 使用学习得到的值函数：Φ(...

Reward Shaping奖励塑形加速学习

回答

专业代码师