策略、状态值与Q值的数学定义
请解释强化学习中策略π、状态值函数V(s)和状态-动作值函数Q(s,a)的数学定义和相互关系。包括贝尔曼期望方程和最优值函数。
回答
屠龙少年
策略(Policy)、状态值(State Value)和Q值(Action Value)是强化学习的三个核心概念。
策略π(a|s):
- 定义了智能体在状态s下选择动作a的概率分布。
- 确定性策略:π(s)=a,每个状态只有一种动作选择。
- 随机性策略:π(a|s)∈[0,1],Σ_a π(a|s)=1,提供探索能力。
- 策略决定了智能体的行为模式,是RL优化的最终目标。
状态值函数V_π(s):
- 从状态s开始,遵循策略π所能获得的期望折现回报: V_π(s) = E_π[G_t | S_t = s] = E_π[Σ_{k=0}^∞ γ^k R_{t+k+1} | S_t = s]
- 评估在某个状态下策略的'好'程度。
状态-动作值函数Q_π(s,a):
- 在状态s执行动作a后,遵循策略π所能获得的期望折现回报: Q_π(s,a) = E_π[G_t | S_t = s, A_t = a]
- 评估在某个状态下选择某个动作的'好'程度。
两者的关系:
- V_π(s) = Σ_a π(a|s)·Q_π(s,a)——状态值等于所有动作Q值的加权平均(按策略概率)。
- Q_π(s,a) = R(s,a) + γ·Σ_{s'} P(s'|s,a)·V_π(s')——Q值等于即时奖励加下一状态的折扣状态值。
贝尔曼期望方程: V_π(s) = Σ_a π(a|s)·[R(s,a) + γ·Σ_{s'} P(s'|s,a)·V_π(s')] Q_π(s,a) = R(s,a) + γ·Σ_{s'} P(s'|s,a)·Σ_{a'} π(a'|s')·Q_π(s',a')
最优值函数: V*(s) = max_π V_π(s) Q*(s,a) = max_π Q_π(s,a)
贝尔曼最优方程: V*(s) = max_a [R(s,a) + γ·Σ_{s'} P(s'|s,a)·V*(s')] Q*(s,a) = R(s,a) + γ·Σ_{s'} P(s'|s,a)·max_{a'} Q*(s',a')
在算法中的角色:
- Value-based方法(DQN):学习Q*,策略π(s)=argmax_a Q(s,a)。
- Policy-based方法(REINFORCE/PPO):直接优化策略参数。
- Actor-Critic方法:同时学习策略π和值函数V(作为Critic评估策略表现)。