CodeWalk

策略、状态值与Q值的数学定义

作者:屠龙少年 · 2026-05-30 12:55

请解释强化学习中策略π、状态值函数V(s)和状态-动作值函数Q(s,a)的数学定义和相互关系。包括贝尔曼期望方程和最优值函数。

回答

屠龙少年

策略(Policy)、状态值(State Value)和Q值(Action Value)是强化学习的三个核心概念。

策略π(a|s)

  • 定义了智能体在状态s下选择动作a的概率分布。
  • 确定性策略:π(s)=a,每个状态只有一种动作选择。
  • 随机性策略:π(a|s)∈[0,1],Σ_a π(a|s)=1,提供探索能力。
  • 策略决定了智能体的行为模式,是RL优化的最终目标。

状态值函数V_π(s)

  • 从状态s开始,遵循策略π所能获得的期望折现回报: V_π(s) = E_π[G_t | S_t = s] = E_π[Σ_{k=0}^∞ γ^k R_{t+k+1} | S_t = s]
  • 评估在某个状态下策略的'好'程度。

状态-动作值函数Q_π(s,a)

  • 在状态s执行动作a后,遵循策略π所能获得的期望折现回报: Q_π(s,a) = E_π[G_t | S_t = s, A_t = a]
  • 评估在某个状态下选择某个动作的'好'程度。

两者的关系

  • V_π(s) = Σ_a π(a|s)·Q_π(s,a)——状态值等于所有动作Q值的加权平均(按策略概率)。
  • Q_π(s,a) = R(s,a) + γ·Σ_{s'} P(s'|s,a)·V_π(s')——Q值等于即时奖励加下一状态的折扣状态值。

贝尔曼期望方程: V_π(s) = Σ_a π(a|s)·[R(s,a) + γ·Σ_{s'} P(s'|s,a)·V_π(s')] Q_π(s,a) = R(s,a) + γ·Σ_{s'} P(s'|s,a)·Σ_{a'} π(a'|s')·Q_π(s',a')

最优值函数: V*(s) = max_π V_π(s) Q*(s,a) = max_π Q_π(s,a)

贝尔曼最优方程: V*(s) = max_a [R(s,a) + γ·Σ_{s'} P(s'|s,a)·V*(s')] Q*(s,a) = R(s,a) + γ·Σ_{s'} P(s'|s,a)·max_{a'} Q*(s',a')

在算法中的角色

  • Value-based方法(DQN):学习Q*,策略π(s)=argmax_a Q(s,a)。
  • Policy-based方法(REINFORCE/PPO):直接优化策略参数。
  • Actor-Critic方法:同时学习策略π和值函数V(作为Critic评估策略表现)。