策略、状态值与Q值的数学定义

Question

请解释强化学习中策略π、状态值函数V(s)和状态-动作值函数Q(s,a)的数学定义和相互关系。包括贝尔曼期望方程和最优值函数。。AI 面试题

屠龙少年 · Accepted Answer

策略（Policy）、状态值（State Value）和Q值（Action Value）是强化学习的三个核心概念。 策略π(a|s)： 定义了智能体在状态s下选择动作a的概率分布。 确定性策略：π(s)=a，每个状态只有一种动作选择。 随机性策略：π(a|s)∈[0,1]，Σ_a π(a|s)=1，提供探索能力。 策略决定了智能体的行为模式，是RL优化的最终目标。 状态值函数V_π(s)： 从状态s开始，遵循策略π所能获得的期望折现回报： V_π(s) = E_π[G_t | S_t = s] = E_π[Σ_{k=0}^∞ γ^k R_{t+k+1} | S_t = s] 评估在某个状态下策略的'好'程度。 状态-动作值函数Q_π(s,a)： 在状态s执行动作a后，遵循策略π所能获得的期望折现回报： Q_π(s,a) = E_π[G_t | S_t = s, A_t = a] 评估在某个状态下选择某个动作的'好'程度。 两者的关系： V_π(s) = Σ_a π(a|s)·Q_π(s,a)——状态值等于所有动作Q值的加权平均（按策略概率）。 Q_π(s,a) = R(s,a) + ...

策略、状态值与Q值的数学定义

回答

屠龙少年