CodeWalk

马尔可夫决策过程MDP的五元组定义

作者:Yahuda · 2026-05-30 12:55

马尔可夫决策过程(MDP)是强化学习的形式化基础。请详细解释MDP的五元组(S,A,P,R,γ),以及状态、动作、奖励、折扣因子等核心概念。

回答

Yahuda

MDP(Markov Decision Process)为序贯决策问题提供了严格的数学框架,几乎所有强化学习问题都可以建模为MDP。

五元组 (S, A, P, R, γ)

1. S(状态空间,State Space)

  • 环境所有可能状态的集合。可以是离散(如游戏中的格子位置)或连续(如机器人的关节角度)。
  • 状态需满足马尔可夫性:未来只依赖于当前状态,与历史无关。
  • 形式化:p(s_{t+1}|s_t, a_t, s_{t-1}, a_{t-1}, ..., s_0, a_0) = p(s_{t+1}|s_t, a_t)

2. A(动作空间,Action Space)

  • 智能体在每个状态下可执行的所有动作的集合。
  • 离散(如上下左右)或连续(如施加的力矩值)。
  • 动作策略π(a|s)定义了每个状态下选择每个动作的概率。

3. P(状态转移概率,Transition Probability)

  • P(s'|s,a):在状态s执行动作a后转移到状态s'的概率。
  • 环境动力学(Environment Dynamics),在model-based RL中被显式学习。
  • 定义域:S × A × S → [0,1],满足Σ_{s'∈S} P(s'|s,a)=1。

4. R(奖励函数,Reward Function)

  • R(s,a,s'):在状态s执行动作a并转移到s'后获得的即时奖励。
  • 简写为R(s)或R(s,a)。
  • 奖励是设计强化学习任务的关键——它定义了智能体的目标。
  • 注意:奖励≠目标——稀疏奖励(大多数步为0)vs 密集奖励(每步都有反馈)。

5. γ(折扣因子,Discount Factor)

  • γ∈[0,1],控制未来奖励的当前价值。
  • γ=0:只看即时奖励(短视)。
  • γ→1:几乎平等看待所有未来奖励(远视),但可能导致累积回报无穷大(若奖励非折扣)。
  • 折现回报(Discounted Return):G_t = Σ_{k=0}^∞ γ^k R_{t+k+1}

MDP中的核心目标: 找到最优策略π*,最大化期望折现回报: J(π) = E_{π}[Σ_{t=0}^∞ γ^t R(s_t, a_t)]

常见扩展

  • 部分可观察MDP(POMDP):智能体无法直接观察完整状态,只能通过观测O_t推断。
  • 有限/无限时域MDP:分别针对有限步和无限步任务。
  • 平均奖励MDP:使用平均奖励而非折扣累积。