马尔可夫决策过程MDP的五元组定义
马尔可夫决策过程(MDP)是强化学习的形式化基础。请详细解释MDP的五元组(S,A,P,R,γ),以及状态、动作、奖励、折扣因子等核心概念。
回答
Yahuda
MDP(Markov Decision Process)为序贯决策问题提供了严格的数学框架,几乎所有强化学习问题都可以建模为MDP。
五元组 (S, A, P, R, γ):
1. S(状态空间,State Space):
- 环境所有可能状态的集合。可以是离散(如游戏中的格子位置)或连续(如机器人的关节角度)。
- 状态需满足马尔可夫性:未来只依赖于当前状态,与历史无关。
- 形式化:p(s_{t+1}|s_t, a_t, s_{t-1}, a_{t-1}, ..., s_0, a_0) = p(s_{t+1}|s_t, a_t)
2. A(动作空间,Action Space):
- 智能体在每个状态下可执行的所有动作的集合。
- 离散(如上下左右)或连续(如施加的力矩值)。
- 动作策略π(a|s)定义了每个状态下选择每个动作的概率。
3. P(状态转移概率,Transition Probability):
- P(s'|s,a):在状态s执行动作a后转移到状态s'的概率。
- 环境动力学(Environment Dynamics),在model-based RL中被显式学习。
- 定义域:S × A × S → [0,1],满足Σ_{s'∈S} P(s'|s,a)=1。
4. R(奖励函数,Reward Function):
- R(s,a,s'):在状态s执行动作a并转移到s'后获得的即时奖励。
- 简写为R(s)或R(s,a)。
- 奖励是设计强化学习任务的关键——它定义了智能体的目标。
- 注意:奖励≠目标——稀疏奖励(大多数步为0)vs 密集奖励(每步都有反馈)。
5. γ(折扣因子,Discount Factor):
- γ∈[0,1],控制未来奖励的当前价值。
- γ=0:只看即时奖励(短视)。
- γ→1:几乎平等看待所有未来奖励(远视),但可能导致累积回报无穷大(若奖励非折扣)。
- 折现回报(Discounted Return):G_t = Σ_{k=0}^∞ γ^k R_{t+k+1}
MDP中的核心目标: 找到最优策略π*,最大化期望折现回报: J(π) = E_{π}[Σ_{t=0}^∞ γ^t R(s_t, a_t)]
常见扩展:
- 部分可观察MDP(POMDP):智能体无法直接观察完整状态,只能通过观测O_t推断。
- 有限/无限时域MDP:分别针对有限步和无限步任务。
- 平均奖励MDP:使用平均奖励而非折扣累积。