马尔可夫决策过程MDP的五元组定义

Question

马尔可夫决策过程（MDP）是强化学习的形式化基础。请详细解释MDP的五元组(S,A,P,R,γ)，以及状态、动作、奖励、折扣因子等核心概念。。AI 面试题

Yahuda · Accepted Answer

MDP（Markov Decision Process）为序贯决策问题提供了严格的数学框架，几乎所有强化学习问题都可以建模为MDP。 五元组 (S, A, P, R, γ)： 1. S（状态空间，State Space）： 环境所有可能状态的集合。可以是离散（如游戏中的格子位置）或连续（如机器人的关节角度）。 状态需满足马尔可夫性：未来只依赖于当前状态，与历史无关。 形式化：p(s_{t+1}|s_t, a_t, s_{t-1}, a_{t-1}, ..., s_0, a_0) = p(s_{t+1}|s_t, a_t) 2. A（动作空间，Action Space）： 智能体在每个状态下可执行的所有动作的集合。 离散（如上下左右）或连续（如施加的力矩值）。 动作策略π(a|s)定义了每个状态下选择每个动作的概率。 3. P（状态转移概率，Transition Probability）： P(s'|s,a)：在状态s执行动作a后转移到状态s'的概率。 环境动力学（Environment Dynamics），在model-based RL中被显式学习。 定义域：S × A × S → ...

马尔可夫决策过程MDP的五元组定义

回答

Yahuda