DDPG深度确定性策略梯度

Question

DDPG（Deep Deterministic Policy Gradient）将DQN扩展到连续动作空间。请解释其确定性策略、Actor-Critic架构、目标网络软更新和探索噪声。。AI 面试题。DeepMind 面试题

屠龙少年 · Accepted Answer

DDPG由Lillicrap等人于2015年提出，结合了DQN和确定性策略梯度（DPG），是深度RL处理连续控制问题的先驱。 核心思想： 将DQN的Q学习扩展到连续动作空间，使用确定性策略（输出具体动作值而非概率分布）并配合Actor-Critic框架。 确定性策略（Deterministic Policy）： 传统策略梯度：π_θ(a|s)输出动作概率分布。 确定性策略：μ_θ(s)直接从状态映射到确定动作。 确定性策略梯度定理：∇_θ J ≈ E_s[∇_a Q(s,a)|_{a=μ(s)} · ∇_θ μ_θ(s)] 优势：在连续动作空间中只需评估一个动作的Q值，计算更高效。 Actor-Critic架构： Actor μ_θ(s)：输出确定的动作a。 Critic Q_φ(s,a)：评估(s,a)的Q值。 Actor更新：最大化Q_φ(s, μ_θ(s))。 Critic更新：最小化TD误差||y - Q_φ(s,a)||²，其中y = r + γ·Q_φ'(s', μ_θ'(s')) 目标网络软更新（Soft Target Network Update）： DDPG维护Ac...

DDPG深度确定性策略梯度

回答

屠龙少年