DDQN与Dueling DQN解决Q值高估

Question

DDQN和Dueling DQN分别从不同角度改进了DQN。请解释DDQN如何通过解耦动作选择和评估消除Q值高估，以及Dueling DQN的价值-优势分解思想。。AI 面试题。DeepMind 面试题

孤独的心 · Accepted Answer

DDQN（Double DQN）和Dueling DQN都是DQN的重要改进，分别发表于2015和2016年。 DDQN——解耦动作选择与评估： 问题：标准DQN中，目标值y = R + γ·max_{a'} Q_θ'(s',a')使用同一个目标网络进行动作选择和值评估。max操作系统性地高估Q值（因为max是对有噪声估计的取最大值），且高估在不同动作间不一致，导致次优策略。 DDQN解决方式： 动作选择使用在线网络Q_θ：a* = argmax_{a'} Q_θ(s',a') 值评估使用目标网络Q_θ'：y = R + γ·Q_θ'(s', a*) 更新公式：y = R + γ·Q_θ'(s', argmax_{a'} Q_θ(s',a')) 效果：解耦了选择和评估，减少了高估偏差。实验表明DDQN发现更优策略，得分提升明显。 Dueling DQN——价值-优势分解： 核心思想：将Q函数分解为状态值V(s)和优势函数A(s,a)： Q(s,a) = V(s) + A(s,a) V(s)：在状态s下的总体好坏（与动作无关）。 A(s,a)：在状态s下选择动作a相对于平均水平的优势。...

DDQN与Dueling DQN解决Q值高估

回答

孤独的心