DQN使用深度网络实现Q-Learning

Question

DQN将Q-Learning与深度神经网络结合，成功解决了Atari游戏。请解释DQN如何用神经网络近似Q函数、经验回放池和目标网络的运作机制。。AI 面试题。DeepMind 面试题

专业代码师 · Accepted Answer

DQN（Deep Q-Network）由Mnih等人于2015年（DeepMind）提出，首次在49个Atari游戏上达到人类水平，是深度强化学习的开创性工作。 用神经网络近似Q函数： 传统Q-Learning使用表格存储Q(s,a)，但在高维状态空间（如图像）不可行。 DQN训练一个CNN，输入为原始游戏画面（4帧堆叠，84×84×4），输出为所有离散动作的Q值。 网络结构：3个卷积层 + 2个全连接层 → N个Q值（N=动作数）。 经验回放池（Experience Replay）： 问题：连续样本之间的强相关性破坏独立同分布假设，导致网络不稳定。 方法：将经验元组(s, a, r, s', done)存储在回放缓冲区D中（容量N=10^6）。 训练时从D中均匀随机采样一个小批量（Batch，如32个），打破时序相关性。 优势：提高数据效率，复用已有经验，减少非平稳分布问题。 目标网络（Target Network）： 问题：Q网络的更新目标（R + γ·max_{a'} Q(s',a')）也依赖于正在更新的Q网络，导致追逐移动目标的不稳定性。 方法：维护两个网络： 在线网络Q_θ...

DQN使用深度网络实现Q-Learning

回答

专业代码师