探索与利用平衡的常见策略

Question

探索-利用的权衡是强化学习的核心挑战。请解释ε-greedy、UCB、Boltzmann探索（Softmax）、噪声注入、参数噪声和经验回放中的探索机制。。AI 面试题

我是大山 · Accepted Answer

探索（Exploration）发现新知识，利用（Exploitation）利用已有知识最大化收益。平衡两者是RL的核心挑战。 1. ε-greedy： 以概率ε选择随机动作（探索），以概率1-ε选择Q值最大的动作（利用）。 最简单的策略，ε通常从1.0逐渐衰减到0.01-0.1。 线性/指数衰减调度。 局限：对所有状态使用相同ε，探索效率低。 2. UCB（Upper Confidence Bound）： 选择不确定度最高的动作：a = argmax_a [Q(s,a) + c·√(ln(n)/n_a)] n：总访问次数，n_a：动作a的访问次数。 c·√(ln(n)/n_a)是置信上界：未充分探索的动作有更大的不确定性。 自动平衡探索与利用：不确定性高的动作被优先选择。 3. Boltzmann/Softmax探索： 根据Q值按比例随机选择动作：P(a) = exp(Q(s,a)/τ) / Σ_a' exp(Q(s,a')/τ) τ（温度）： 高τ→均匀探索（随机）。 低τ→贪心选择（确定性）。 通过退火τ实现从探索到利用的过渡。 4. 噪声注入（Noise Injection）：...

探索与利用平衡的常见策略

回答

我是大山