TRPO信任区域策略优化的理论基础

Question

TRPO（Trust Region Policy Optimization）是PPO的前身，通过KL散度约束确保策略更新稳定。请解释TRPO的约束优化问题、自然梯度近似和共轭梯度求解。。AI 面试题。UC Berkeley 面试题

专业代码师 · Accepted Answer

TRPO由Schulman等人于2015年提出，通过严格约束新旧策略间的KL散度，保证了策略优化的单调改进，是策略梯度理论的重要里程碑。 核心思想： 每次更新应最大化新策略的期望回报，同时限制新旧策略之间的距离（用KL散度度量），防止策略崩塌。 约束优化问题： max_θ E_t[ (π_θ(a|s)/π_θ_old(a|s))·Â_t ] s.t. E_t[ KL[π_θ_old(·|s) || π_θ(·|s)] ] ≤ δ 目标：最大化替代优势（Surrogate Advantage）。 约束：平均KL散度不超过δ（通常0.01）。 自然梯度与理论近似： TRPO使用泰勒展开对目标和约束进行近似： 目标函数一阶近似：L(θ) ≈ g^T·(θ-θ_old) + 常数，其中g=∇L(θ_old)。 KL约束二阶近似：KL(θ_old, θ) ≈ 1/2·(θ-θ_old)^T·F·(θ-θ_old) F是Fisher信息矩阵：F = E[∇log π_θ(a|s)·∇log π_θ(a|s)^T] 共轭梯度求解： 直接计算F的逆矩阵F^{-1}的复杂度是O(N³)（N为参数量），...

TRPO信任区域策略优化的理论基础

回答

专业代码师