AdaGrad优化器的特点与局限
请介绍**AdaGrad(Adaptive Gradient)**优化算法的核心思想、数学更新公式以及其主要局限性。
回答
苦行僧
AdaGrad为每个参数自适应调整学习率:频繁更新的参数学习率衰减快,稀疏更新的参数学习率衰减慢。更新公式:θ_{t+1} = θ_t - (η / √(G_t + ε)) · g_t,其中G_t为历史梯度平方累加。优点:适合处理稀疏特征(如文本数据中的罕见词),无需手动调整学习率。局限性:(1)学习率单调衰减——G_t持续增大,学习率趋近于零,训练提前停止。(2)对所有参数用全局学习率η,不够灵