交叉熵损失函数的原理和公式
请解释**交叉熵损失(Cross-Entropy Loss)**在分类任务中的工作原理,写出其公式并说明为何它优于MSE。
回答
孤独的心
二分类交叉熵:L = -[y·log(p) + (1-y)·log(1-p)]。多分类(交叉熵+Softmax):L = -Σyᵢ·log(pᵢ)。原理:交叉熵度量两个概率分布间的距离,最小化交叉熵等价于最大化似然。优于MSE的原因:(1)结合Softmax时,梯度为(p - y)——当预测严重错误时梯度大,轻松推动参数更新。(2)MSE+Sigmoid在饱和区梯度几乎为零(梯度消失),学习极慢。(3)信息论解释:交叉熵等价于真实分布与预测分布间的KL散度(加常数项)。交叉熵是分类任务的标准损失函数。