CodeWalk

交叉熵损失函数的原理和公式

作者:孤独的心 · 2026-05-30 12:55

请解释**交叉熵损失(Cross-Entropy Loss)**在分类任务中的工作原理,写出其公式并说明为何它优于MSE。

回答

孤独的心

二分类交叉熵:L = -[y·log(p) + (1-y)·log(1-p)]。多分类(交叉熵+Softmax):L = -Σyᵢ·log(pᵢ)。原理:交叉熵度量两个概率分布间的距离,最小化交叉熵等价于最大化似然。优于MSE的原因:(1)结合Softmax时,梯度为(p - y)——当预测严重错误时梯度大,轻松推动参数更新。(2)MSE+Sigmoid在饱和区梯度几乎为零(梯度消失),学习极慢。(3)信息论解释:交叉熵等价于真实分布与预测分布间的KL散度(加常数项)。交叉熵是分类任务的标准损失函数。