交叉熵损失函数的原理和公式

Question

请解释**交叉熵损失(Cross-Entropy Loss)**在分类任务中的工作原理，写出其公式并说明为何它优于MSE。。AI 面试题

孤独的心 · Accepted Answer

二分类交叉熵：L = -[y·log(p) + (1-y)·log(1-p)]。多分类（交叉熵+Softmax）：L = -Σyᵢ·log(pᵢ)。原理：交叉熵度量两个概率分布间的距离，最小化交叉熵等价于最大化似然。优于MSE的原因：(1)结合Softmax时，梯度为(p - y)——当预测严重错误时梯度大，轻松推动参数更新。(2)MSE+Sigmoid在饱和区梯度几乎为零（梯度消失），学习极慢。(3)信息论解释：交叉熵等价于真实分布与预测分布间的KL散度（加常数项）。交叉熵是分类任务的标准损失函数。

交叉熵损失函数的原理和公式

回答

孤独的心