知识蒸馏的损失设计与学习策略

Question

知识蒸馏将教师模型的知识迁移到学生模型。请解释知识蒸馏的核心思想、软标签损失、温度参数、特征层蒸馏和关系蒸馏。。AI 面试题。Google 面试题

我是大山 · Accepted Answer

知识蒸馏（Knowledge Distillation）由Hinton等人于2015年提出，核心思想是'让学生模仿教师'。 核心思想： 训练一个小型学生模型（Student）来复制大型教师模型（Teacher）的行为，使学生达到接近教师的性能，同时推理速度更快、资源需求更少。 软标签损失（Soft Label Loss）——蒸馏损失： 软标签（Soft Labels）是教师模型输出的类别概率分布，包含类别间的相对关系信息（如猫vs狗vs车的相似度）。 使用温度参数T软化概率分布： q_i = exp(z_i/T) / Σ_j exp(z_j/T) T=1：标准Softmax。 T>1（如T=4）：分布更平滑，揭示更多类别间关系。 T很大时：所有类别的概率接近均匀。 完整损失函数： L = α·L_hard(y, σ(z_s)) + β·L_soft(q_t(T), q_s(T)) L_hard：学生预测与真实标签的交叉熵（硬标签）。 L_soft：学生软预测（高温T）与教师软标签的KL散度。 α, β：权重系数，通常温度使用相同的T。 特征层蒸馏（Feature-based D...

知识蒸馏的损失设计与学习策略

回答

我是大山