SSD目标检测的核心原理与多尺度预测

Question

SSD（Single Shot MultiBox Detector）是早期One-Stage检测器的代表。请解释SSD的多尺度特征图检测机制、默认框设计以及其优缺点。。AI 面试题。Google 面试题

孤独的心 · Accepted Answer

SSD由Liu等人于2016年提出，是首个在单次前向传播中同时完成定位和分类的深度目标检测器。

核心原理：

多尺度特征图检测：使用VGG-16作为骨干网络，在其不同深度（conv4_3, conv7, conv8_2, conv9_2, conv10_2, conv11_2）的特征图上进行检测。浅层特征图（分辨率大）检测小目标，深层特征图（分辨率小，感受野大）检测大目标。
默认框（Default Boxes）设计：
- 在每个特征图位置生成一组固定大小和宽高比的默认框（类似Faster R-CNN的Anchor）。
- 默认框的尺度随特征图层级线性增长：s_k = s_min + (s_max - s_min) * (k-1)/(m-1)
- 宽高比通常取{1:1, 2:1, 1:2, 3:1, 1:3}，额外增加1:1且尺度为√(s_k·s_{k+1})的框。
- 总计约8732个默认框。
预测：每个默认框预测类别置信度（含背景类C+1）和4个偏移量（Δcx, Δcy, Δw, Δh）。

优缺点：优点：速度快（300×300输入可达59 FPS），结构简洁，端到端训练。缺点：小目标检测效果较差（浅层特征语义信息不足），默认框参数人工设计，后续改进如DSSD增加了反卷积增强语义。

回答