SSD目标检测的核心原理与多尺度预测
SSD(Single Shot MultiBox Detector)是早期One-Stage检测器的代表。请解释SSD的多尺度特征图检测机制、默认框设计以及其优缺点。
回答
孤独的心
SSD由Liu等人于2016年提出,是首个在单次前向传播中同时完成定位和分类的深度目标检测器。
核心原理:
-
多尺度特征图检测:使用VGG-16作为骨干网络,在其不同深度(conv4_3, conv7, conv8_2, conv9_2, conv10_2, conv11_2)的特征图上进行检测。浅层特征图(分辨率大)检测小目标,深层特征图(分辨率小,感受野大)检测大目标。
-
默认框(Default Boxes)设计:
- 在每个特征图位置生成一组固定大小和宽高比的默认框(类似Faster R-CNN的Anchor)。
- 默认框的尺度随特征图层级线性增长:s_k = s_min + (s_max - s_min) * (k-1)/(m-1)
- 宽高比通常取{1:1, 2:1, 1:2, 3:1, 1:3},额外增加1:1且尺度为√(s_k·s_{k+1})的框。
- 总计约8732个默认框。
-
预测:每个默认框预测类别置信度(含背景类C+1)和4个偏移量(Δcx, Δcy, Δw, Δh)。
优缺点: 优点:速度快(300×300输入可达59 FPS),结构简洁,端到端训练。 缺点:小目标检测效果较差(浅层特征语义信息不足),默认框参数人工设计,后续改进如DSSD增加了反卷积增强语义。