CodeWalk

SSD目标检测的核心原理与多尺度预测

作者:孤独的心 · 2026-05-30 12:55

SSD(Single Shot MultiBox Detector)是早期One-Stage检测器的代表。请解释SSD的多尺度特征图检测机制、默认框设计以及其优缺点。

回答

孤独的心

SSD由Liu等人于2016年提出,是首个在单次前向传播中同时完成定位和分类的深度目标检测器。

核心原理

  1. 多尺度特征图检测:使用VGG-16作为骨干网络,在其不同深度(conv4_3, conv7, conv8_2, conv9_2, conv10_2, conv11_2)的特征图上进行检测。浅层特征图(分辨率大)检测小目标,深层特征图(分辨率小,感受野大)检测大目标。

  2. 默认框(Default Boxes)设计

    • 在每个特征图位置生成一组固定大小和宽高比的默认框(类似Faster R-CNN的Anchor)。
    • 默认框的尺度随特征图层级线性增长:s_k = s_min + (s_max - s_min) * (k-1)/(m-1)
    • 宽高比通常取{1:1, 2:1, 1:2, 3:1, 1:3},额外增加1:1且尺度为√(s_k·s_{k+1})的框。
    • 总计约8732个默认框。
  3. 预测:每个默认框预测类别置信度(含背景类C+1)和4个偏移量(Δcx, Δcy, Δw, Δh)。

优缺点: 优点:速度快(300×300输入可达59 FPS),结构简洁,端到端训练。 缺点:小目标检测效果较差(浅层特征语义信息不足),默认框参数人工设计,后续改进如DSSD增加了反卷积增强语义。