DETR如何将Transformer引入目标检测

Question

DETR（Detection Transformer）是目标检测领域的重要里程碑。请解释DETR的核心思想，包括Transformer结构、匈牙利匹配和查询机制，以及与经典检测器的区别。。AI 面试题。Facebook AI 面试题

我还是少年 · Accepted Answer

DETR（Detection TRansformer）由Facebook AI于2020年提出，首次将Transformer架构端到端地应用于目标检测，彻底摒弃了锚框（Anchor）和NMS后处理。

核心思想：将目标检测视为一个集合预测问题（Set Prediction），通过Transformer编码器-解码器直接从图像输出一组预测框。

关键组件：

匈牙利匹配（Hungarian Matching）：训练时，使用匈牙利算法在N个预测和真实框之间找到最优的一一匹配，计算匹配损失（分类损失+边界框损失），实现端到端训练。

与经典检测器的区别：

回答