DeepLab系列的空洞卷积与ASPP

Question

DeepLab系列是语义分割领域最具影响力的工作之一。请解释DeepLab v1到v3+的发展历程，重点说明空洞卷积（Atrous Convolution）和ASPP模块的设计。。AI 面试题。Google 面试题

屠龙少年 · Accepted Answer

DeepLab系列由Google团队提出，核心思想是利用空洞卷积在不降低分辨率的情况下扩大感受野。

DeepLab v1（2015）：

DeepLab v2（2017）：

引入ASPP（Atrous Spatial Pyramid Pooling）：
- 在特征图上并行使用多个不同扩张率（rates=6,12,18,24）的空洞卷积。
- 不同扩张率的卷积捕获不同尺度的上下文信息。
- 输出拼接后通过1×1卷积融合。
骨干网络改为ResNet-101。

DeepLab v3（2017）：

DeepLab v3+（2018）：

引入编码器-解码器结构：
- 编码器：DeepLab v3（带ASPP的骨干网络）。
- 解码器：从编码器深层特征上采样4倍，与编码器浅层特征（1×1卷积降维后）拼接，再上采样到原图大小。
解码器恢复边界细节，弥补纯空洞卷积结构丢失的空间信息。
骨干网络可选Xception（深度可分离卷积加速）。

空洞卷积的优势：在不增加参数量的情况下，指数级增大感受野，特别适合密集预测任务如语义分割。

回答