Your ViT is Secretly an Image Segmentation Model¶

会议: CVPR 2025
arXiv: 2503.19108
代码: https://www.tue-mps.org/eomt/ (有)
领域: 分割
关键词: Vision Transformer, 图像分割, 编码器唯一架构, 掩码退火, DINOv2

一句话总结¶

本文提出 Encoder-only Mask Transformer（EoMT），证明在大规模预训练与足够大的模型下，plain ViT 无需卷积适配器、像素解码器和 Transformer 解码器等任务特定组件即可完成高质量图像分割，同时速度快达 4 倍。

研究背景与动机¶

领域现状：当前最先进的图像分割方法（语义/实例/全景分割）通常在 ViT 之上叠加多个任务特定组件：ViT-Adapter（CNN适配器提取多尺度特征）→ 像素解码器（融合多尺度特征）→ Transformer 解码器（对象查询+交叉注意力生成预测）。典型代表为 ViT-Adapter + Mask2Former。

现有痛点：这些额外组件增加了大量计算开销和实现复杂度。ViT-Adapter 引入的卷积模块需要与 ViT 多次交互，像素解码器使用多尺度变形注意力，Transformer 解码器的掩码交叉注意力需要在每层预测中间掩码——这些都是效率瓶颈。ViT-Adapter + M2F 在 ViT-B 上只有 32 FPS。

核心矛盾：这些任务特定组件本质上是在弥补 ViT 的两个"不足"——缺少多尺度特征和缺少局部处理能力。但这些所谓的不足，是 ViT 本身能力不够，还是预训练不充分？

本文目标：验证假设——随着模型规模和预训练质量的提升，ViT 自身已能隐式学到这些归纳偏置，任务特定组件变得冗余。

切入角度：逐步移除各组件并观察性能变化。如果大模型+强预训练下性能下降可忽略，则证明这些组件不必要。

核心 idea：把 ViT 既当编码器又当解码器——将可学习查询直接拼接到 patch token 中，利用 ViT 自身的自注意力替代交叉注意力，并用掩码退火策略实现无需推理时掩码注意力的高效分割。

方法详解¶

整体框架¶

EoMT 的输入为图像经 patch embedding 后的 token 序列。前 \(L_1\) 个 ViT 块正常处理 patch token；之后在 token 序列中拼接 \(K\) 个可学习查询；后续 \(L_2\) 个块联合处理 patch token 和查询 token。最终，查询 token 通过轻量掩码模块预测类别和分割掩码。

关键设计¶

逐步移除任务特定组件:
- 功能：验证各组件的必要性
- 核心思路：从 ViT-Adapter + M2F 开始，逐步移除：(1) 去掉 ViT-Adapter——用简单的转置/普通卷积从 ViT 单尺度输出构建特征金字塔（ViTDet 风格），PQ 仅降 0.4；(2) 去掉像素解码器——直接将特征金字塔送入 TF 解码器，PQ 基本不变；(3) 去掉多尺度处理——查询只对单尺度 ViT 输出做注意力，PQ 再降 0.2；(4) 去掉独立的 TF 解码器——将查询直接注入 ViT 的后几层，PQ 降 0.5 但 FPS 提升到 61
- 设计动机：每一步的消融都量化了对应组件的"实际价值"，发现使用 DINOv2 预训练的 ViT-L 上，所有组件加起来只贡献 1.1 PQ，但带来 4.4 倍的速度惩罚
查询注入机制:
- 功能：让 ViT 的自注意力同时执行查询间交互和查询-图像特征转移
- 核心思路：在第 \(L_1\) 层后将 \(K\) 个可学习查询拼接到 patch token 末尾，后续 \(L_2\) 个自注意力层中，一次 MHSA 操作同时实现：查询与查询之间的自注意力（协调各查询分工）、查询到 patch 的交叉注意力（获取视觉信息）、patch 到查询的反向注意力（查询信息反馈到视觉特征），以及 patch 之间原有的自注意力。对于 ViT-L（\(L=24\)），\(L_1=20, L_2=4\) 只增加了 2.1% 的 token 处理量
- 设计动机：标准分割方法将自注意力和交叉注意力分为两步串行执行。EoMT 利用 ViT 自注意力机制的天然"全对全"特性，一步完成所有交互，更高效且更简单
掩码退火（Mask Annealing）策略:
- 功能：实现训练时用掩码注意力（性能好）、推理时不用掩码注意力（速度快）
- 核心思路：M2F 的掩码注意力让每个查询只关注其预测掩码对应的图像区域，有助于学习但影响效率。EoMT 在训练初期完全启用掩码注意力（\(P_{mask}=1.0\)），然后逐block、逐步将掩码概率退火到 0，使得训练结束时模型已适应无掩码的注意力模式。退火调度采用多项式衰减，从早层开始先解除掩码，到训练结束时所有层的掩码概率都为 0
- 设计动机：直接训练时不用掩码注意力会导致 PQ 降 3.0，直接去掉推理时的掩码会导致灾难性下降 28.8。掩码退火是一个渐进式过渡策略，训练时利用掩码辅助学习，推理时完全不需要，两全其美

损失函数 / 训练策略¶

损失函数沿用 M2F：\(\mathcal{L}_{tot} = \lambda_{bce}\mathcal{L}_{bce} + \lambda_{dice}\mathcal{L}_{dice} + \lambda_{ce}\mathcal{L}_{ce}\)，权重分别为 5.0、5.0、2.0。训练使用 AdamW 优化器，层级学习率衰减（factor 0.8），多项式学习率调度。DINOv2 预训练权重的 patch embedding 和位置编码通过 FlexiViT 方式调整至目标尺寸。

实验关键数据¶

主实验¶

方法	Backbone	PQ (COCO)	FPS	参数量
ViT-Adapter + M2F	ViT-L	57.1	29	349M
EoMT w/ Masking	ViT-L	56.2	61	316M
EoMT	ViT-L	56.0	128	316M
ViT-Adapter + M2F	ViT-g	57.7	20	1209M
EoMT	ViT-g	57.0	55	1164M
EoMT (高分辨率)	ViT-L	58.3	30	322M

消融实验¶

训练策略	推理策略	FPS	PQ	说明
全程掩码注意力	掩码注意力	61	56.2	完整但慢
全程掩码注意力	无掩码	128	27.4	灾难性失败 -28.8
全程无掩码	无掩码	128	53.2	尚可但差 -3.0
掩码退火	无掩码	128	56.0	仅降 0.2，速度翻倍

关键发现¶

预训练质量决定一切：DINOv2/EVA-02 预训练下 EoMT 与复杂模型的差距仅 1.1-1.2 PQ，但 ImageNet-1K 预训练下差距扩大到 6.1，证实了"大规模预训练使任务特定组件冗余"的假设
模型越大组件越冗余：ViT-S 上 EoMT 与 M2F 的差距为 5.8 PQ，ViT-g 上仅 0.7 PQ，呈明显缩小趋势
掩码退火是关键创新：带来 2.1 倍加速（61→128 FPS）仅 0.2 PQ 代价，且对 ViT-Adapter + M2F 也有效（通用性强）
EoMT 在分布外泛化上也表现出色：BRAVO 基准上 OOD 置信度评分 89.7 vs ViT-Adapter+M2F 的 68.7
与 token merging（ALGM）兼容，可再获 31% 吞吐提升而不损 mIoU

亮点与洞察¶

"减法"思维的典范：不是增加新模块，而是证明现有模块可以去掉。这种简化思路在大模型时代尤其有价值——把计算资源花在扩大 ViT 本身而非添加复杂附件
掩码退火的巧妙设计：训练时利用掩码辅助学习而推理时完全不需要，优雅地解决了训练-推理不一致的问题。这个策略可以推广到其他使用中间约束的训练框架
生态系统兼容性：EoMT 完全基于 plain ViT，可以直接受益于 FlashAttention、token merging、ViT 专用硬件加速等所有 Transformer 生态优化，而复杂架构则受限于自定义组件

局限与展望¶

实例分割的性能降幅（-2.4 AP）大于全景分割（-1.1 PQ），说明 EoMT 在需要精细实例区分的任务上还有改进空间
当前只在 DINOv2 和 EVA-02 预训练上验证，未来更强的视觉基础模型可能进一步缩小差距
小模型（ViT-S）上的性能差距仍然显著（-5.8 PQ），EoMT 更适合中大型部署场景
掩码退火的调度需要预设超参数，自适应调度策略值得探索

评分¶

新颖性: ⭐⭐⭐⭐ 掩码退火策略创新，"减法设计"在当前趋势下有独到洞见
实验充分度: ⭐⭐⭐⭐⭐ 三大分割任务、多数据集、多模型尺寸、多预训练方式的全面验证
写作质量: ⭐⭐⭐⭐⭐ 假设驱动、逐步消融的叙事结构非常优雅
价值: ⭐⭐⭐⭐⭐ 为 ViT 分割模型的设计范式提供了重要的简化方向