VidEoMT: Your ViT is Secretly Also a Video Segmentation Model¶

会议: CVPR 2026
arXiv: 2602.17807
代码: https://www.tue-mps.org/videomt/
领域: 语义分割 / 视频理解 / 高效模型
关键词: 视频分割, encoder-only, 查询传播, ViT, DINOv2, 实时

一句话总结¶

提出encoder-only视频分割模型VidEoMT，通过查询传播和查询融合将分割与时序关联统一在单个ViT编码器中，消除所有专用追踪模块，在YouTube-VIS 2019上达到160 FPS（比CAVIS快10×+），同时AP仅差0.3。

背景与动机¶

现有在线视频分割方法（CAVIS、DVIS++、DVIS-DAQ）遵循"分割器+追踪器"的解耦范式：分割器由ViT+ViT-Adapter+Mask2Former像素解码器+Transformer解码器组成，追踪器由上下文感知特征+重识别层+Transformer追踪块组成。虽然精度高，但架构极其复杂且慢（CAVIS仅15 FPS）。EoMT论文证明了图像分割可以encoder-only完成（无需解码器/像素解码器）。那么视频分割是否也可以？关键额外挑战是时序追踪。

核心问题¶

能否用一个简单的encoder-only ViT同时完成视频分割和时序关联，实现接近SOTA精度但快一个数量级的速度？

方法详解¶

整体框架¶

VidEoMT基于EoMT：将N个可学习查询注入到DINOv2 ViT的最后L2层与patch token联合处理，查询输出直接预测类别和mask。在此基础上，VidEoMT引入两个轻量机制实现时序建模：(1) 查询传播：将前一帧的输出查询作为当前帧的输入；(2) 查询融合：前帧查询经线性变换后与可学习查询逐元素相加。无任何追踪模块。

关键设计¶

渐进式模块移除实验：从CAVIS出发逐步验证：替换分割器为EoMT（AP -0.8, 速度3×↑）→移除上下文感知特征（AP +0.3, 速度1.7×↑至72 FPS）→移除重识别层（AP -0.4, 速度↑至74 FPS）→移除追踪器（AP -7.6, 速度↑至162 FPS）。关键发现：上下文感知特征和重识别层在DINOv2预训练下是冗余的——DINOv2的特征已经包含了足够的实例判别信息。
查询传播 (Query Propagation)：\(t=0\)时用可学习查询\(\mathbf{Q}^{lrn}\)初始化，\(t>0\)时用前帧输出查询\(\mathbf{Q}_{t-1}^S\)替代，注入ViT最后L2层。这使信息跨帧传递，零额外计算。但纯传播会让可学习查询的影响逐渐消失，导致无法检测新出现的物体。
查询融合 (Query Fusion)：\(\mathbf{Q}_t^F = \text{Linear}(\mathbf{Q}_{t-1}^S) + \mathbf{Q}^{lrn}\)，前帧查询经单层线性变换后与可学习查询逐元素相加。这确保模型既有前帧时序上下文，又保持对新物体的检测能力。仅引入一个线性层，开销可忽略。

损失函数 / 训练策略¶

使用Mask2Former标准损失（CE分类 + BCE/Dice分割）。两阶段训练：第一阶段COCO+目标视频数据集做图像分割训练；第二阶段引入时序建模微调。VidEoMT需要微调ViT编码器（因为encoder-only），而CAVIS等方法可以冻结。200个查询，D=1024，H100 GPU训练。

实验关键数据¶

方法	Backbone	YT-VIS 2019 AP	FPS	GFLOPs
CAVIS	ViT-L	68.9	15	838
DVIS-DAQ	ViT-L	68.3	10	851
DVIS++	ViT-L	67.7	18	846
EoMT+CAVIS	ViT-L	68.1	42	699
VidEoMT	ViT-L	68.6	160	566

视频语义分割VSPW：VidEoMT mIoU 64.9（比DVIS++ 62.8高+2.1），mVC16 95.0，速度73 FPS（DVIS++ 13 FPS）。视频全景分割VIPSeg：VidEoMT VPQ 55.2 vs CAVIS 56.9，速度75 vs 10 FPS（7.5×加速）。

消融实验要点¶

查询融合是关键：无传播61.3 AP → 查询传播63.9（+2.6）→ 查询融合68.6（+4.7），速度几乎不变
模型大小影响：ViT-L差距仅0.3 AP （vs CAVIS），ViT-S差距2.7 AP，说明大预训练模型是关键
预训练质量决定性：DINOv2下差距0.3 AP，IN21K下差距1.4 AP，IN1K下差距2.7 AP
VidEoMT vs EoMT+tracker：VidEoMT（68.6 AP, 160 FPS）优于EoMT+CAVIS（68.1 AP, 42 FPS）——统一比解耦更好更快
查询融合 vs TrackFormer：融合（68.6 AP, 160 FPS）优于TrackFormer（67.7 AP, 117 FPS）——更简单更快更准

亮点¶

10×+加速是game-changing级别的——160 FPS使实时视频分割成为现实
"VFM预训练的ViT已经隐式学会了追踪"是一个深刻的洞察——DINO训练目标促进跨视图一致性，这正是追踪所需
渐进式模块移除实验非常有说服力——每一步都定量验证了"哪些组件是冗余的"
查询融合设计极度简洁（一个线性层+元素加法），体现了"简洁即力量"
FPS的巨大提升主要不是因为FLOPs减少（只减32%），而是因为纯ViT architecture可以更好利用FlashAttention+torch.compile等硬件优化

局限性 / 可改进方向¶

对小ViT（ViT-S/B）性能差距更大，说明方法的有效性严重依赖大模型和强预训练
OVIS上（严重遮挡场景）与CAVIS差距约1.6 AP，极端遮挡场景可能需要更多追踪能力
查询融合只用前一帧信息，长期时序建模能力有限
训练需要微调整个ViT编码器（CAVIS可以冻结），内存成本更高
仅支持online模式，不适用于需要全局时序推理的offline设置

与相关工作的对比¶

vs CAVIS (ICCV 2025)：CAVIS是当前SOTA但仅15 FPS，VidEoMT 160 FPS（10.7×加速），AP仅差0.3——用极少精度换巨大速度
vs MinVIS：MinVIS同样追求简单高效但用了Swin-L+Mask2Former解码器，VidEoMT彻底encoder-only，更快（160 vs 29 FPS）且更准（68.6 vs 61.6 AP）
vs EoMT (CVPR 2025 图像分割)：VidEoMT是EoMT的视频版本，通过查询传播+融合实现了7.3 AP的提升（68.6 vs 61.3）

启发与关联¶

"强预训练可以消除下游任务特定组件"的论点在越来越多任务上被验证——从图像分割（EoMT）到视频分割（VidEoMT），下一步可能是3D感知、视频生成等
查询传播+融合的时序建模方式可以用于其他需要帧间关联的任务——如视频目标检测、动作检测
对自动驾驶等实时应用意义重大：160 FPS在各种应用场景下都足够

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次实现encoder-only视频分割，且10×加速是质的飞跃
实验充分度: ⭐⭐⭐⭐⭐ 6个基准（4 VIS + 1 VPS + 1 VSS）、渐进移除消融、多预训练/模型尺寸对比、替代方案对比
写作质量: ⭐⭐⭐⭐⭐ 逻辑链极其清晰（假设→验证→设计→实验），从CAVIS到VidEoMT的渐进推演很精彩
价值: ⭐⭐⭐⭐⭐ 160 FPS的视频分割对工业应用有巨大价值，证明了VFM时代"less is more"