SAMWise: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation¶

会议: CVPR 2025
arXiv: 2411.17646
代码: https://github.com/ClaudiaCuttano/SAMWISE
领域: 视频分割 / 多模态VLM
关键词: 参考视频目标分割, SAM2, 跨模态时序适配器, 追踪偏差, 流式处理

一句话总结¶

SAMWISE 通过设计跨模态时序适配器（CMT）和条件记忆编码器（CME），在不微调 SAM2 权重的前提下为其注入自然语言理解和显式时序建模能力，以流式处理方式在参考视频目标分割（RVOS）任务上取得了 SOTA 性能，仅增加不到 5M 参数。

研究背景与动机¶

领域现状：参考视频目标分割（RVOS）根据自然语言表达在视频中分割目标对象。现有方法主要有两种范式：一是将视频分成短片段独立处理（如 ReferFormer、MTTR），但这会丢失全局时序上下文；二是离线处理整段视频（如 DsHmp），先建模所有实例的轨迹再选择最匹配的，但无法适用于流式场景。

现有痛点：短片段方法在需要长期运动推理的场景（如 MeViS 数据集）中表现很差，因为动作可能跨越多帧；离线方法虽然效果好，但要求一次性访问整个视频，在实时流式场景中不可用。OnlineRefer 尝试在线传播上下文，但仅依赖单帧过去信息，无法捕获长期依赖。

核心矛盾：如何在流式处理（不需要整个视频）的同时保留全局上下文信息，这是 RVOS 中的根本矛盾。SAM2 天然适合流式处理且拥有记忆库机制，但它缺乏三个关键能力：(i) 文本理解——只能接受空间点等提示；(ii) 时序建模——逐帧独立提取特征，缺乏运动推理；(iii) 追踪偏差——一旦开始追踪错误目标就会坚持错下去。

本文目标：在不微调 SAM2 权重、不依赖外部大模型的前提下，赋予 SAM2 自然语言理解、时序建模和自动纠错追踪的能力。

切入角度：利用轻量级适配器模块注入到冻结的 SAM2 中，既保留其强大的分割追踪能力，又增加新功能。这种思路借鉴了 CLIP 等预训练模型的适配器微调范式。

核心 idea：设计跨模态时序适配器（CMT）在特征提取阶段同时建模视觉-语言交互和时序演化，并通过条件记忆编码器（CME）检测追踪偏差并软性切换追踪焦点。

方法详解¶

整体框架¶

SAMWISE 建立在冻结的 SAM2 和冻结的文本编码器之上。输入为视频帧序列和文本描述。在每一层特征提取中，CMT 适配器同时嵌入视觉编码器和文本编码器，实现跨模态融合和时序建模。提取的文本特征中的 [CLS] 和动词嵌入分别作为 Contextual Prompt 和 Motion Prompt，经 MLP 投影后送入 SAM2 的 Mask Decoder 生成分割掩码。最终，CME 模块检测当前帧是否出现更匹配文本的新目标，动态调整记忆库中的追踪信息。

关键设计¶

跨模态时序适配器（CMT Adapter）:
- 功能：在特征提取阶段同时注入时序信息和跨模态线索
- 核心思路：CMT 由三个子模块组成——层次化选择注意力（HSA）用于时序建模，视觉到文本注意力（VTA）和文本到视觉注意力（TVA）用于跨模态融合。对于时序部分，将特征体积分解为 \(T \times P \times P\) 的时空块，在块内做自注意力，避免全局注意力的高计算开销。块大小 P 随特征分辨率层级递进缩放，实现多尺度时序建模。跨模态部分中，VTA 让视觉特征关注文本表达以识别与描述匹配的候选区域，TVA 让文本 token 吸收视觉信息以根据画面内容调整语义理解
- 设计动机：SAM2 逐帧独立提取特征，缺乏时序推理。视频中物体运动通常在局部区域，HSA 利用这一先验仅在时空邻域内做注意力，比全 token 自注意力高效得多。跨模态交互使特征在早期就对齐，而非仅在最后阶段融合
双重提示策略（Contextual + Motion Prompt）:
- 功能：为 SAM2 Mask Decoder 提供语义和动作双重引导
- 核心思路：从适配后的文本特征中提取 [CLS] 嵌入作为 Contextual Prompt（编码主体语义），提取动词嵌入作为 Motion Prompt（编码动作线索）。两者拼接后经三层 MLP 投影为 SAM2 的提示向量 \(\rho = W_{\text{prompt}}(\text{CAT}[\mathcal{E}_C, \mathcal{E}_M])\)。在每一帧都注入该提示，让模型在追踪的同时也关注当前帧内容
- 设计动机：MeViS 等数据集中文本描述包含动作信息（如"正在攀爬的猫"），仅用全局语义不够，需要显式编码运动相关的动词线索
条件记忆编码器（CME）:
- 功能：检测追踪偏差并动态切换追踪焦点
- 核心思路：从无记忆特征（不受历史预测偏差影响）中通过交叉注意力提取一个 memory-less token \(\tau_l\)，与 Mask Decoder 输出的 mask token \(\tau_m\) 比较。将两者和一个可学习 [DEC] token 拼接做自注意力，再通过线性分类器判断是否检测到新的更匹配目标（\(p_{detect} > 0.5\)）。若检测到，则计算无偏见 mask \(\mathcal{P}_l\) 并与追踪 mask \(\mathcal{P}_m\) 在空间上软融合后送入记忆编码器，让 SAM2 "看到"新目标
- 设计动机：SAM2 存在追踪偏差——当正确目标尚未出现时可能追踪错误目标，且后续即使正确目标出现也不会自动切换。CME 利用无偏特征与文本提示的对齐来检测切换时机，采用软分配而非硬切换以避免误报

损失函数 / 训练策略¶

仅训练适配器和 CME 模块（约 4.2-4.9M 参数），SAM2 和文本编码器完全冻结
先在 RefCOCO/+/g 上预训练 6 epochs（学习率 1e-4），再在 Ref-Youtube-VOS 上微调 4 epochs（学习率 1e-5），使用 Adam 优化器
在 MeViS 上仅微调 1 epoch，clip 长度 T=8
CME 通过自监督方式用交叉熵损失训练，提供无记忆特征高亮不同目标的样本

实验关键数据¶

主实验¶

方法	MeViS J&F	Ref-YT-VOS J&F	Ref-DAVIS J&F	总参数
DsHmp (前SOTA)	46.4	67.1	64.9	339M
OnlineRefer	32.3	63.5	64.8	232M
VISA (VLM-7B)	43.5	61.5	69.4	7B
SAMWISE (RoBERTa)	49.5	69.2	70.6	202M
SAMWISE (CLIP)	48.3	67.2	68.5	150M

消融实验¶

配置	MeViS J&F
MLP-only (无 CMT)	45.2
+ Text-to-Visual	47.5
+ Visual-to-Text	48.3
+ HSA 时序建模	50.3
+ 全部 CMT	54.2
+ CME	55.5

HSA 块大小	固定P=1	固定P=4	固定P=8	层次 8/4/2	层次 16/8/4
J&F	49.7	52.3	53.1	54.2	53.8

关键发现¶

SAMWISE 在流式处理下超越需要整段视频的离线方法 DsHmp（+3.1% on MeViS），证明流式+记忆库比全局离线更有效
仅训练 4.9M 参数（占总量 2.4%）就实现 SOTA，参数效率极高
CMT 适配器中跨模态交互贡献+5.1%，时序建模贡献+3.9%，CME 贡献+1.3%
HSA 层次化块大小（8/4/2）比固定大小更好（+1.1%），验证多尺度时序建模的价值
CME 自适应检测优于固定频率检测：Always 检测反而降 3.5%（50.7 vs 54.2），过频切换引入噪声

亮点与洞察¶

"追踪偏差"现象的发现是重要贡献——SAM2 一旦追踪错误目标就不会自我纠正，这在 RVOS 中尤其致命
将适配器范式从图像 CLIP 迁移到视频 SAM2 的思路巧妙，在保留原始能力的同时增加新功能
HSA 利用视频运动局部性先验，在时空邻域内做注意力，计算效率远优于全 token 自注意力
150M 参数的 SAMWISE-CLIP 版本超越 7B 参数的 VISA，说明任务特化的轻量适配可能比通用大模型更有效

局限与展望¶

流式处理仍需要一定视频片段（T=8 帧），对极端实时场景可能有延迟
CME 的检测阈值固定为 0.5，不同场景可能需要不同阈值
文本编码器冻结可能限制对复杂语义的理解深度
未来可探索更长时序窗口和对 SAM2 更大版本（Hiera-L）的适配

评分¶

新颖性: 8/10 — 追踪偏差的发现及 CME 解决方案很有创意，CMT 融合多项创新
实验充分度: 8/10 — 三个主流数据集+详细消融，缺少速度对比
写作质量: 8/10 — 结构清晰，追踪偏差的可视化展示直观
价值: 8/10 — 为 SAM2 扩展到 RVOS 提供了高效强大的方案