CAVIS: Context-Aware Video Instance Segmentation¶

会议: ICCV 2025
arXiv: 2407.03010
代码: https://github.com/seunghunlee918/cavis (有)
领域: 分割
关键词: 视频实例分割, 上下文感知, 对比学习, 实例追踪, Mask2Former

一句话总结¶

提出CAVIS，通过引入上下文感知实例追踪器（CAIT）融合物体边界周围的上下文信息来增强实例关联，并设计原型化跨帧对比损失（PCC）保证跨帧特征一致性，在VIS和VPS任务上全面刷新SOTA。

研究背景与动机¶

视频实例分割（VIS）要求在视频序列中同时分割和识别每个物体实例。现代VIS方法基于query-based架构（如Mask2Former），通过跨帧实例特征的关联来实现追踪。

然而，现有方法在以下情况下追踪容易失败：

严重遮挡：物体被遮挡后重新出现时，仅靠核心实例特征难以正确重识别

相似外观：多个外观相似的物体同时出现时（如多辆同色汽车），instance center特征无法区分

作者从认知科学和神经科学中获得启发：人类感知在解析复杂场景时会重度依赖上下文线索。例如，判断一辆自行车的身份时，如果看到"有人骑在上面"这个上下文信息，就能大大提高识别准确率。

核心创新：将物体边界周围的上下文语义信息融入实例特征，使追踪器不仅"看到"物体本身，还能"看到"物体所处的环境。

方法详解¶

整体框架¶

CAVIS基于Mask2Former分割网络，包含两个核心组件：

上下文感知实例追踪器（CAIT）：提取并融合物体周围的上下文特征
原型化跨帧对比损失（PCC Loss）：通过pixel-level的原型匹配增强帧间特征一致性

关键设计¶

1. 上下文感知特征提取

从Mask2Former获得实例特征、特征图F和分割mask M后：

对特征图F做平均滤波（9x9 kernel）得到模糊化特征，获取区域级上下文
对分割mask M做Laplacian滤波，提取物体边界区域
在边界区域内对模糊化特征取平均池化，得到实例周围特征
将核心特征和周围特征拼接后通过MLP融合，得到上下文感知特征Q

Laplacian边界比膨胀mask更精确，平均滤波自然覆盖了边界外侧的语义信息，两者配合实现了高效的"周围上下文"提取。

2. 上下文感知跨帧匹配

将上下文感知特征Q送入改进的transformer-based追踪器： - 使用context-aware cross-attention机制，让当前帧的上下文感知特征与历史帧的对应特征进行注意力匹配 - 通过Hungarian matching对齐帧间实例特征的顺序，序号一致即为同一物体

3. 原型化跨帧对比损失（PCC Loss）

为每个实例构建原型：基于mask区域内高级特征图的加权平均
将原型与pixel embedding做cosine相似度匹配，生成instance-pixel相关图
对比损失确保同一实例在不同帧的原型与其对应区域的pixel embedding保持一致
既增强帧内区域一致性（intra-frame），又强化帧间连续性（inter-frame）

损失函数 / 训练策略¶

总训练损失：L = L_VIS + lambda_Emb * L_Emb + lambda_PCC * L_PCC

L_VIS: VIS标准损失（分类+BCE+Dice）
L_Emb: 实例嵌入对比损失（跨帧）
L_PCC: 原型化跨帧对比损失
使用Mask2Former(Swin-L)作为分割backbone
训练使用标准VIS训练策略

实验关键数据¶

主实验¶

OVIS数据集（最具挑战性的VIS benchmark）：

方法	AP
DVIS (ICCV'23)	37.8
CTVIS (ICCV'23)	38.7
GenVIS (CVPR'23)	36.4
CAVIS	41.0

YTVIS19数据集：

方法	AP
DVIS	55.1
CTVIS	55.4
CAVIS	57.2

VIPSeg（视频全景分割）：

方法	VPQ
DVIS	47.2
CAVIS	49.5

消融实验¶

OVIS数据集上各组件贡献：

配置	AP
Baseline (无上下文)	37.8
+ Context-aware features	39.2
+ Context-aware cross-attention	39.8
+ PCC Loss	40.5
+ Full CAVIS	41.0

上下文提取方式对比：

上下文策略	AP
无上下文	37.8
全图上下文 (CAROQ-style)	38.9
膨胀mask区域	39.0
边界区域上下文 (Ours)	39.2

关键发现¶

CAVIS在OVIS这种高遮挡、高复杂度的benchmark上优势最为明显（+2.3 AP），说明上下文信息在遮挡场景中尤其重要
边界区域上下文（Laplacian方式）优于全图上下文，后者引入了无关噪声且内存开销大
PCC Loss单独即带来显著AP提升，说明pixel-level的原型一致性比instance-level的嵌入对比更有效
方法在VIS和VPS两种任务上都有效，具有较好的泛化性

亮点与洞察¶

认知科学驱动的设计：从人类利用上下文线索识别物体的认知过程出发，是很好的motivation
轻量级上下文提取：Laplacian + 平均滤波的组合简单高效，不需要额外网络
PCC Loss的设计智慧：通过原型化桥接pixel和instance两个尺度，比直接的实例对比loss更细粒度
在OVIS上的大幅提升证明了上下文信息对解决遮挡问题的关键作用

局限与展望¶

上下文特征的Laplacian边界宽度是固定的，不同大小物体可能需要自适应边界
平均滤波的9x9 kernel大小是手动设定的，缺乏理论指导
缓存中实验部分不完整，部分定量结果需要从论文原文确认
对极小物体，边界上下文可能被背景噪声淹没
PCC Loss增加了训练开销，实际推理速度影响有待评估

评分¶

新颖性: ⭐⭐⭐⭐ — 上下文感知追踪思路新颖，PCC Loss设计巧妙，但整体增量性较强
实验充分度: ⭐⭐⭐⭐ — 覆盖VIS和VPS多个benchmark，消融充分
写作质量: ⭐⭐⭐⭐ — Motivation从认知科学引入很吸引人，符号体系完整
价值: ⭐⭐⭐⭐ — 在challenging VIS场景（遮挡、相似外观）上的提升有实际意义