Hierarchical Visual Prompt Learning for Continual Video Instance Segmentation¶

会议: ICCV 2025
arXiv: 2508.08612
代码: GitHub
领域: 图像分割
关键词: 持续学习, 视频实例分割, 视觉提示学习, 灾难性遗忘, 正交梯度校正

一句话总结¶

提出持续视频实例分割（CVIS）新问题，设计分层视觉提示学习（HVPL）模型，通过帧级和视频级两个层面的遗忘补偿机制，有效缓解旧类别的灾难性遗忘。

研究背景与动机¶

视频实例分割（VIS）需要在连续帧中同时检测、分割和跟踪物体实例。然而，现有方法假设类别集合固定不变，这与现实场景不符——新类别会持续出现。如果直接在新类别上微调，模型会严重遗忘已学过的旧类别（即灾难性遗忘）。

现有方法的不足： 1. 传统VIS方法需要保留所有旧类别的视频数据进行重训练，计算成本和内存需求极高 2. 简单将持续学习（CL）与VIS结合仅能在帧级别缓解遗忘，无法利用全局视频上下文来解决视频级别的遗忘问题 3. 知识蒸馏方法在CVIS中因实例间外观变化大而效果不佳，多任务递增进一步加剧了蒸馏的难度

核心动机：需要一种无需存储旧任务训练数据（rehearsal-free）的方法，同时从帧级和视频级两个维度解决灾难性遗忘。

方法详解¶

整体框架¶

HVPL以预训练的Mask2Former作为帧级检测器（参数冻结），在其基础上引入两个层级的提示学习机制： - 帧级：任务特定帧提示 + 正交梯度校正（OGC）模块 - 视频级：任务特定视频提示 + 视频上下文解码器（含GSS层和MSA层）

关键设计¶

任务特定帧提示 + 正交梯度校正（OGC）：
- 为每个新任务 \(t\) 引入可学习帧提示 \(\mathbf{P}_{\mathrm{frm}}^{t} \in \mathbb{R}^{L_p^f \times D}\)，编码新类别的全局实例信息
- OGC的核心思想：更新帧提示的梯度 \(\triangle\mathbf{P}\) 应满足 \(\triangle\mathbf{P}(\mathcal{O}^{t-1})^\top = \mathbf{0}\)，即梯度投影到旧任务特征空间的正交补空间
- 通过对旧任务代表性特征空间 \(\mathcal{O}^{t-1}\) 做SVD分解得到正交基 \(\mathbf{V}_0^{t-1}\)，将梯度投影为 \(\triangle\mathbf{P}^* = \triangle\mathbf{P}\hat{\mathbf{V}}_0^{t-1}(\hat{\mathbf{V}}_0^{t-1})^\top\)
- 弹性阈值 \(\xi \in [0,1]\) 控制正交空间大小，平衡新任务学习和旧任务保留（实验最优 \(\xi=0.7\)）
- 设计动机：确保新任务学习不会干扰旧类别特征空间中的注意力计算，从数学上保证帧级遗忘的最小化
图引导状态空间模块（GT-SSM）：
- 位于视频上下文解码器的GSS层中，用于捕获跨帧的结构化类间关系
- 构建无向 \(\varphi\)-连接图 \(\mathcal{G}\)，通过最小生成树 \(\mathcal{G}_T\) 消除噪声边
- 基于状态空间模型的离散化变量 \(\bar{\mathbf{A}}_j = \exp(\triangle_j \mathbf{A}_j)\)，通过图遍历计算隐藏状态
- 提出动态遍历策略（Algorithm 1），将复杂度从 \(\mathcal{O}(N_v^2)\) 降至 \(\mathcal{O}(N_v)\)
- 设计动机：传统Mamba使用固定遍历路径，无法建模跨帧实例间的内在结构关系；GT-SSM通过图结构自适应遍历，捕获语义相关实例间的信息传播
任务特定视频提示 + MSA层：
- 可学习视频提示 \(\mathbf{P}_{\mathrm{vid}}^{t} \in \mathbb{R}^{L_p^v \times D}\) 编码视频级全局上下文
- MSA层以视频提示为Query，GSS层输出的增强特征为Key/Value，通过多头自注意力捕获任务特定的全局视频上下文
- 输出的视频提示特征 \(\mathbf{F}_{\mathrm{vid}}^{L_m}\) 整合了跨帧结构关系和全局语义信息
- 设计动机：帧级补偿忽略了不同帧中实例之间的内在关系，缺乏全局语义上下文使得视频级遗忘难以解决

损失函数 / 训练策略¶

采用Mask2Former的标准目标损失
训练时冻结Mask2Former的骨干网络、像素解码器和Transformer解码器参数
首次任务使用帧/视频提示长度 \(L_p^f = L_p^v = 100\)，后续任务使用 \(L_p^f = L_p^v = 10\)
测试时拼接所有任务的帧提示和视频提示进行联合推理
旧任务特征空间 \(\mathcal{O}^{t-1}\) 的存储不超过0.1M，可忽略不计

实验关键数据¶

主实验¶

数据集/设置	指标	HVPL	ECLIPSE (CVPR'24)	CoMFormer+NeST	提升
OVIS 15-5	AP	11.09	6.62	4.44	+4.47
OVIS 15-5	FAP↓	9.56	28.08	32.25	-18.52
OVIS 15-10	AP	11.92	6.82	5.87	+5.10
YT-VIS 2021 30-10	AP	43.24	29.68	28.70	+13.56
YT-VIS 2021 20-4	AP	35.05	30.52	15.37	+4.53
YT-VIS 2019 20-5	AP	34.79	32.62	21.39	+2.17
YT-VIS 2019 20-2	AP	31.68	30.24	10.29	+1.44

消融实验¶

配置	AP (30-10)	FAP↓	说明
Base（仅微调Mask2Former）	27.53	96.48	无任何抗遗忘机制
+TFP（帧提示）	30.02	74.88	帧提示缓解部分遗忘
+TFP+TVP（+视频提示+MSA）	39.07	31.05	视频级补偿大幅提升
+TFP+TVP+GSS	40.37	30.40	GSS层进一步建模跨帧关系
Full（+OGC）	43.24	15.69	OGC正交梯度校正最终完成

关键发现¶

HVPL可训练参数仅0.92M，远少于知识蒸馏方法的41.92M，但性能远优
遗忘率FAP和FAR1大幅降低，例如在OVIS 15-5上FAP仅9.56%（ECLIPSE为28.08%）
在多任务递增（如YT-VIS 2021 20-4共6个任务）中表现尤为突出，各增量步骤均领先
\(\xi=0.7\) 为平衡新旧任务学习的最优阈值，\(\xi\) 在0.2-1.0范围内性能稳定

亮点与洞察¶

新问题定义：首次形式化定义了CVIS问题，填补了持续学习在视频实例分割中的空白
分层遗忘补偿：帧级（OGC正交投影）+ 视频级（GT-SSM + 视频提示）的双层设计很有系统性
数学推导严谨：从注意力等价性出发推导梯度正交条件，理论保证强
GT-SSM：将Mamba与图结构结合用于跨帧关系建模是一个新颖思路
极低参数量：0.92M参数即可大幅超越42M参数的方法，参数效率极高

局限与展望¶

仅使用ResNet-50作为骨干网络，未验证在更强骨干（如Swin-L）上的效果
CVIS设置中不考虑旧任务数据回放（rehearsal-free），实际应用中少量回放可能进一步提升
GT-SSM中最小生成树的构建依赖余弦相似度，对于外观变化剧烈的场景可能不够鲁棒
未探讨与大语言模型结合处理大规模持续任务（作者在结论中提及为未来工作）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出CVIS问题，分层提示学习框架设计新颖
实验充分度: ⭐⭐⭐⭐ 三个数据集多种设置，消融充分，但缺乏更强骨干实验
写作质量: ⭐⭐⭐⭐ 理论推导清晰，符号定义规范
价值: ⭐⭐⭐⭐⭐ 对持续学习在视频分割中的应用具有开拓意义