STSP: Spatial-Temporal Subspace Projection for Video Class-Incremental Learning¶
会议: ECCV 2024
论文链接: ECVA
代码: 无
领域: 视频理解 / 增量学习
关键词: 视频类增量学习, 子空间投影, 正交约束, 梯度投影, 灾难性遗忘
一句话总结¶
提出空间-时间子空间投影(STSP)方法解决视频类增量学习中的灾难性遗忘问题,通过时间子空间分类器(TSC)用正交子空间基表示每个类别,并通过空间梯度投影(SGP)将梯度约束在旧任务特征的零空间中,在HMDB51、UCF101和SSv2上达到SOTA。
研究背景与动机¶
领域现状:视频类增量学习(Video Class-Incremental Learning, VCIL)要求模型在持续学习新视频类别的同时不遗忘旧类别。这是一个实际应用中的高频需求——监控系统需要不断识别新的异常行为,机器人需要持续学习新动作。目前的增量学习方法主要针对图像设计,直接迁移到视频领域效果欠佳。
现有痛点:传统VCIL方法通常保留旧任务的部分帧或特征作为"样本回放",存在两个问题:(1) 这种做法忽略了新旧类别之间的语义联系,简单回放容易导致类别混淆;(2) 保存旧数据可能导致隐私泄露。基于正则化的方法虽然不需要保存数据,但对视频中复杂的时空动态建模不足,难以有效区分时序模式相似的动作。
核心矛盾:视频数据同时包含空间外观信息和时间演化信息,增量学习需要在保护旧知识和学习新知识之间取得平衡,而视频的时空双重性使得这个权衡比图像增量学习困难得多。现有方法要么只关注空间特征的保护,忽略了时间维度;要么依赖昂贵的数据回放。
本文目标 (1) 如何在不保存旧数据的前提下有效防止灾难性遗忘;(2) 如何利用视频中的时空动态特性来增强增量学习的判别能力。
切入角度:作者提出从子空间投影的角度切入——用正交子空间基来表示不同类别的特征分布,这样不同类别之间天然具有区分性;同时利用旧任务特征的零空间来约束新任务的梯度方向,从根本上避免对旧知识的干扰。
核心 idea:将每个视频类别表示为特征空间中的一个正交子空间,通过时间维度的子空间分类和空间维度的梯度投影,同时实现类别区分和知识保护。
方法详解¶
整体框架¶
STSP的输入是视频帧序列,经过共享的特征提取器(如ResNet/ViT)提取空间特征后,通过时间建模模块捕获时序动态。分类端使用TSC,根据特征在各类别子空间上的投影大小来判断类别。训练时,SGP监控梯度更新方向,确保新知识的学习不会破坏旧知识。整体pipeline可分为:(1) 特征提取;(2) 基于TSC的子空间分类;(3) 基于SGP的梯度约束训练。
关键设计¶
-
时间子空间分类器(Temporal-based Subspace Classifier, TSC):
- 功能:用正交子空间基来表示每个视频类别,替代传统的全连接分类头
- 核心思路:传统分类器使用一个权重向量代表每个类别,而TSC为每个类别分配一组正交基向量,构成一个子空间。给定视频的时空特征 \(f\),TSC计算其在每个类别子空间上的投影分量大小:\(s_c = \|P_c f\|^2\),其中 \(P_c = B_c B_c^T\) 是类别 \(c\) 的子空间投影矩阵,\(B_c\) 是该类别的正交基。预测类别为投影大小最大的那个子空间。关键在于,TSC在提取子空间基时会考虑时间维度的动态变化——不同帧的特征在子空间中的位置变化反映了动作的时序演化,这为分类提供了时间线索
- 设计动机:与全连接层相比,子空间表示有两个优势:一是可以捕获类内多样性(一个子空间比一个向量能覆盖更多变化);二是子空间之间的正交约束天然提供了类间区分性。这种表示方式特别适合增量学习——新类别只需分配新的正交子空间,不会与旧类别冲突
-
类间与类内正交约束:
- 功能:确保不同类别的子空间互不重叠,同一类别的基向量互相正交
- 核心思路:类间约束要求不同类别的子空间基满足 \(B_i^T B_j = 0\)(\(i \neq j\)),即不同类别的子空间正交。这通过在损失函数中添加正交惩罚项实现:\(L_{inter} = \sum_{i \neq j} \|B_i^T B_j\|_F^2\)。类内约束确保每个类别的基向量本身是标准正交的:\(B_c^T B_c = I\)。两层约束共同保证了特征空间被"干净地"划分给各个类别
- 设计动机:在增量学习中,如果不施加正交约束,新类别的子空间可能入侵旧类别的特征空间,导致分类混乱。正交约束从几何上保证了各类别"各占一块"的格局,即使引入新类别也不会破坏旧类别的判决边界
-
空间梯度投影(Spatial-based Gradient Projection, SGP):
- 功能:在训练新任务时,将梯度投影到旧任务空间特征的零空间方向,防止遗忘
- 核心思路:SGP首先收集旧任务数据的空间特征,计算其特征矩阵的主要成分(通过SVD分解得到旧任务特征的主子空间)。在学习新任务时,对网络每层的梯度 \(g\) 进行投影:\(g' = g - P_{old} g\),其中 \(P_{old}\) 是旧任务特征子空间的投影矩阵。投影后的梯度 \(g'\) 位于旧任务特征的零空间中,意味着参数更新不会改变旧任务已学到的空间特征表示。SGP特别关注空间特征而非时间特征,因为空间外观信息是类别区分的基础
- 设计动机:传统梯度投影方法(如GPM)直接在所有特征上做投影,计算开销大且可能过度约束网络。SGP只保护空间特征的核心方向,给时间维度留下更多学习空间。这是因为空间外观特征通常是类别判别最关键的信息(如"踢球"的关键是"球"和"脚"的外观),而时间模式可以更灵活地适应新类别
损失函数 / 训练策略¶
总损失包含三部分:(1) 子空间投影分类损失 \(L_{cls}\),基于投影大小计算交叉熵;(2) 类间正交损失 \(L_{inter}\),惩罚不同类别子空间的重叠;(3) 类内正交损失 \(L_{intra}\),保持基向量的标准正交性。训练时首先在基础任务上学习初始类别的子空间,后续增量阶段通过SGP约束梯度方向学习新类别。
实验关键数据¶
主实验¶
| 数据集 | 指标 | STSP | 之前SOTA | 提升 |
|---|---|---|---|---|
| UCF101 (5 tasks) | Last Acc | 72.8 | 69.2 | +3.6 |
| UCF101 (10 tasks) | Last Acc | 67.3 | 63.8 | +3.5 |
| HMDB51 (5 tasks) | Last Acc | 51.4 | 47.9 | +3.5 |
| SSv2 (5 tasks) | Last Acc | 38.6 | 35.2 | +3.4 |
| UCF101 (5 tasks) | Avg Acc | 80.1 | 77.5 | +2.6 |
消融实验¶
| 配置 | UCF101 Last Acc | 说明 |
|---|---|---|
| Full STSP | 72.8 | 完整模型 |
| w/o TSC (用FC) | 68.1 | 改用全连接分类器 |
| w/o 正交约束 | 69.5 | 去掉类间/类内正交约束 |
| w/o SGP | 70.2 | 不做梯度投影 |
| w/o 时间建模 | 70.9 | TSC不考虑时间动态 |
| Replay + FC | 70.4 | 传统回放方法 |
关键发现¶
- TSC贡献最大,替换为全连接分类器后准确率下降4.7个点,说明子空间表示对增量学习至关重要
- 正交约束和SGP分别贡献3.3/2.6个点的提升,二者有互补作用
- 在更长的任务序列(10 tasks)上,STSP的优势更加明显,说明子空间正交约束在类别数增多时维护了更好的类别分离度
- 在SSv2这个时间敏感的数据集上,加入时间建模带来的提升最大,验证了TSC中时间子空间的价值
亮点与洞察¶
- 子空间表示替代全连接层是一个优雅的设计:正交子空间天然解决了增量学习中新旧类别冲突的问题,不需要复杂的知识蒸馏或数据回放。这种思路可以迁移到其他增量学习场景
- 空间和时间的解耦保护策略很巧妙:SGP只保护空间特征(因为空间外观是基础),给时间维度留活动空间。这种"选择性保护"比全面保护更高效
- 无需保存旧数据的设计:通过正交子空间和梯度投影的组合,完全避免了数据回放带来的存储和隐私问题
局限与展望¶
- 随着类别数量增加,特征空间的维度是有限的,能分配的正交子空间数有上限。当类别数非常多时,正交约束可能无法完全满足
- SGP需要额外存储旧任务的特征统计信息(虽然比存储原始数据小很多),在极端长序列增量学习中存储开销仍然会增长
- 论文主要在动作识别上验证,对于更细粒度的视频理解任务(如时序动作检测、视频问答的增量学习)可能需要适配
- 子空间基的维度是固定的超参数,不同类别可能需要不同维度的子空间来表示其类内多样性
相关工作与启发¶
- vs LUCIR: LUCIR使用余弦分类器+知识蒸馏,需要保存旧样本做回放。STSP通过正交子空间完全避免数据存储,且类别表示更丰富
- vs GPM: GPM在图像增量学习中提出梯度投影,但处理所有层的所有特征。STSP的SGP只保护空间特征的关键方向,更高效且留给时间学习更多空间
- vs vCLIMB: vCLIMB是最早系统研究VCIL的工作,但主要迁移图像增量学习方法,忽略了视频的时空特性。STSP的TSC直接建模时空动态
评分¶
- 新颖性: ⭐⭐⭐⭐ 子空间分类器和选择性梯度投影在VCIL中是新颖的组合
- 实验充分度: ⭐⭐⭐⭐ 三个数据集,多种增量设置,消融充分
- 写作质量: ⭐⭐⭐⭐ 方法动机和设计清晰,逻辑链完整
- 价值: ⭐⭐⭐⭐ 对视频增量学习领域有实际价值,无需数据回放是重要优势
相关论文¶
- [ECCV 2024] An Incremental Unified Framework for Small Defect Inspection
- [ECCV 2024] Rebalancing Using Estimated Class Distribution for Imbalanced Semi-Supervised Learning under Class Distribution Mismatch
- [ECCV 2024] Learning Anomalies with Normality Prior for Unsupervised Video Anomaly Detection
- [CVPR 2025] Task-Agnostic Guided Feature Expansion for Class-Incremental Learning
- [ECCV 2024] ABC Easy as 123: A Blind Counter for Exemplar-Free Multi-Class Class-Agnostic Counting