STSP: Spatial-Temporal Subspace Projection for Video Class-Incremental Learning¶

会议: ECCV 2024
论文链接: ECVA 代码: 无
领域: 视频理解 / 增量学习
关键词: 视频类增量学习, 子空间投影, 正交约束, 梯度投影, 灾难性遗忘

一句话总结¶

提出空间-时间子空间投影（STSP）方法解决视频类增量学习中的灾难性遗忘问题，通过时间子空间分类器（TSC）用正交子空间基表示每个类别，并通过空间梯度投影（SGP）将梯度约束在旧任务特征的零空间中，在HMDB51、UCF101和SSv2上达到SOTA。

研究背景与动机¶

领域现状：视频类增量学习（Video Class-Incremental Learning, VCIL）要求模型在持续学习新视频类别的同时不遗忘旧类别。这是一个实际应用中的高频需求——监控系统需要不断识别新的异常行为，机器人需要持续学习新动作。目前的增量学习方法主要针对图像设计，直接迁移到视频领域效果欠佳。

现有痛点：传统VCIL方法通常保留旧任务的部分帧或特征作为"样本回放"，存在两个问题：(1) 这种做法忽略了新旧类别之间的语义联系，简单回放容易导致类别混淆；(2) 保存旧数据可能导致隐私泄露。基于正则化的方法虽然不需要保存数据，但对视频中复杂的时空动态建模不足，难以有效区分时序模式相似的动作。

核心矛盾：视频数据同时包含空间外观信息和时间演化信息，增量学习需要在保护旧知识和学习新知识之间取得平衡，而视频的时空双重性使得这个权衡比图像增量学习困难得多。现有方法要么只关注空间特征的保护，忽略了时间维度；要么依赖昂贵的数据回放。

本文目标 (1) 如何在不保存旧数据的前提下有效防止灾难性遗忘；(2) 如何利用视频中的时空动态特性来增强增量学习的判别能力。

切入角度：作者提出从子空间投影的角度切入——用正交子空间基来表示不同类别的特征分布，这样不同类别之间天然具有区分性；同时利用旧任务特征的零空间来约束新任务的梯度方向，从根本上避免对旧知识的干扰。

核心 idea：将每个视频类别表示为特征空间中的一个正交子空间，通过时间维度的子空间分类和空间维度的梯度投影，同时实现类别区分和知识保护。

方法详解¶

整体框架¶

STSP的输入是视频帧序列，经过共享的特征提取器（如ResNet/ViT）提取空间特征后，通过时间建模模块捕获时序动态。分类端使用TSC，根据特征在各类别子空间上的投影大小来判断类别。训练时，SGP监控梯度更新方向，确保新知识的学习不会破坏旧知识。整体pipeline可分为：(1) 特征提取；(2) 基于TSC的子空间分类；(3) 基于SGP的梯度约束训练。

关键设计¶

时间子空间分类器（Temporal-based Subspace Classifier, TSC）:
- 功能：用正交子空间基来表示每个视频类别，替代传统的全连接分类头
- 核心思路：传统分类器使用一个权重向量代表每个类别，而TSC为每个类别分配一组正交基向量，构成一个子空间。给定视频的时空特征 \(f\)，TSC计算其在每个类别子空间上的投影分量大小：\(s_c = \|P_c f\|^2\)，其中 \(P_c = B_c B_c^T\) 是类别 \(c\) 的子空间投影矩阵，\(B_c\) 是该类别的正交基。预测类别为投影大小最大的那个子空间。关键在于，TSC在提取子空间基时会考虑时间维度的动态变化——不同帧的特征在子空间中的位置变化反映了动作的时序演化，这为分类提供了时间线索
- 设计动机：与全连接层相比，子空间表示有两个优势：一是可以捕获类内多样性（一个子空间比一个向量能覆盖更多变化）；二是子空间之间的正交约束天然提供了类间区分性。这种表示方式特别适合增量学习——新类别只需分配新的正交子空间，不会与旧类别冲突
类间与类内正交约束:
- 功能：确保不同类别的子空间互不重叠，同一类别的基向量互相正交
- 核心思路：类间约束要求不同类别的子空间基满足 \(B_i^T B_j = 0\)（\(i \neq j\)），即不同类别的子空间正交。这通过在损失函数中添加正交惩罚项实现：\(L_{inter} = \sum_{i \neq j} \|B_i^T B_j\|_F^2\)。类内约束确保每个类别的基向量本身是标准正交的：\(B_c^T B_c = I\)。两层约束共同保证了特征空间被"干净地"划分给各个类别
- 设计动机：在增量学习中，如果不施加正交约束，新类别的子空间可能入侵旧类别的特征空间，导致分类混乱。正交约束从几何上保证了各类别"各占一块"的格局，即使引入新类别也不会破坏旧类别的判决边界
空间梯度投影（Spatial-based Gradient Projection, SGP）:
- 功能：在训练新任务时，将梯度投影到旧任务空间特征的零空间方向，防止遗忘
- 核心思路：SGP首先收集旧任务数据的空间特征，计算其特征矩阵的主要成分（通过SVD分解得到旧任务特征的主子空间）。在学习新任务时，对网络每层的梯度 \(g\) 进行投影：\(g' = g - P_{old} g\)，其中 \(P_{old}\) 是旧任务特征子空间的投影矩阵。投影后的梯度 \(g'\) 位于旧任务特征的零空间中，意味着参数更新不会改变旧任务已学到的空间特征表示。SGP特别关注空间特征而非时间特征，因为空间外观信息是类别区分的基础
- 设计动机：传统梯度投影方法（如GPM）直接在所有特征上做投影，计算开销大且可能过度约束网络。SGP只保护空间特征的核心方向，给时间维度留下更多学习空间。这是因为空间外观特征通常是类别判别最关键的信息（如"踢球"的关键是"球"和"脚"的外观），而时间模式可以更灵活地适应新类别

损失函数 / 训练策略¶

总损失包含三部分：(1) 子空间投影分类损失 \(L_{cls}\)，基于投影大小计算交叉熵；(2) 类间正交损失 \(L_{inter}\)，惩罚不同类别子空间的重叠；(3) 类内正交损失 \(L_{intra}\)，保持基向量的标准正交性。训练时首先在基础任务上学习初始类别的子空间，后续增量阶段通过SGP约束梯度方向学习新类别。

实验关键数据¶

主实验¶

数据集	指标	STSP	之前SOTA	提升
UCF101 (5 tasks)	Last Acc	72.8	69.2	+3.6
UCF101 (10 tasks)	Last Acc	67.3	63.8	+3.5
HMDB51 (5 tasks)	Last Acc	51.4	47.9	+3.5
SSv2 (5 tasks)	Last Acc	38.6	35.2	+3.4
UCF101 (5 tasks)	Avg Acc	80.1	77.5	+2.6

消融实验¶

配置	UCF101 Last Acc	说明
Full STSP	72.8	完整模型
w/o TSC (用FC)	68.1	改用全连接分类器
w/o 正交约束	69.5	去掉类间/类内正交约束
w/o SGP	70.2	不做梯度投影
w/o 时间建模	70.9	TSC不考虑时间动态
Replay + FC	70.4	传统回放方法

关键发现¶

TSC贡献最大，替换为全连接分类器后准确率下降4.7个点，说明子空间表示对增量学习至关重要
正交约束和SGP分别贡献3.3/2.6个点的提升，二者有互补作用
在更长的任务序列（10 tasks）上，STSP的优势更加明显，说明子空间正交约束在类别数增多时维护了更好的类别分离度
在SSv2这个时间敏感的数据集上，加入时间建模带来的提升最大，验证了TSC中时间子空间的价值

亮点与洞察¶

子空间表示替代全连接层是一个优雅的设计：正交子空间天然解决了增量学习中新旧类别冲突的问题，不需要复杂的知识蒸馏或数据回放。这种思路可以迁移到其他增量学习场景
空间和时间的解耦保护策略很巧妙：SGP只保护空间特征（因为空间外观是基础），给时间维度留活动空间。这种"选择性保护"比全面保护更高效
无需保存旧数据的设计：通过正交子空间和梯度投影的组合，完全避免了数据回放带来的存储和隐私问题

局限与展望¶

随着类别数量增加，特征空间的维度是有限的，能分配的正交子空间数有上限。当类别数非常多时，正交约束可能无法完全满足
SGP需要额外存储旧任务的特征统计信息（虽然比存储原始数据小很多），在极端长序列增量学习中存储开销仍然会增长
论文主要在动作识别上验证，对于更细粒度的视频理解任务（如时序动作检测、视频问答的增量学习）可能需要适配
子空间基的维度是固定的超参数，不同类别可能需要不同维度的子空间来表示其类内多样性

评分¶

新颖性: ⭐⭐⭐⭐ 子空间分类器和选择性梯度投影在VCIL中是新颖的组合
实验充分度: ⭐⭐⭐⭐ 三个数据集，多种增量设置，消融充分
写作质量: ⭐⭐⭐⭐ 方法动机和设计清晰，逻辑链完整
价值: ⭐⭐⭐⭐ 对视频增量学习领域有实际价值，无需数据回放是重要优势