跳转至

STSP: Spatial-Temporal Subspace Projection for Video Class-Incremental Learning

会议: ECCV 2024
论文链接: ECVA 代码: 无
领域: 视频理解 / 增量学习
关键词: 视频类增量学习, 子空间投影, 正交约束, 梯度投影, 灾难性遗忘

一句话总结

提出空间-时间子空间投影(STSP)方法解决视频类增量学习中的灾难性遗忘问题,通过时间子空间分类器(TSC)用正交子空间基表示每个类别,并通过空间梯度投影(SGP)将梯度约束在旧任务特征的零空间中,在HMDB51、UCF101和SSv2上达到SOTA。

研究背景与动机

领域现状:视频类增量学习(Video Class-Incremental Learning, VCIL)要求模型在持续学习新视频类别的同时不遗忘旧类别。这是一个实际应用中的高频需求——监控系统需要不断识别新的异常行为,机器人需要持续学习新动作。目前的增量学习方法主要针对图像设计,直接迁移到视频领域效果欠佳。

现有痛点:传统VCIL方法通常保留旧任务的部分帧或特征作为"样本回放",存在两个问题:(1) 这种做法忽略了新旧类别之间的语义联系,简单回放容易导致类别混淆;(2) 保存旧数据可能导致隐私泄露。基于正则化的方法虽然不需要保存数据,但对视频中复杂的时空动态建模不足,难以有效区分时序模式相似的动作。

核心矛盾:视频数据同时包含空间外观信息和时间演化信息,增量学习需要在保护旧知识和学习新知识之间取得平衡,而视频的时空双重性使得这个权衡比图像增量学习困难得多。现有方法要么只关注空间特征的保护,忽略了时间维度;要么依赖昂贵的数据回放。

本文目标 (1) 如何在不保存旧数据的前提下有效防止灾难性遗忘;(2) 如何利用视频中的时空动态特性来增强增量学习的判别能力。

切入角度:作者提出从子空间投影的角度切入——用正交子空间基来表示不同类别的特征分布,这样不同类别之间天然具有区分性;同时利用旧任务特征的零空间来约束新任务的梯度方向,从根本上避免对旧知识的干扰。

核心 idea:将每个视频类别表示为特征空间中的一个正交子空间,通过时间维度的子空间分类和空间维度的梯度投影,同时实现类别区分和知识保护。

方法详解

整体框架

STSP的输入是视频帧序列,经过共享的特征提取器(如ResNet/ViT)提取空间特征后,通过时间建模模块捕获时序动态。分类端使用TSC,根据特征在各类别子空间上的投影大小来判断类别。训练时,SGP监控梯度更新方向,确保新知识的学习不会破坏旧知识。整体pipeline可分为:(1) 特征提取;(2) 基于TSC的子空间分类;(3) 基于SGP的梯度约束训练。

关键设计

  1. 时间子空间分类器(Temporal-based Subspace Classifier, TSC):

    • 功能:用正交子空间基来表示每个视频类别,替代传统的全连接分类头
    • 核心思路:传统分类器使用一个权重向量代表每个类别,而TSC为每个类别分配一组正交基向量,构成一个子空间。给定视频的时空特征 \(f\),TSC计算其在每个类别子空间上的投影分量大小:\(s_c = \|P_c f\|^2\),其中 \(P_c = B_c B_c^T\) 是类别 \(c\) 的子空间投影矩阵,\(B_c\) 是该类别的正交基。预测类别为投影大小最大的那个子空间。关键在于,TSC在提取子空间基时会考虑时间维度的动态变化——不同帧的特征在子空间中的位置变化反映了动作的时序演化,这为分类提供了时间线索
    • 设计动机:与全连接层相比,子空间表示有两个优势:一是可以捕获类内多样性(一个子空间比一个向量能覆盖更多变化);二是子空间之间的正交约束天然提供了类间区分性。这种表示方式特别适合增量学习——新类别只需分配新的正交子空间,不会与旧类别冲突
  2. 类间与类内正交约束:

    • 功能:确保不同类别的子空间互不重叠,同一类别的基向量互相正交
    • 核心思路:类间约束要求不同类别的子空间基满足 \(B_i^T B_j = 0\)\(i \neq j\)),即不同类别的子空间正交。这通过在损失函数中添加正交惩罚项实现:\(L_{inter} = \sum_{i \neq j} \|B_i^T B_j\|_F^2\)。类内约束确保每个类别的基向量本身是标准正交的:\(B_c^T B_c = I\)。两层约束共同保证了特征空间被"干净地"划分给各个类别
    • 设计动机:在增量学习中,如果不施加正交约束,新类别的子空间可能入侵旧类别的特征空间,导致分类混乱。正交约束从几何上保证了各类别"各占一块"的格局,即使引入新类别也不会破坏旧类别的判决边界
  3. 空间梯度投影(Spatial-based Gradient Projection, SGP):

    • 功能:在训练新任务时,将梯度投影到旧任务空间特征的零空间方向,防止遗忘
    • 核心思路:SGP首先收集旧任务数据的空间特征,计算其特征矩阵的主要成分(通过SVD分解得到旧任务特征的主子空间)。在学习新任务时,对网络每层的梯度 \(g\) 进行投影:\(g' = g - P_{old} g\),其中 \(P_{old}\) 是旧任务特征子空间的投影矩阵。投影后的梯度 \(g'\) 位于旧任务特征的零空间中,意味着参数更新不会改变旧任务已学到的空间特征表示。SGP特别关注空间特征而非时间特征,因为空间外观信息是类别区分的基础
    • 设计动机:传统梯度投影方法(如GPM)直接在所有特征上做投影,计算开销大且可能过度约束网络。SGP只保护空间特征的核心方向,给时间维度留下更多学习空间。这是因为空间外观特征通常是类别判别最关键的信息(如"踢球"的关键是"球"和"脚"的外观),而时间模式可以更灵活地适应新类别

损失函数 / 训练策略

总损失包含三部分:(1) 子空间投影分类损失 \(L_{cls}\),基于投影大小计算交叉熵;(2) 类间正交损失 \(L_{inter}\),惩罚不同类别子空间的重叠;(3) 类内正交损失 \(L_{intra}\),保持基向量的标准正交性。训练时首先在基础任务上学习初始类别的子空间,后续增量阶段通过SGP约束梯度方向学习新类别。

实验关键数据

主实验

数据集 指标 STSP 之前SOTA 提升
UCF101 (5 tasks) Last Acc 72.8 69.2 +3.6
UCF101 (10 tasks) Last Acc 67.3 63.8 +3.5
HMDB51 (5 tasks) Last Acc 51.4 47.9 +3.5
SSv2 (5 tasks) Last Acc 38.6 35.2 +3.4
UCF101 (5 tasks) Avg Acc 80.1 77.5 +2.6

消融实验

配置 UCF101 Last Acc 说明
Full STSP 72.8 完整模型
w/o TSC (用FC) 68.1 改用全连接分类器
w/o 正交约束 69.5 去掉类间/类内正交约束
w/o SGP 70.2 不做梯度投影
w/o 时间建模 70.9 TSC不考虑时间动态
Replay + FC 70.4 传统回放方法

关键发现

  • TSC贡献最大,替换为全连接分类器后准确率下降4.7个点,说明子空间表示对增量学习至关重要
  • 正交约束和SGP分别贡献3.3/2.6个点的提升,二者有互补作用
  • 在更长的任务序列(10 tasks)上,STSP的优势更加明显,说明子空间正交约束在类别数增多时维护了更好的类别分离度
  • 在SSv2这个时间敏感的数据集上,加入时间建模带来的提升最大,验证了TSC中时间子空间的价值

亮点与洞察

  • 子空间表示替代全连接层是一个优雅的设计:正交子空间天然解决了增量学习中新旧类别冲突的问题,不需要复杂的知识蒸馏或数据回放。这种思路可以迁移到其他增量学习场景
  • 空间和时间的解耦保护策略很巧妙:SGP只保护空间特征(因为空间外观是基础),给时间维度留活动空间。这种"选择性保护"比全面保护更高效
  • 无需保存旧数据的设计:通过正交子空间和梯度投影的组合,完全避免了数据回放带来的存储和隐私问题

局限与展望

  • 随着类别数量增加,特征空间的维度是有限的,能分配的正交子空间数有上限。当类别数非常多时,正交约束可能无法完全满足
  • SGP需要额外存储旧任务的特征统计信息(虽然比存储原始数据小很多),在极端长序列增量学习中存储开销仍然会增长
  • 论文主要在动作识别上验证,对于更细粒度的视频理解任务(如时序动作检测、视频问答的增量学习)可能需要适配
  • 子空间基的维度是固定的超参数,不同类别可能需要不同维度的子空间来表示其类内多样性

相关工作与启发

  • vs LUCIR: LUCIR使用余弦分类器+知识蒸馏,需要保存旧样本做回放。STSP通过正交子空间完全避免数据存储,且类别表示更丰富
  • vs GPM: GPM在图像增量学习中提出梯度投影,但处理所有层的所有特征。STSP的SGP只保护空间特征的关键方向,更高效且留给时间学习更多空间
  • vs vCLIMB: vCLIMB是最早系统研究VCIL的工作,但主要迁移图像增量学习方法,忽略了视频的时空特性。STSP的TSC直接建模时空动态

评分

  • 新颖性: ⭐⭐⭐⭐ 子空间分类器和选择性梯度投影在VCIL中是新颖的组合
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集,多种增量设置,消融充分
  • 写作质量: ⭐⭐⭐⭐ 方法动机和设计清晰,逻辑链完整
  • 价值: ⭐⭐⭐⭐ 对视频增量学习领域有实际价值,无需数据回放是重要优势

相关论文