跳转至

Test-Time Adaptation via Cache Personalization for Facial Expression Recognition in Videos

日期: 2026-03-22
arXiv: 2603.21309
代码: 即将公开
领域: 多模态/VLM
关键词: test-time adaptation, facial expression recognition, CLIP, cache-based, personalization

一句话总结

提出 TTA-CaP,一种无梯度的缓存式测试时自适应方法——结合离线个性化源域原型和动态目标域正/负缓存,通过三重门控机制可靠更新缓存,在视频表情识别上超越需要梯度更新的昂贵 prompt-tuning 方法。

研究背景与动机

  1. 领域现状: CLIP 等 VLM 在表情识别(FER)上表现不错,但不同个体的表情模式差异大(inter-subject shift),零样本直接推理效果有限。

  2. 现有痛点: (a) 基于梯度的 TTA 方法(如 prompt tuning)计算成本高,难以实时部署;(b) 纯目标域缓存方法会累积噪声伪标签——错误预测被当作"经验"反馈;(c) 缺乏源域锚点导致在分布偏移下伪标签质量快速退化。

  3. 核心 idea: 用源域个性化原型作为"锚"稳定目标域缓存更新——离线从源域聚类提取每个类别的代表性特征,测试时作为可靠参考防止缓存漂移。

方法详解

整体框架

CLIP 冻结做特征提取 → 离线 DBSCAN 聚类构建个性化源域缓存(选最近的 m=3 个源主体)→ 在线维护正/负目标域缓存 → 三重门控控制缓存更新 → Embedding 级融合: \(z_{refined} = z_{orig} + z_{source} + z_{positive} - z_{negative}\)

关键设计

  1. 个性化源域缓存:

    • 对每个源域主体的每个表情类别做 DBSCAN 聚类,选取离聚类中心最近的样本作为代表
    • 对每个目标主体,用 Fréchet 距离选最近的 m=3 个源主体的缓存做 pool
    • 提供可靠的类别先验,作为目标域适应的稳定锚点
  2. 正/负双缓存设计:

    • 正缓存: 存高置信伪标签样本(熵 < \(\tau_h^+\)),提供正向引导
    • 负缓存: 存中等不确定样本(\(\tau_h^+ \leq\)\(< \tau_h^-\)),提供"不应该是什么"的信号
    • 每个类别固定容量,溢出时移除最低置信的条目
  3. 三重门控机制:

    • 时序稳定性: 对 W=3 帧做多数投票,确保预测在短时窗内一致
    • 熵阈值: 区分高置信/中等不确定/高不确定样本
    • 原型一致性: 与源域原型的偏差不超过阈值 \(\tau_\Delta = 0.05\)
    • 三道门全部通过才允许更新缓存——大幅减少噪声伪标签污染
  4. Embedding 级融合:

    • 在特征空间做加减法: \(z_{refined} = z_{orig} + z_{source} + z_{positive} - z_{negative}\)
    • 保持 CLIP 余弦相似度几何结构
    • 视频级预测通过帧 logit 时序平均

实验关键数据

主实验

方法 BioVid WAR StressID WAR BAH WAR
T3AL 76.1% 75.9% 67.9%
Prompt Tuning ~78% ~77% ~68%
TTA-CaP 81.0% 81.5% 69.2%

消融实验

配置 BioVid WAR 说明
Full TTA-CaP 81.0% 完整模型
w/o 源域缓存 显著下降 锚点缺失致缓存漂移
w/o 三重门控 下降 噪声伪标签污染
Logit 级融合 下降 帧间时序一致性差

关键发现

  • 无梯度方法比梯度 prompt tuning 快 10-50×,且效果更好
  • 源域个性化缓存是性能的关键贡献——去掉后显著下降
  • 正/负缓存分离比单缓存更有效

亮点与洞察

  • 源域锚定 + 动态缓存的组合有普适性:任何 TTA 场景都可以用源域原型稳定目标域自适应
  • 三重门控设计务实: 时序、熵、原型一致性从三个维度过滤噪声
  • 无梯度 TTA 超越梯度方法: 说明在 VLM 上 smart caching 比 fine-tuning 更高效

局限性 / 可改进方向

  • CLIP 特定设计,对其他 VLM backbone 的适用性未验证
  • 阈值参数需要按数据集调节
  • 仅在 FER 领域验证,其他视频理解任务未测试

评分

  • 新颖性: ⭐⭐⭐ 思路是成熟技术的巧妙组合
  • 实验充分度: ⭐⭐⭐⭐ 多数据集 + 详细消融
  • 价值: ⭐⭐⭐⭐ 无梯度 TTA 在部署上有实际优势