Test-Time Adaptation via Cache Personalization for Facial Expression Recognition in Videos¶

日期: 2026-03-22
arXiv: 2603.21309
代码: 即将公开
领域: 多模态/VLM
关键词: test-time adaptation, facial expression recognition, CLIP, cache-based, personalization

一句话总结¶

提出 TTA-CaP，一种无梯度的缓存式测试时自适应方法——结合离线个性化源域原型和动态目标域正/负缓存，通过三重门控机制可靠更新缓存，在视频表情识别上超越需要梯度更新的昂贵 prompt-tuning 方法。

研究背景与动机¶

领域现状: CLIP 等 VLM 在表情识别（FER）上表现不错，但不同个体的表情模式差异大（inter-subject shift），零样本直接推理效果有限。
现有痛点: (a) 基于梯度的 TTA 方法（如 prompt tuning）计算成本高，难以实时部署；(b) 纯目标域缓存方法会累积噪声伪标签——错误预测被当作"经验"反馈；(c) 缺乏源域锚点导致在分布偏移下伪标签质量快速退化。
核心 idea: 用源域个性化原型作为"锚"稳定目标域缓存更新——离线从源域聚类提取每个类别的代表性特征，测试时作为可靠参考防止缓存漂移。

方法详解¶

整体框架¶

CLIP 冻结做特征提取 → 离线 DBSCAN 聚类构建个性化源域缓存（选最近的 m=3 个源主体）→ 在线维护正/负目标域缓存 → 三重门控控制缓存更新 → Embedding 级融合: \(z_{refined} = z_{orig} + z_{source} + z_{positive} - z_{negative}\)。

关键设计¶

个性化源域缓存:
- 对每个源域主体的每个表情类别做 DBSCAN 聚类，选取离聚类中心最近的样本作为代表
- 对每个目标主体，用 Fréchet 距离选最近的 m=3 个源主体的缓存做 pool
- 提供可靠的类别先验，作为目标域适应的稳定锚点
正/负双缓存设计:
- 正缓存: 存高置信伪标签样本（熵 < \(\tau_h^+\)），提供正向引导
- 负缓存: 存中等不确定样本（\(\tau_h^+ \leq\) 熵 \(< \tau_h^-\)），提供"不应该是什么"的信号
- 每个类别固定容量，溢出时移除最低置信的条目
三重门控机制:
- 时序稳定性: 对 W=3 帧做多数投票，确保预测在短时窗内一致
- 熵阈值: 区分高置信/中等不确定/高不确定样本
- 原型一致性: 与源域原型的偏差不超过阈值 \(\tau_\Delta = 0.05\)
- 三道门全部通过才允许更新缓存——大幅减少噪声伪标签污染
Embedding 级融合:
- 在特征空间做加减法: \(z_{refined} = z_{orig} + z_{source} + z_{positive} - z_{negative}\)
- 保持 CLIP 余弦相似度几何结构
- 视频级预测通过帧 logit 时序平均

实验关键数据¶

主实验¶

方法	BioVid WAR	StressID WAR	BAH WAR
T3AL	76.1%	75.9%	67.9%
Prompt Tuning	~78%	~77%	~68%
TTA-CaP	81.0%	81.5%	69.2%

消融实验¶

配置	BioVid WAR	说明
Full TTA-CaP	81.0%	完整模型
w/o 源域缓存	显著下降	锚点缺失致缓存漂移
w/o 三重门控	下降	噪声伪标签污染
Logit 级融合	下降	帧间时序一致性差

关键发现¶

无梯度方法比梯度 prompt tuning 快 10-50×，且效果更好
源域个性化缓存是性能的关键贡献——去掉后显著下降
正/负缓存分离比单缓存更有效

亮点与洞察¶

源域锚定 + 动态缓存的组合有普适性：任何 TTA 场景都可以用源域原型稳定目标域自适应
三重门控设计务实: 时序、熵、原型一致性从三个维度过滤噪声
无梯度 TTA 超越梯度方法: 说明在 VLM 上 smart caching 比 fine-tuning 更高效

局限性 / 可改进方向¶

CLIP 特定设计，对其他 VLM backbone 的适用性未验证
阈值参数需要按数据集调节
仅在 FER 领域验证，其他视频理解任务未测试

评分¶

新颖性: ⭐⭐⭐ 思路是成熟技术的巧妙组合
实验充分度: ⭐⭐⭐⭐ 多数据集 + 详细消融
价值: ⭐⭐⭐⭐ 无梯度 TTA 在部署上有实际优势