Test-Time Adaptation via Cache Personalization for Facial Expression Recognition in Videos¶
日期: 2026-03-22
arXiv: 2603.21309
代码: 即将公开
领域: 多模态/VLM
关键词: test-time adaptation, facial expression recognition, CLIP, cache-based, personalization
一句话总结¶
提出 TTA-CaP,一种无梯度的缓存式测试时自适应方法——结合离线个性化源域原型和动态目标域正/负缓存,通过三重门控机制可靠更新缓存,在视频表情识别上超越需要梯度更新的昂贵 prompt-tuning 方法。
研究背景与动机¶
-
领域现状: CLIP 等 VLM 在表情识别(FER)上表现不错,但不同个体的表情模式差异大(inter-subject shift),零样本直接推理效果有限。
-
现有痛点: (a) 基于梯度的 TTA 方法(如 prompt tuning)计算成本高,难以实时部署;(b) 纯目标域缓存方法会累积噪声伪标签——错误预测被当作"经验"反馈;(c) 缺乏源域锚点导致在分布偏移下伪标签质量快速退化。
-
核心 idea: 用源域个性化原型作为"锚"稳定目标域缓存更新——离线从源域聚类提取每个类别的代表性特征,测试时作为可靠参考防止缓存漂移。
方法详解¶
整体框架¶
CLIP 冻结做特征提取 → 离线 DBSCAN 聚类构建个性化源域缓存(选最近的 m=3 个源主体)→ 在线维护正/负目标域缓存 → 三重门控控制缓存更新 → Embedding 级融合: \(z_{refined} = z_{orig} + z_{source} + z_{positive} - z_{negative}\)。
关键设计¶
-
个性化源域缓存:
- 对每个源域主体的每个表情类别做 DBSCAN 聚类,选取离聚类中心最近的样本作为代表
- 对每个目标主体,用 Fréchet 距离选最近的 m=3 个源主体的缓存做 pool
- 提供可靠的类别先验,作为目标域适应的稳定锚点
-
正/负双缓存设计:
- 正缓存: 存高置信伪标签样本(熵 < \(\tau_h^+\)),提供正向引导
- 负缓存: 存中等不确定样本(\(\tau_h^+ \leq\) 熵 \(< \tau_h^-\)),提供"不应该是什么"的信号
- 每个类别固定容量,溢出时移除最低置信的条目
-
三重门控机制:
- 时序稳定性: 对 W=3 帧做多数投票,确保预测在短时窗内一致
- 熵阈值: 区分高置信/中等不确定/高不确定样本
- 原型一致性: 与源域原型的偏差不超过阈值 \(\tau_\Delta = 0.05\)
- 三道门全部通过才允许更新缓存——大幅减少噪声伪标签污染
-
Embedding 级融合:
- 在特征空间做加减法: \(z_{refined} = z_{orig} + z_{source} + z_{positive} - z_{negative}\)
- 保持 CLIP 余弦相似度几何结构
- 视频级预测通过帧 logit 时序平均
实验关键数据¶
主实验¶
| 方法 | BioVid WAR | StressID WAR | BAH WAR |
|---|---|---|---|
| T3AL | 76.1% | 75.9% | 67.9% |
| Prompt Tuning | ~78% | ~77% | ~68% |
| TTA-CaP | 81.0% | 81.5% | 69.2% |
消融实验¶
| 配置 | BioVid WAR | 说明 |
|---|---|---|
| Full TTA-CaP | 81.0% | 完整模型 |
| w/o 源域缓存 | 显著下降 | 锚点缺失致缓存漂移 |
| w/o 三重门控 | 下降 | 噪声伪标签污染 |
| Logit 级融合 | 下降 | 帧间时序一致性差 |
关键发现¶
- 无梯度方法比梯度 prompt tuning 快 10-50×,且效果更好
- 源域个性化缓存是性能的关键贡献——去掉后显著下降
- 正/负缓存分离比单缓存更有效
亮点与洞察¶
- 源域锚定 + 动态缓存的组合有普适性:任何 TTA 场景都可以用源域原型稳定目标域自适应
- 三重门控设计务实: 时序、熵、原型一致性从三个维度过滤噪声
- 无梯度 TTA 超越梯度方法: 说明在 VLM 上 smart caching 比 fine-tuning 更高效
局限性 / 可改进方向¶
- CLIP 特定设计,对其他 VLM backbone 的适用性未验证
- 阈值参数需要按数据集调节
- 仅在 FER 领域验证,其他视频理解任务未测试
评分¶
- 新颖性: ⭐⭐⭐ 思路是成熟技术的巧妙组合
- 实验充分度: ⭐⭐⭐⭐ 多数据集 + 详细消融
- 价值: ⭐⭐⭐⭐ 无梯度 TTA 在部署上有实际优势