Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation¶
会议: CVPR 2026
arXiv: 2603.00574
代码: GitHub
领域: 多模态VLM
关键词: 多模态测试时适应, 稳定性-可塑性解耦, 冗余度评分, 非对称适应, 灾难性遗忘
一句话总结¶
提出 DASP,通过冗余度评分诊断偏置模态,再用非对称适应策略解耦稳定性与可塑性,解决多模态测试时适应中的负迁移和灾难性遗忘问题。
研究背景与动机¶
- 多模态模型的分布偏移脆弱性:多模态模型(音频-视频)在非平稳环境中面临天气变化、传感器退化等分布偏移,静态预训练模型性能显著下降。
- 测试时适应(TTA)的兴起:TTA 通过在线更新参数实现对分布偏移的适配,无需访问源数据,但现有方法多针对单模态设计。
- 负迁移问题:模态无关的适应策略不加区分地适应所有模态,可能对已对齐的无偏置模态造成负迁移。
- 灾难性遗忘问题:持续参数更新导致源域知识被擦除,特别是在偏置模态上表现严重。
- 稳定性-可塑性困境:现有方法难以平衡——偏置模态需要可塑性以适配目标分布,无偏置模态需要稳定性以保留源域知识。
- 传统诊断指标不可靠:熵和置信度在多模态中不可靠——主导模态即使遭受偏移也可能保持低熵高置信度,无法进行跨模态比较。
方法详解¶
整体框架¶
DASP 采用"诊断-缓解"框架:(1) 通过冗余度评分诊断偏置模态;(2) 通过非对称适应策略分别处理偏置/无偏置模态。
关键设计¶
冗余度评分(Redundancy Score)诊断¶
在融合层的共享隐空间中计算各模态特征的维度间相关性。分布偏移导致特征流形退化,维度间产生虚假相关(所有维度对域特定噪声反应一致),冗余度显著升高。定义冗余度评分 \(R(\mathbf{Z})\),比较各模态的相对冗余度:
\[\Delta^m = r^m - \min_{n \in \mathcal{M}} r^n\]
当 \(\Delta^m \geq \delta\) 时判定模态 \(m\) 为偏置模态,组成 \(\mathcal{G}\)。
非对称适应(Asymmetric Adaptation)¶
每个模态适配器 \(\Phi^m\) 分为稳定适配器 \(\phi_s^m\)(低秩,鼓励域无关泛化)和可塑适配器 \(\phi_p^m\)(高秩,捕捉域特定信息):
- 偏置模态(\(m \in \mathcal{G}\)):激活可塑适配器,冻结稳定适配器 → \(\tilde{z}^m = \phi_p^m(\phi_s^m(z^m))\)
- 无偏置模态(\(m \notin \mathcal{G}\)):跳过可塑适配器,更新稳定适配器 + KL正则化 → \(\tilde{z}^m = \phi_s^m(z^m)\)
损失函数¶
\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{div}} + \lambda_{\text{ent}} \mathcal{L}_{\text{ent}} + \lambda_{\text{kl}} \mathcal{L}_{\text{kl}}\]
包含多样性正则化(防止类别坍缩)、熵最小化(鼓励确定性预测)、KL 散度惩罚(约束无偏置模态的稳定适配器不偏离源模型)。
实验关键数据¶
主实验:Kinetics50-C 视频腐蚀(Episodic Adaptation)¶
| 方法 | 平均准确率↑ |
|---|---|
| Source (无适应) | 59.9 |
| Tent | 59.4 |
| EATA | 60.1 |
| SAR | 59.8 |
| READ | 62.5 |
| TSA | 63.8 |
| DASP (Ours) | 65.2 |
消融实验¶
| 组件 | 影响 |
|---|---|
| 冗余度评分 vs 熵/置信度 | 冗余度与准确率强相关,熵/置信度不可靠 |
| 非对称 vs 对称适应 | 非对称显著减少负迁移和遗忘 |
| KL正则化 | 有效约束无偏置模态稳定性 |
| 低秩/高秩设计 | 匹配各模态角色需求 |
关键发现¶
- 冗余度评分在 Kinetics50-C 和 VGGSound-C 上均与准确率强相关
- 偏置模态的冗余度显著高于无偏置模态
- DASP 同时缓解了负迁移(无偏置模态)和灾难性遗忘(偏置模态)
- 在音频腐蚀场景中表现尤为突出(VGGSound-C 上大幅领先基线)
亮点与洞察¶
- 冗余度评分是一个优雅的非参数诊断指标,无需源域统计即可在线使用
- "诊断-缓解"框架逻辑清晰,先定位问题再针对性解决
- 稳定/可塑适配器的解耦设计直觉合理——域特定参数外部化,域无关参数内部化
- 低秩 vs 高秩的结构化设计与各自角色需求自然匹配
局限性¶
- 冗余度评分的阈值 \(\delta\) 需要预设,不同场景可能需要调整
- 仅在音频-视频双模态场景验证,更多模态(如文本+图像+音频)待扩展
- 偏置模态的切换是硬决策,无法处理两个模态同时偏移的情况
- 计算冗余度需要 batch 统计,不适用于 batch size=1 的场景
相关工作与启发¶
- 与 TSA 的选择性适应最相关,但 TSA 的软路由在无监督设置中不够稳定
- 与 MDAA 都关注灾难性遗忘,但 DASP 通过架构解耦而非解析方法
- 稳定性-可塑性困境的视角可推广到持续学习、联邦学习等场景
- 冗余度评分可作为通用的分布偏移检测工具
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐