Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation¶

会议: CVPR 2026
arXiv: 2603.00574
代码: GitHub
领域: 多模态VLM
关键词: 多模态测试时适应, 稳定性-可塑性解耦, 冗余度评分, 非对称适应, 灾难性遗忘

一句话总结¶

提出 DASP，通过冗余度评分诊断偏置模态，再用非对称适应策略解耦稳定性与可塑性，解决多模态测试时适应中的负迁移和灾难性遗忘问题。

研究背景与动机¶

多模态模型的分布偏移脆弱性：多模态模型（音频-视频）在非平稳环境中面临天气变化、传感器退化等分布偏移，静态预训练模型性能显著下降。
测试时适应（TTA）的兴起：TTA 通过在线更新参数实现对分布偏移的适配，无需访问源数据，但现有方法多针对单模态设计。
负迁移问题：模态无关的适应策略不加区分地适应所有模态，可能对已对齐的无偏置模态造成负迁移。
灾难性遗忘问题：持续参数更新导致源域知识被擦除，特别是在偏置模态上表现严重。
稳定性-可塑性困境：现有方法难以平衡——偏置模态需要可塑性以适配目标分布，无偏置模态需要稳定性以保留源域知识。
传统诊断指标不可靠：熵和置信度在多模态中不可靠——主导模态即使遭受偏移也可能保持低熵高置信度，无法进行跨模态比较。

方法详解¶

整体框架¶

DASP 采用"诊断-缓解"框架：(1) 通过冗余度评分诊断偏置模态；(2) 通过非对称适应策略分别处理偏置/无偏置模态。

关键设计¶

冗余度评分（Redundancy Score）诊断¶

在融合层的共享隐空间中计算各模态特征的维度间相关性。分布偏移导致特征流形退化，维度间产生虚假相关（所有维度对域特定噪声反应一致），冗余度显著升高。定义冗余度评分 \(R(\mathbf{Z})\)，比较各模态的相对冗余度：

\[\Delta^m = r^m - \min_{n \in \mathcal{M}} r^n\]

当 \(\Delta^m \geq \delta\) 时判定模态 \(m\) 为偏置模态，组成 \(\mathcal{G}\)。

非对称适应（Asymmetric Adaptation）¶

每个模态适配器 \(\Phi^m\) 分为稳定适配器 \(\phi_s^m\)（低秩，鼓励域无关泛化）和可塑适配器 \(\phi_p^m\)（高秩，捕捉域特定信息）：

偏置模态（\(m \in \mathcal{G}\)）：激活可塑适配器，冻结稳定适配器 → \(\tilde{z}^m = \phi_p^m(\phi_s^m(z^m))\)
无偏置模态（\(m \notin \mathcal{G}\)）：跳过可塑适配器，更新稳定适配器 + KL正则化 → \(\tilde{z}^m = \phi_s^m(z^m)\)

损失函数¶

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{div}} + \lambda_{\text{ent}} \mathcal{L}_{\text{ent}} + \lambda_{\text{kl}} \mathcal{L}_{\text{kl}}\]

包含多样性正则化（防止类别坍缩）、熵最小化（鼓励确定性预测）、KL 散度惩罚（约束无偏置模态的稳定适配器不偏离源模型）。

实验关键数据¶

主实验：Kinetics50-C 视频腐蚀（Episodic Adaptation）¶

方法	平均准确率↑
Source (无适应)	59.9
Tent	59.4
EATA	60.1
SAR	59.8
READ	62.5
TSA	63.8
DASP (Ours)	65.2

消融实验¶

组件	影响
冗余度评分 vs 熵/置信度	冗余度与准确率强相关，熵/置信度不可靠
非对称 vs 对称适应	非对称显著减少负迁移和遗忘
KL正则化	有效约束无偏置模态稳定性
低秩/高秩设计	匹配各模态角色需求

关键发现¶

冗余度评分在 Kinetics50-C 和 VGGSound-C 上均与准确率强相关
偏置模态的冗余度显著高于无偏置模态
DASP 同时缓解了负迁移（无偏置模态）和灾难性遗忘（偏置模态）
在音频腐蚀场景中表现尤为突出（VGGSound-C 上大幅领先基线）

亮点与洞察¶

冗余度评分是一个优雅的非参数诊断指标，无需源域统计即可在线使用
"诊断-缓解"框架逻辑清晰，先定位问题再针对性解决
稳定/可塑适配器的解耦设计直觉合理——域特定参数外部化，域无关参数内部化
低秩 vs 高秩的结构化设计与各自角色需求自然匹配

局限性¶

冗余度评分的阈值 \(\delta\) 需要预设，不同场景可能需要调整
仅在音频-视频双模态场景验证，更多模态（如文本+图像+音频）待扩展
偏置模态的切换是硬决策，无法处理两个模态同时偏移的情况
计算冗余度需要 batch 统计，不适用于 batch size=1 的场景

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐