Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation (BriMPR)¶

会议: AAAI 2026
arXiv: 2511.22862
代码: https://github.com/Luchicken/BriMPR
领域: 多模态VLM
关键词: 多模态测试时自适应, 跨模态对齐, Prompt Tuning, 对比学习, 分布校准

一句话总结¶

提出 BriMPR 框架，通过"分而治之"策略将多模态测试时自适应(MMTTA)分解为多个单模态特征对齐子问题，先用 prompt tuning 校准各模态全局特征分布实现初始跨模态语义对齐，再通过跨模态掩码嵌入重组和实例级对比学习精细化对齐。

背景与动机¶

测试时自适应(TTA) 在推理阶段利用无标签测试数据在线适应模型，弥合源域和目标域的分布差距。但现有 TTA 方法主要面向单模态任务。
多模态场景的挑战：不同模态可能遭受不同程度的分布偏移，导致 单模态浅层特征偏移 和 跨模态高层语义错位 的 耦合效应。
现有方法的不足：
EATA 等单模态 TTA 方法通过最小化熵来减少预测不确定性，但无法有效弥合各模态的域间隙。
READ 通过更新融合模块的自注意力层动态分配模态权重，但缺乏对浅层单模态特征的纠正。
两类方法都导致融合后的多模态特征可辨别性严重下降（t-SNE 可视化证实）。

核心问题¶

如何在测试阶段有效解耦并解决多模态数据中 单模态特征偏移 与 跨模态语义错位 的耦合效应，使各模态特征重新对齐？

方法详解¶

整体框架¶

BriMPR 由两个渐进增强的模块组成： 1. PMGFA (Prompt-driven Modality-specific Global Feature Alignment)：初始跨模态对齐 2. IIAE (Inter-modal Interaction Enhancement for Alignment Refinement)：包含 CMER + IICL 的对齐精细化

源模型被分解为：两个模态特定编码器（Φ_a 音频、Φ_v 视觉）、联合模块 Ψ、分类器 h。仅更新各模态编码器中插入的 prompt，其余参数冻结。

关键设计¶

1. PMGFA — Prompt 驱动的模态特定全局特征对齐¶

核心思想：由于各模态在源域特征空间已经对齐良好，将 MMTTA 分解为多个单模态对齐子问题。只要每个模态的目标特征能映射回对应的源特征空间，就间接实现了跨模态语义对齐。

关键创新 — 对角协方差替代全协方差： - 传统方法通过匹配一阶矩和二阶矩（协方差矩阵 Σ）对齐分布，但高维数据中协方差矩阵的估计误差为 O(d²/n)。 - 论文证明（Theorem 1）：仅保留协方差矩阵对角元素（方差向量），估计误差降低到 O(d/n)，降低了 d 倍。 - 用 prompt tuning 的通用函数逼近能力，将目标特征空间隐式映射回源特征空间。

具体做法：在每个模态编码器的每一层插入可学习 prompt，最小化各层源/目标特征分布的均值和标准差差异：

\[\mathcal{L}_\text{PMGFA} = \sum_{u \in \{a,v\}} \frac{1}{N} \sum_{i=1}^{N} (\|\hat{\mu}_i^{t,u} - \hat{\mu}_i^{s,u}\|_2 + \|\hat{\sigma}_i^{t,u} - \hat{\sigma}_i^{s,u}\|_2)\]

源域统计量预先离线计算（仅需 32 个无标签源样本），测试阶段不再需要源数据。

2. CMER — 跨模态掩码嵌入重组¶

随机掩码一个模态 50% 的 patch，编码后与另一模态的完整嵌入重组，输入联合模块，模拟单模态损坏的增强表示。
用完整多模态数据的预测作为伪标签指导增强输入的学习。
自适应温度缩放 AdaTp = 1 + τ₀/(1 + exp(D₀ - Disc_J))：分布差异大时温度高以缓解过度自信，差异小时趋近于 1。
自适应权重 λ_u = 1 - Disc_u/(Disc_a + Disc_v)：为分布偏移较小的模态的掩码增强分配更高权重。

直觉：故意丢弃高质量模态信息，强迫损坏模态独立推导正确结果。

3. IICL — 跨模态实例级对比学习¶

同一实例的不同模态表示为正对，不同实例为负对。
标准 InfoNCE 对比损失，温度超参 τ。
在初始分布对齐后进一步细化实例级别的跨模态对齐。

损失函数 / 训练策略¶

\[\mathcal{L}_\text{BriMPR} = \mathcal{L}_\text{PMGFA} + \mathcal{L}_\text{CMER} + \mathcal{L}_\text{IICL}\]

优化器：Adam，学习率 1e-4，batch size 64
每层 prompt 数量默认 10，随机初始化
掩码比例 0.5
AdaTp 超参：τ₀=0.2, D₀=5
对比学习温度 τ：单模态偏移 0.07，多模态偏移 0.25
3 个随机种子，RTX-3090

实验关键数据¶

数据集¶

Kinetics50-C / VGGSound-C：音视频双模态，基于 CAV-MAE，15 种视频损坏 + 6 种音频损坏，5 个严重程度
CMU-MOSI / CH-SIMS：文本+视频+音频三模态，真实域偏移

主要结果 — 单模态偏移（severity 5）¶

设置	Source	ABPEM (AAAI'25)	SuMi (ICLR'25)	BriMPR
K50-C 视频损坏	60.5	64.1	63.9	65.9
VGGSound-C 视频损坏	56.2	52.4	57.3	57.7
K50-C 音频损坏	69.4	71.4	71.9	72.0
VGGSound-C 音频损坏	25.0	29.5	33.2	36.5

当主导模态被损坏时提升最显著：K50-C 视频损坏 60.5→65.9 (+5.4)；VGGSound-C 音频损坏 25.0→36.5 (+11.5)。

主要结果 — 多模态偏移（severity 5）¶

设置	Source	FOA (ICML'24)	ABPEM (AAAI'25)	BriMPR
K50-C 双模态损坏	31.8	39.9	39.4	40.9
VGGSound-C 双模态损坏	9.5	13.9	15.2	20.7

VGGSound-C 双模态损坏场景下，BriMPR 大幅领先（20.7 vs 15.2），提升 5.5 个点。

真实域偏移¶

设置	Source	READ	SuMi	BriMPR
MOSI→SIMS (ACC)	46.0	32.4	44.4	58.2
SIMS→MOSI (ACC)	45.6	44.5	45.0	57.6

只有 BriMPR 在 MOSI→SIMS 上超过随机猜测 (>50%)，其他方法甚至不如 Source。

消融实验要点¶

PMGFA 的对角简化有效：对角形式（BriMPR）在所有任务上均优于 KL散度（-1~3% 下降）和完整矩匹配（-0.5~2% 下降），且非平方范数形式比平方范数更好。
CMER 权重设计合理：交换 λ_u 权重后性能显著下降（如 K50-C 音频损坏 72.0→70.0；VGGSound-C 音频损坏 36.5→32.1 下降 4.4 点），验证了应给低偏移模态掩码更高权重的设计。
渐进模块叠加有效：(A)PMGFA → (B)+IICL → (C)+CMER 逐步提升，但 IICL 贡献较小（+0.1~0.3），CMER 在 VGGSound-C 音频损坏上贡献较大（+1.2）。
Prompt 优于 LayerNorm：同样使用 PMGFA 损失，优化 prompt 一致优于优化 LN 参数，且参数量更少。
效率：BriMPR 推理时间 186.2s（VGGSound-C），可学习参数 0.169M，少于大多数基线（0.218M）。

亮点¶

问题定义清晰：将 MMTTA 的困难归因于单模态浅层偏移与跨模态语义错位的耦合效应，提出分而治之策略，motivation 强。
理论支撑扎实：Theorem 1 证明对角协方差估计误差比全协方差低 d 倍，为方法简化提供理论依据。
设计巧妙：CMER 的自适应权重和温度缩放根据分布差异动态调整，避免了需要额外超参的人工调优。
实验充分：涵盖单模态/多模态/混合严重度/连续/有限数据/真实域偏移等多种设置，消融全面。
参数高效：仅优化 0.169M 的 prompt 参数，冻结整体模型。

局限性 / 可改进方向¶

高斯分布假设过强：将每层特征分布建模为多元高斯分布，对复杂多峰分布可能失效。实际测试数据分布未必近似高斯。
依赖源域统计量：虽然只需 32 个无标签源样本，但仍需要在测试前获取源域数据来预计算统计量，限制了纯 source-free 场景。
仅在音视频/文本+音视频模态上验证：未涉及图像-点云、RGB-深度等视觉-几何多模态场景，泛化性存疑。
多模态偏移场景绝对精度仍低：VGGSound-C 双模态损坏仅 20.7%，Kinetics50-C 双模态损坏仅 40.9%，距离实用有较大差距。
IICL 的贡献边际化：消融显示 IICL 仅贡献 +0.1~0.3 的提升，设计价值有限，且引入了对比学习的额外计算。
伪标签的噪声问题：虽然用自适应温度缓解了过度自信，但在初始阶段伪标签质量差时可能引入错误累积，文中未充分讨论。
连续自适应需要额外域检测：BriMPR-continual 需基于 Z-score 检测域偏移并重置 prompt，增加了工程复杂性。

与相关工作的对比¶

方法	策略	优化目标	优缺点
Tent/EATA/SAR	更新 BN/LN 参数	熵最小化	单模态 TTA，未考虑跨模态交互
READ	更新融合模块自注意力	置信感知损失	首个 MMTTA 方法，但未纠正浅层特征
ABPEM	对齐交叉注意力与自注意力	熵主分量	减少梯度噪声，但 VGGSound-C 视频损坏场景大幅退化(52.4 vs Source 56.2)
SuMi	四分位距平滑 + 模态互信息	选择性熵最小化	多模态偏移场景表现与 Source 持平
FOA	CMA 进化策略学 prompt	无梯度优化	参数多(1.772M)，部分场景退化
BriMPR	分而治之 + prompt + 掩码重组 + 对比学习	分布对齐 + 伪标签 CE + InfoNCE	最优且参数最少(0.169M)，各场景稳定

启发与关联¶

Prompt 作为分布校准器：prompt tuning 不仅能做下游任务适配，还可以作为特征分布的隐式映射工具。这一视角可迁移到其他域自适应场景。
掩码增强用于跨模态信息迫移：CMER 通过故意掩码高质量模态来强迫弱模态学习，类似知识蒸馏中让学生在信息受限条件下学习的思路。
对角矩估计的理论简化：在 TTA 等数据有限场景中，简化统计量估计以降低误差是一个通用技巧，可用于其他需要在线估计分布的方法。
分布差异的副产品用于域检测：Disc_u 既用于损失计算又用于域偏移检测和权重分配，一物多用的设计很高效。

评分 ⭐⭐⭐⭐ (4/5)¶

优点：问题定义清晰、理论与实验扎实、方法设计直觉合理、参数高效、各场景稳健。真实域偏移实验（MOSI→SIMS 高出 Source 12 个点）特别有说服力。

扣分点：IICL 模块贡献边际化，高斯假设的局限性未讨论，多模态偏移场景绝对精度仍低，应用场景局限于音视频分类。总体是 MMTTA 方向的扎实工作，推进了该领域从"给高质量模态加权"到"主动校准各模态分布"的研究范式转变。