跳转至

Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation (BriMPR)

会议: AAAI 2026
arXiv: 2511.22862
代码: https://github.com/Luchicken/BriMPR
领域: 多模态VLM
关键词: 多模态测试时自适应, 跨模态对齐, Prompt Tuning, 对比学习, 分布校准

一句话总结

提出 BriMPR 框架,通过"分而治之"策略将多模态测试时自适应(MMTTA)分解为多个单模态特征对齐子问题,先用 prompt tuning 校准各模态全局特征分布实现初始跨模态语义对齐,再通过跨模态掩码嵌入重组和实例级对比学习精细化对齐。

背景与动机

  • 测试时自适应(TTA) 在推理阶段利用无标签测试数据在线适应模型,弥合源域和目标域的分布差距。但现有 TTA 方法主要面向单模态任务。
  • 多模态场景的挑战:不同模态可能遭受不同程度的分布偏移,导致 单模态浅层特征偏移跨模态高层语义错位耦合效应
  • 现有方法的不足:
  • EATA 等单模态 TTA 方法通过最小化熵来减少预测不确定性,但无法有效弥合各模态的域间隙。
  • READ 通过更新融合模块的自注意力层动态分配模态权重,但缺乏对浅层单模态特征的纠正。
  • 两类方法都导致融合后的多模态特征可辨别性严重下降(t-SNE 可视化证实)。

核心问题

如何在测试阶段有效解耦并解决多模态数据中 单模态特征偏移跨模态语义错位 的耦合效应,使各模态特征重新对齐?

方法详解

整体框架

BriMPR 由两个渐进增强的模块组成: 1. PMGFA (Prompt-driven Modality-specific Global Feature Alignment):初始跨模态对齐 2. IIAE (Inter-modal Interaction Enhancement for Alignment Refinement):包含 CMER + IICL 的对齐精细化

源模型被分解为:两个模态特定编码器(Φ_a 音频、Φ_v 视觉)、联合模块 Ψ、分类器 h。仅更新各模态编码器中插入的 prompt,其余参数冻结。

关键设计

1. PMGFA — Prompt 驱动的模态特定全局特征对齐

核心思想:由于各模态在源域特征空间已经对齐良好,将 MMTTA 分解为多个单模态对齐子问题。只要每个模态的目标特征能映射回对应的源特征空间,就间接实现了跨模态语义对齐。

关键创新 — 对角协方差替代全协方差: - 传统方法通过匹配一阶矩和二阶矩(协方差矩阵 Σ)对齐分布,但高维数据中协方差矩阵的估计误差为 O(d²/n)。 - 论文证明(Theorem 1):仅保留协方差矩阵对角元素(方差向量),估计误差降低到 O(d/n),降低了 d 倍。 - 用 prompt tuning 的通用函数逼近能力,将目标特征空间隐式映射回源特征空间。

具体做法:在每个模态编码器的每一层插入可学习 prompt,最小化各层源/目标特征分布的均值和标准差差异:

\[\mathcal{L}_\text{PMGFA} = \sum_{u \in \{a,v\}} \frac{1}{N} \sum_{i=1}^{N} (\|\hat{\mu}_i^{t,u} - \hat{\mu}_i^{s,u}\|_2 + \|\hat{\sigma}_i^{t,u} - \hat{\sigma}_i^{s,u}\|_2)\]

源域统计量预先离线计算(仅需 32 个无标签源样本),测试阶段不再需要源数据。

2. CMER — 跨模态掩码嵌入重组

  • 随机掩码一个模态 50% 的 patch,编码后与另一模态的完整嵌入重组,输入联合模块,模拟单模态损坏的增强表示。
  • 用完整多模态数据的预测作为伪标签指导增强输入的学习。
  • 自适应温度缩放 AdaTp = 1 + τ₀/(1 + exp(D₀ - Disc_J)):分布差异大时温度高以缓解过度自信,差异小时趋近于 1。
  • 自适应权重 λ_u = 1 - Disc_u/(Disc_a + Disc_v):为分布偏移较小的模态的掩码增强分配更高权重。

直觉:故意丢弃高质量模态信息,强迫损坏模态独立推导正确结果。

3. IICL — 跨模态实例级对比学习

  • 同一实例的不同模态表示为正对,不同实例为负对。
  • 标准 InfoNCE 对比损失,温度超参 τ。
  • 在初始分布对齐后进一步细化实例级别的跨模态对齐。

损失函数 / 训练策略

\[\mathcal{L}_\text{BriMPR} = \mathcal{L}_\text{PMGFA} + \mathcal{L}_\text{CMER} + \mathcal{L}_\text{IICL}\]
  • 优化器:Adam,学习率 1e-4,batch size 64
  • 每层 prompt 数量默认 10,随机初始化
  • 掩码比例 0.5
  • AdaTp 超参:τ₀=0.2, D₀=5
  • 对比学习温度 τ:单模态偏移 0.07,多模态偏移 0.25
  • 3 个随机种子,RTX-3090

实验关键数据

数据集

  • Kinetics50-C / VGGSound-C:音视频双模态,基于 CAV-MAE,15 种视频损坏 + 6 种音频损坏,5 个严重程度
  • CMU-MOSI / CH-SIMS:文本+视频+音频三模态,真实域偏移

主要结果 — 单模态偏移(severity 5)

设置 Source ABPEM (AAAI'25) SuMi (ICLR'25) BriMPR
K50-C 视频损坏 60.5 64.1 63.9 65.9
VGGSound-C 视频损坏 56.2 52.4 57.3 57.7
K50-C 音频损坏 69.4 71.4 71.9 72.0
VGGSound-C 音频损坏 25.0 29.5 33.2 36.5

当主导模态被损坏时提升最显著:K50-C 视频损坏 60.5→65.9 (+5.4);VGGSound-C 音频损坏 25.0→36.5 (+11.5)。

主要结果 — 多模态偏移(severity 5)

设置 Source FOA (ICML'24) ABPEM (AAAI'25) BriMPR
K50-C 双模态损坏 31.8 39.9 39.4 40.9
VGGSound-C 双模态损坏 9.5 13.9 15.2 20.7

VGGSound-C 双模态损坏场景下,BriMPR 大幅领先(20.7 vs 15.2),提升 5.5 个点。

真实域偏移

设置 Source READ SuMi BriMPR
MOSI→SIMS (ACC) 46.0 32.4 44.4 58.2
SIMS→MOSI (ACC) 45.6 44.5 45.0 57.6

只有 BriMPR 在 MOSI→SIMS 上超过随机猜测 (>50%),其他方法甚至不如 Source。

消融实验要点

  1. PMGFA 的对角简化有效:对角形式(BriMPR)在所有任务上均优于 KL散度(-1~3% 下降)和完整矩匹配(-0.5~2% 下降),且非平方范数形式比平方范数更好。
  2. CMER 权重设计合理:交换 λ_u 权重后性能显著下降(如 K50-C 音频损坏 72.0→70.0;VGGSound-C 音频损坏 36.5→32.1 下降 4.4 点),验证了应给低偏移模态掩码更高权重的设计。
  3. 渐进模块叠加有效:(A)PMGFA → (B)+IICL → (C)+CMER 逐步提升,但 IICL 贡献较小(+0.1~0.3),CMER 在 VGGSound-C 音频损坏上贡献较大(+1.2)。
  4. Prompt 优于 LayerNorm:同样使用 PMGFA 损失,优化 prompt 一致优于优化 LN 参数,且参数量更少。
  5. 效率:BriMPR 推理时间 186.2s(VGGSound-C),可学习参数 0.169M,少于大多数基线(0.218M)。

亮点

  1. 问题定义清晰:将 MMTTA 的困难归因于单模态浅层偏移与跨模态语义错位的耦合效应,提出分而治之策略,motivation 强。
  2. 理论支撑扎实:Theorem 1 证明对角协方差估计误差比全协方差低 d 倍,为方法简化提供理论依据。
  3. 设计巧妙:CMER 的自适应权重和温度缩放根据分布差异动态调整,避免了需要额外超参的人工调优。
  4. 实验充分:涵盖单模态/多模态/混合严重度/连续/有限数据/真实域偏移等多种设置,消融全面。
  5. 参数高效:仅优化 0.169M 的 prompt 参数,冻结整体模型。

局限性 / 可改进方向

  1. 高斯分布假设过强:将每层特征分布建模为多元高斯分布,对复杂多峰分布可能失效。实际测试数据分布未必近似高斯。
  2. 依赖源域统计量:虽然只需 32 个无标签源样本,但仍需要在测试前获取源域数据来预计算统计量,限制了纯 source-free 场景。
  3. 仅在音视频/文本+音视频模态上验证:未涉及图像-点云、RGB-深度等视觉-几何多模态场景,泛化性存疑。
  4. 多模态偏移场景绝对精度仍低:VGGSound-C 双模态损坏仅 20.7%,Kinetics50-C 双模态损坏仅 40.9%,距离实用有较大差距。
  5. IICL 的贡献边际化:消融显示 IICL 仅贡献 +0.1~0.3 的提升,设计价值有限,且引入了对比学习的额外计算。
  6. 伪标签的噪声问题:虽然用自适应温度缓解了过度自信,但在初始阶段伪标签质量差时可能引入错误累积,文中未充分讨论。
  7. 连续自适应需要额外域检测:BriMPR-continual 需基于 Z-score 检测域偏移并重置 prompt,增加了工程复杂性。

与相关工作的对比

方法 策略 优化目标 优缺点
Tent/EATA/SAR 更新 BN/LN 参数 熵最小化 单模态 TTA,未考虑跨模态交互
READ 更新融合模块自注意力 置信感知损失 首个 MMTTA 方法,但未纠正浅层特征
ABPEM 对齐交叉注意力与自注意力 熵主分量 减少梯度噪声,但 VGGSound-C 视频损坏场景大幅退化(52.4 vs Source 56.2)
SuMi 四分位距平滑 + 模态互信息 选择性熵最小化 多模态偏移场景表现与 Source 持平
FOA CMA 进化策略学 prompt 无梯度优化 参数多(1.772M),部分场景退化
BriMPR 分而治之 + prompt + 掩码重组 + 对比学习 分布对齐 + 伪标签 CE + InfoNCE 最优且参数最少(0.169M),各场景稳定

启发与关联

  1. Prompt 作为分布校准器:prompt tuning 不仅能做下游任务适配,还可以作为特征分布的隐式映射工具。这一视角可迁移到其他域自适应场景。
  2. 掩码增强用于跨模态信息迫移:CMER 通过故意掩码高质量模态来强迫弱模态学习,类似知识蒸馏中让学生在信息受限条件下学习的思路。
  3. 对角矩估计的理论简化:在 TTA 等数据有限场景中,简化统计量估计以降低误差是一个通用技巧,可用于其他需要在线估计分布的方法。
  4. 分布差异的副产品用于域检测:Disc_u 既用于损失计算又用于域偏移检测和权重分配,一物多用的设计很高效。

评分 ⭐⭐⭐⭐ (4/5)

优点:问题定义清晰、理论与实验扎实、方法设计直觉合理、参数高效、各场景稳健。真实域偏移实验(MOSI→SIMS 高出 Source 12 个点)特别有说服力。

扣分点:IICL 模块贡献边际化,高斯假设的局限性未讨论,多模态偏移场景绝对精度仍低,应用场景局限于音视频分类。总体是 MMTTA 方向的扎实工作,推进了该领域从"给高质量模态加权"到"主动校准各模态分布"的研究范式转变。