Retrieving to Recover: Towards Incomplete Audio-Visual Question Answering via Semantic-consistent Purification¶
会议: ACL 2026
arXiv: 2604.10695
代码: 无
领域: 音频语音 / 多模态学习
关键词: 音频视觉问答, 模态缺失, 检索恢复, 语义净化, 混合专家
一句话总结¶
本文提出R2ScP框架,将AVQA中缺失模态处理范式从传统的生成式补全转变为基于检索的恢复,通过跨模态检索和上下文感知自适应净化机制消除检索噪声,在模态不完整场景下显著提升了问答性能。
研究背景与动机¶
领域现状:音频视觉问答(AVQA)要求模型跨视觉、音频和文本进行推理以理解动态场景。当前方法通常假设所有模态数据完整可用,在设备故障、传感器遮挡或数据传输中断等实际场景下性能严重退化。
现有痛点:主流的模态缺失处理方法依赖生成式补全——用已有模态合成缺失模态的伪特征。然而,生成模型倾向于产生"共性知识"(common knowledge),即缺乏细粒度模态特有信息的泛化表示。例如,从音乐会的视觉场景推断缺失音频时,生成模型可能合成一个通用的"音乐"嵌入,却无法捕捉画面中可见的特定乐器音色,从而引入语义幻觉和噪声。
核心矛盾:生成式方法本质上是从已有模态"想象"缺失信息,其输出受限于跨模态共享知识,无法恢复模态特有的独特信息。这种信息损失直接影响需要精确推理的问答任务。
本文目标:将缺失模态处理范式从生成转向检索——从语义数据库中召回真实的、高质量的特征片段,而非合成不完美的幻觉。
切入角度:作者观察到真实世界的特征库中包含大量可复用的模态特有知识,关键在于如何精准检索和去噪。
核心 idea:用跨模态检索替代生成补全,并通过上下文感知净化机制过滤检索噪声,保留模态特有的细粒度知识。
方法详解¶
整体框架¶
R2ScP的输入是可能缺失某个模态的音频/视觉/文本数据,输出是问答答案。框架包含三个核心模块:(1) 跨模态检索模块(CMR)通过统一语义空间从外部记忆库检索缺失模态的候选特征;(2) 上下文感知自适应净化机制(CAP)过滤检索噪声并注入高质量语义;(3) 两阶段专家训练策略通过混合专家架构显式建模不同信息源的可靠性。
关键设计¶
-
跨模态检索模块(CMR):
- 功能:从外部记忆库中检索缺失模态的候选特征
- 核心思路:构建外部记忆库 \(\mathcal{B} = \{(\mathbf{k}_i, \mathbf{v}_i)\}_{i=1}^{M}\),其中键值对由预训练多模态模型(如ImageBind)生成统一语义嵌入。给定缺失模态(如音频缺失),使用可用模态(如视觉)作为查询,通过余弦相似度 \(S_i = \frac{\mathbf{Q}_{avl} \cdot \mathbf{k}_i}{\|\mathbf{Q}_{avl}\| \|\mathbf{k}_i\| + \epsilon}\) 检索top-n候选集
- 设计动机:利用统一语义空间实现跨模态对齐,使视觉查询能够找到语义相关的音频特征,保留真实世界数据中的模态特有知识
-
上下文感知自适应净化机制(CAP):
- 功能:消除检索候选中的语义噪声,注入高质量特征
- 核心思路:分三阶段执行——(a) 一致性噪声识别:计算检索特征与可用模态全局上下文锚的不一致分数 \(\delta_i = 1 - \text{sim}(H_{miss} \cdot \mathbf{W}_{proj}, \mathbf{g}_{avl})\),选出top-k不协调token形成噪声索引集 \(\Omega_{noise}\);(b) 文本引导语义获取:通过多头交叉注意力和自注意力,用文本问题引导从共性知识中识别对问答最相关的高质量语义索引 \(\Omega_{salient}\);(c) 选择性特征注入:用高质量语义替换噪声位置 \(H_{miss}^{pur} = (\mathbf{1} - \mathcal{M}_{noise}) \odot H_{miss} + \mathcal{M}_{noise} \odot \text{Gather}(H_{guided}, \Omega_{salient})\)
- 设计动机:原始检索不可避免引入无关信息(如为小提琴演奏检索到大提琴或掌声特征),CAP通过可用模态的上下文约束和问题引导双重过滤确保语义一致性
-
两阶段混合专家训练:
- 功能:显式建模不同信息源(原始vs恢复)的可靠性
- 核心思路:第一阶段独立预训练三个模态专家(视觉专家 \(\mathcal{E}_v\)、音频专家 \(\mathcal{E}_a\)、文本专家 \(\mathcal{E}_t\)),使其不依赖跨模态捷径提取判别性表示;第二阶段冻结专家,训练门控网络(Router)动态分配重要性权重 \(\alpha_{m'} = \frac{\exp(g_{m'})}{\sum_{m} \exp(g_m)}\),最终联合表示为加权和 \(\mathbf{Z}_{joint} = \alpha_a H_a + \alpha_t H_t + \alpha_v H_v\)
- 设计动机:解耦训练避免专家间相互依赖,门控网络根据输入上下文动态调整模态权重,恢复的模态可以获得较低权重以反映不确定性
损失函数 / 训练策略¶
除标准交叉熵损失 \(\mathcal{L}_{task}\) 外,引入语义排序损失 \(\mathcal{L}_{rank}\) 强制正样本恢复的特征优于负样本但劣于真实特征:\(\mathcal{L}_{total} = \mathcal{L}_{task} + \lambda(\mathcal{L}_{rank}^+ + \mathcal{L}_{rank}^-)\)。这确保检索净化后的特征处于有效语义流形中。
实验关键数据¶
主实验¶
| 数据集 | 模态设置 | 本文R2ScP | 之前SOTA(IMOL) | 提升 |
|---|---|---|---|---|
| Music-AVQA | 缺音频 | 69.37 | 67.11 | +2.26 |
| Music-AVQA | 缺视觉 | 72.06 | 69.21 | +2.85 |
| Music-AVQA | 完整 | 73.19 | 71.86 | +1.33 |
| AVQA | 缺音频 | 63.25 | 61.32 | +1.93 |
| AVQA | 缺视觉 | 75.12 | 72.38 | +2.74 |
| AVQA | 完整 | 90.64 | 90.28 | +0.36 |
消融实验¶
| 配置 | Music-AVQA | AVQA | 说明 |
|---|---|---|---|
| 无CMR无CAP | 62.43 | 57.43 | 基线(缺音频) |
| +CMR only | 67.21 | 61.78 | 检索带来+4.78/+4.35 |
| +CAP only | 64.11 | 59.64 | 净化本身也有效 |
| +CMR+CAP(完整) | 69.37 | 63.25 | 两者结合效果最佳 |
关键发现¶
- 检索恢复比生成补全更有效,尤其在缺失视觉模态时优势更明显(+2.85 vs IMOL)
- CMR和CAP各自独立有效,但组合使用效果最优,说明检索和净化是互补的
- 在完整模态设置下,R2ScP仍优于对比方法,表明检索恢复框架不仅处理缺失场景也有助于模态融合
- 两阶段训练策略通过解耦专家预训练和门控混合避免了跨模态特征坍缩
亮点与洞察¶
- 范式创新:从"生成补全"到"检索恢复"的思路转变简洁有力,避免了生成式方法的幻觉问题
- CAP的三阶段净化设计(噪声识别→语义获取→选择性注入)逻辑严密,充分利用了可用模态和问题的引导信号
- 语义排序损失巧妙地建立了"真实 > 正检索 > 负检索"的质量梯度
- 在完整模态场景下也能提升性能,说明检索机制可作为通用的模态增强手段
局限与展望¶
- 外部记忆库的构建和存储开销较大,对于大规模部署可能是瓶颈
- 当前假设缺失模态完全不可用,未处理部分缺失或噪声退化场景
- 检索质量高度依赖于统一语义空间(ImageBind)的对齐质量
- 仅在AVQA任务上验证,泛化到其他多模态推理任务(如视觉问答、对话)有待探索
相关工作与启发¶
- vs Missing-AVQA(ECCV 2024): Missing-AVQA使用关系感知生成器合成缺失特征,但生成的是共性知识;R2ScP通过检索保留模态特有信息
- vs IMOL(ACL 2025): IMOL虽然也使用检索,但主要用于对比对齐而非直接特征恢复;R2ScP直接用检索特征替代缺失信息
- vs MoMKE(MM 2024): MoMKE通过混合专家保存模态特有知识,但不处理特征恢复;R2ScP结合检索和MoE架构实现更完整的解决方案
评分¶
- 新颖性: ⭐⭐⭐⭐ 从生成到检索的范式转变是明确的创新,CAP净化机制设计精巧
- 实验充分度: ⭐⭐⭐⭐ 两个数据集、多种模态缺失设置、详细消融实验
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述详细
- 价值: ⭐⭐⭐⭐ 为多模态缺失处理提供了新的研究方向
相关论文¶
- [ACL 2026] Music Audio-Visual Question Answering Requires Specialized Multimodal Designs
- [CVPR 2026] Semantic Audio-Visual Navigation in Continuous Environments
- [ICLR 2026] Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering
- [ACL 2026] Jamendo-MT-QA: A Benchmark for Multi-Track Comparative Music Question Answering
- [CVPR 2026] ViDscribe: Multimodal AI for Customizing Audio Description and Question Answering in Online Videos