Learning Trimodal Relation for Audio-Visual Question Answering with Missing Modality¶

会议: ECCV 2024
arXiv: 2407.16171
代码: https://github.com/VisualAIKHU/Missing-AVQA (有)
领域: 多模态VLM
关键词: 音视觉问答, 缺失模态, 扩散模型, 三模态关系, 伪特征生成

一句话总结¶

提出面向音视觉问答（AVQA）的缺失模态处理框架，通过Relation-aware Missing Modal生成器利用三模态关系召回缺失信息，再通过Audio-Visual Relation-aware扩散模型增强特征表示，即使缺少一个模态也能准确回答问题。

研究背景与动机¶

领域现状：AVQA任务需要整合视觉、音频和文本三种模态来回答问题。MUSIC-AVQA、PSTP-Net等方法在完整输入下取得了不错效果。
现有痛点：(1) 现有AVQA方法完全依赖输入模态的完整性，设备故障或数据传输错误导致某一模态缺失时性能急剧下降；(2) 现有的缺失模态处理方法主要处理一对一的模态对，忽略了不同模态间的相互依赖关系；(3) AVQA需要根据问题上下文灵活生成缺失模态的伪特征，现有方法做不到。
核心矛盾：AVQA需要视听推理跨多种上下文回答问题，但缺失模态的恢复不能仅靠单一模态——需要理解三模态关联并根据问题语境灵活应对。
本文要解决什么？ (1) 利用现有两种模态的关系来召回第三种缺失模态；(2) 增强伪特征与真实特征的质量；(3) 使现有AVQA网络在缺失模态下仍能准确作答。
切入角度：模拟人类认知心理学中的音视觉整合能力——看到钢琴画面可以回忆其声音，听到钢琴声可以想象其画面。
核心idea一句话：用三模态关系驱动的slot-based生成器召回缺失模态伪特征，再用音视觉关系感知的扩散模型增强特征质量。

方法详解¶

整体框架¶

框架包含三个组件：(1) RMM生成器——利用两种可用模态的关系生成缺失模态的伪特征；(2) AVR扩散模型——将伪特征与真实特征联合增强；(3) AVQA骨干网络——使用增强后的特征回答问题。训练时同时考虑音频缺失和视觉缺失两种场景。

关键设计¶

Relation-aware Missing Modal (RMM) 生成器：
- 做什么：利用两种可用模态关联，为缺失模态生成伪特征
- 核心思路：每种模态有 \(L\) 个可学习slot向量 \(\textbf{G}^v, \textbf{G}^a, \textbf{G}^t\)。以音频缺失为例，计算视觉addressing vector \(a^v_i\) 和文本addressing vector \(a^t_i\)，通过元素乘+softmax得到联合addressing vector \(a^{vt}_i = \text{softmax}(a^v_i \circ a^t_i)\)，最后加权聚合音频slot：\(f^{a_p}_i = \sum_j a^{vt}_{ij} \cdot \textbf{G}^a_j\)
- 设计动机：slot-based设计允许灵活的关联学习；三模态addressing捕捉视觉-文本的联合关系来定位最相关的音频slot，比单模态关联更精准
RMMR损失（Relation-aware Missing Modal Recalling Loss）：
- 做什么：引导伪特征逼近真实特征
- 核心思路：\(\mathcal{L}_{rmmr} = \mathcal{L}_a + \mathcal{L}_v = \frac{1}{N}\sum \|f^a - f^{a_p}\|^2_2 + \frac{1}{N}\sum \|f^v - f^{v_p}\|^2_2\)
- 设计动机：确保RMM生成器在推理时输出有语义的伪特征
Audio-Visual Relation-aware (AVR) 扩散模型：
- 做什么：通过扩散过程联合增强音频和视觉特征的表示
- 核心思路：将音频和视觉特征拼接为 \(f^{av}\)，进行DDPM前向（加噪）和反向（去噪）过程。训练时用真实特征学习增强能力，推理时将伪特征+真实特征送入获得增强representation
- 设计动机：扩散过程中两种模态特征自然交互，利用互补信息相互增强；且反向过程可以"修复"伪特征中的噪声
AVE损失（Audio-Visual Enhancing Loss）：
- 做什么：训练扩散模型的标准去噪目标
- 核心思路：\(\mathcal{L}_{ave} = \mathbb{E}_{\epsilon \sim \mathcal{N}(0,I)}[\|\hat{\epsilon}_\theta(f^{av}_t, t) - \epsilon\|^2_2]\)

损失函数 / 训练策略¶

总损失 \(\mathcal{L}_{Total} = \mathcal{L}_{avqa} + \lambda_1 \mathcal{L}_{rmmr} + \lambda_2 \mathcal{L}_{ave}\)，其中 \(\lambda_1 = \lambda_2 = 1\)。\(\mathcal{L}_{avqa}\) 包含三个交叉熵项（完整输入、音频缺失、视觉缺失）。扩散模型默认10个时间步。训练在单卡RTX 4090上完成。

实验关键数据¶

主实验¶

方法	场景	Audio Q. Avg	Visual Q. Avg	AV Q. Avg	All Avg
AVST	视觉缺失	65.56	56.45	58.38	59.14
AVST+Ours	视觉缺失	74.18	68.04	65.99	67.98
AVST	音频缺失	38.76	31.27	38.44	36.60
AVST+Ours	音频缺失	74.30	73.49	66.44	69.71

消融实验¶

配置	All Avg (音频缺失)	说明
仅AVQA backbone	36.60	无缺失处理
+ RMM生成器	63.12	伪特征召回有效
+ RMM + AVR扩散	69.71	扩散增强进一步提升
RMM w/o trimodal	58.45	单模态关联不如三模态

关键发现¶

音频缺失比视觉缺失对AVQA的影响更大（36.60 vs 59.14），本方法在音频缺失场景下提升最为显著（+33.11%）
方法可以无缝集成到多种现有AVQA网络（AVSD、Pano-AVQA、AVST、PSTP-Net），具有良好的通用性
三模态关联驱动的伪特征生成显著优于一对一的伪特征方法（如ActionMAE、ShaSpec）
AVR扩散模型不仅增强伪特征，也增强了真实特征的表示
在AVQA和MUSIC-AVQA两个数据集上均表现最佳

亮点与洞察¶

三模态关联的slot-based设计非常优雅：通过视觉和文本的addressing vector的元素乘来定位音频slot，自然地捕捉了"问题引导的跨模态关联"，比简单concat或attention更有效。
扩散模型用于特征增强而非生成：将扩散模型从图像生成迁移到特征空间的增强是一个有趣的应用。拼接两种模态特征后做扩散-去噪，让互补信息自然交互。
实验设计周到：同时考虑音频缺失和视觉缺失，且验证了在4种不同AVQA架构上的通用性，增强了结果可信度。

局限性 / 可改进方向¶

假设同一时间只有一种模态缺失，未处理音视觉同时缺失的极端情况
扩散模型的时间步数（10步）增加了推理延迟
RMM生成器的slot数量L=75是超参数，对不同数据集可能需要调整
未与prompt-based或adapter-based方法对比

补充说明¶

在AVQA数据集上的评估覆盖了9种问题类型（Used/When/Before等）
三种模态生成器共享权重，训练时同时覆盖音频和视觉缺失场景
扩散模型时间步T=10，在推理效率和特征增强效果间取得平衡
方法也适用于其他多模态缺失场景（如自动驾驶的LiDAR/Camera缺失）

评分¶

新颖性: ⭐⭐⭐⭐ 三模态关联驱动的缺失模态处理+扩散增强是新颖组合
实验充分度: ⭐⭐⭐⭐ 两个数据集、四种骨干、完整消融、与多种方法对比
写作质量: ⭐⭐⭐⭐ 条理清晰，认知心理学类比易于理解
价值: ⭐⭐⭐⭐ 对多模态系统的鲁棒性有重要意义