跳转至

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

会议: ICLR 2026
arXiv: 2601.19821
代码: 发表后公开
领域: 视频理解 / 音频-视觉问答
关键词: Audio-Visual QA, 频域交互, Query引导, 空间-时序感知, 多模态推理

一句话总结

提出 QSTar 框架,通过在整个处理流程中嵌入问题引导(Query Guidance),并引入空间-时序-频域三维度交互模块(特别是利用频谱特征区分音色),显著提升了音乐场景下的音频-视觉问答(Music AVQA)性能。

研究背景与动机

  1. AVQA 任务的挑战:音频-视觉问答需要联合理解听觉、视觉和文本信息,比纯视觉 QA 更具挑战性,因为声音线索在很多场景下比视觉线索更关键
  2. 音频模态被低估:现有 AVQA 方法(PSTP、APL 等)主要聚焦视觉信息处理,音频仅作为视频分析的"补充",其独特频域特征未被充分利用
  3. 问题信息参与不足:文本问题通常仅在推理的最后阶段通过简单乘法融入,导致音频-视觉表示缺乏语义针对性
  4. 频域分析的必要性:管弦乐器(如长笛、单簧管)的视觉线索可能非常微妙(演奏动作极小),但其频谱特征(泛音分布、谐波结构)截然不同,频域分析对区分音色至关重要
  5. 复调场景的挑战:多乐器同时演奏时,仅靠时域或空间特征无法有效区分不同乐器的贡献

方法详解

整体框架

QSTar 由三个核心模块组成:(1) Query-Guided Multimodal Correlation(QGMC)在早期阶段用问题信息引导音频和视觉特征精炼;(2) Spatial-Temporal-Frequency Interaction(STFI)在空间、时序和频域三个维度增强特征交互;(3) Query Context Reasoning(QCR)利用 prompt 机制注入任务相关约束进行最终推理。

关键设计

1. Query-Guided Multimodal Correlation (QGMC)

  • 做什么:在流程早期就用问题语义引导音频和视觉特征的精炼,而非等到最后才融入
  • 核心思路:分三步——Self-enhancing(各模态自注意力增强内部关系)→ Capturing(词级文本特征作为 Query,通过交叉注意力从视觉/音频中捕获共享语义 \(F_{qv}, F_{qa}\))→ Propagating(聚合的 query-guided 语义上下文 \(F_{qg}\) 通过交叉注意力反向传播回视觉和音频流)
  • 设计动机:问题通常只关注一两个乐器,早期引入问题信息能使模型聚焦于语义相关的音频-视觉特征,避免冗余表示

2. Spatial-Temporal Interaction (STI)

  • 做什么:利用 patch 级视觉特征和音频特征进行空间-时序交互
  • 核心思路:空间交互——patch 级视觉特征通过交叉注意力与 query-guided 音频特征对齐,定位发声区域;时序交互——视觉和音频 query-guided 特征通过点积 + softmax 计算时序注意力,捕获全局时序依赖
  • 设计动机:视频既有空间维度(哪里在发声)又有时序维度(何时在发声),需要分别建模并融合

3. Temporal-Frequency Interaction (TFI)

  • 做什么:利用 Audio Spectrogram Transformer (AST) 提取频率感知特征,通过频率注意力机制增强音频表示
  • 核心思路:(1) AST 提取时频表示 \(F_{ast} \in \mathbb{R}^{T \times F \times D}\);(2) 将 AST 特征在时间维度聚合得到频率表示;(3) 结合问题嵌入计算频率注意力权重 \(a_f\),突出与问题相关的频带;(4) 加权后的 AST 特征与 query-guided 音频特征通过卷积融合
  • 设计动机:相似视觉外观的乐器(如长笛和单簧管)在频域上有截然不同的泛音和谐波分布,频域分析能提供视觉和时域特征无法捕获的辨别线索

4. Query Context Reasoning (QCR)

  • 做什么:通过 prompt 机制注入任务相关的语言上下文用于最终推理
  • 核心思路:编码乐器相关属性关键词(类型、表演时长、位置、时序、响度)为 prompt 嵌入 \(F_{prompt}\),与句子级问题嵌入拼接后通过自注意力产生 query context \(F_{qc}\),再用交叉注意力引导视觉和音频特征的最终精炼
  • 设计动机:不同问题类型关注不同方面,prompt 提供聚焦的任务约束,帮助模型精确推理

损失函数 / 训练策略

  • 标准交叉熵分类损失
  • AdamW 优化器,初始学习率 1e-4,每 10 epoch 衰减 0.1 倍
  • Batch size 64,训练 30 epochs
  • 视觉特征用 CLIP-ViT-L/14,音频用 VGGish + AST,所有特征投射到 512 维

实验关键数据

主实验

MUSIC-AVQA 测试集准确率(%):

方法 Audio QA Visual QA Audio-Visual QA 平均
PSTP 70.91 77.26 72.57 73.52
APL 78.09 79.69 70.96 74.53
TSPM 76.91 83.61 73.51 76.79
QA-TIGER 78.58 85.14 73.74 77.62
QSTar 80.63 84.17 75.98 78.98

QSTar 在总体准确率上超越前 SOTA QA-TIGER 1.36%,在 Audio QA 上超 2.05%,Audio-Visual QA 超 2.24%。

消融实验

消融设置 Audio QA Visual QA A-V QA 平均
w/o all 73.87 79.15 70.33 73.29
w/o QGMC 79.08 83.44 72.92 76.80
w/o QCR 79.33 83.24 75.43 78.19
w/o STI - -1.55% - -1.18%
w/o TFI -2.42% - -1.59% 显著下降
完整 QSTar 80.63 84.17 75.98 78.98

关键发现

  1. 频域交互(TFI)对音频类问题至关重要:去除 TFI 后 Audio QA 下降 2.42%,Audio-Visual QA 下降 1.59%,证明频谱特征对区分乐器音色不可替代
  2. Query 引导贯穿全流程的重要性:去除早期引导(\(M_b^-\))导致 1.05% 下降,去除最终 prompt(\(M_f^-\))导致 0.73% 下降
  3. 比较和时序问题类型提升最显著:超过 5% 的提升,体现了空间-时序-频域三维交互的优势
  4. 无需目标检测器:QSTar 未使用预训练目标检测器,在 Visual QA 上仅落后 QA-TIGER 0.97%,说明模型本身的视觉理解足够强大

亮点与洞察

  • 频域分析填补了 AVQA 的空白:之前的方法几乎完全忽视了音频信号的频域特性,本文首次系统性地利用频谱特征(通过 AST)解决音乐场景问答
  • Query 引导的端到端设计比后期融合显著更优:语义信息在早期就引导特征提取,减少了冗余表示
  • 频率注意力机制巧妙地利用问题文本过滤频谱,使模型能聚焦于与问题相关的频带
  • 长笛演奏的案例分析非常直观:视觉上几乎看不到动作变化,但频谱中高频段的减弱清晰标志着停止演奏

局限性 / 可改进方向

  1. 依赖预训练特征提取器:CLIP、VGGish、AST 均为冻结预训练模型,端到端微调可能进一步提升
  2. 仅在音乐场景验证:MUSIC-AVQA 限于音乐场景,对更一般的 AVQA 场景(对话、自然声音)的泛化有待验证
  3. Visual QA 表现略弱:未使用目标检测器导致空间定位精度不如 QA-TIGER,可考虑引入轻量级定位模块
  4. 频率注意力的可解释性:虽然提供了频谱可视化,但频率注意力权重的语义含义需要更深入分析
  5. 问答模板限制:MUSIC-AVQA 使用预定义模板生成问答对,对开放式问题的处理能力未知

相关工作与启发

  • TSPM:引入时序和空间感知模块但仍以视觉为主——QSTar 将音频提升为同等重要的模态
  • QA-TIGER:当前 SOTA 但依赖复杂的视觉处理——QSTar 通过频域分析以更简洁的视觉处理达到更好总体效果
  • Audio Spectrogram Transformer (AST):作为频率特征提取器被有效利用——启发在其他多模态任务中也利用音频的频域表示
  • 对视频理解的启发:query-guided 特征精炼思路可推广到视频问答、视频 grounding 等需要问题引导的任务

评分

  • 新颖性: ⭐⭐⭐⭐ 频域交互在 AVQA 中是新颖贡献,但整体框架结构(cross-attention 堆叠)相对常规
  • 实验充分度: ⭐⭐⭐⭐ 消融研究覆盖各模块和 query guidance 各阶段,但仅在 MUSIC-AVQA 上全面评估
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰(长笛案例很好),方法描述系统但公式较多
  • 价值: ⭐⭐⭐⭐ 在音乐 AVQA 上达到新 SOTA,频域分析的引入对多模态理解有启发价值