Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering¶

会议: ICLR 2026
arXiv: 2601.19821
代码: 发表后公开
领域: 视频理解 / 音频-视觉问答
关键词: Audio-Visual QA, 频域交互, Query引导, 空间-时序感知, 多模态推理

一句话总结¶

提出 QSTar 框架，通过在整个处理流程中嵌入问题引导（Query Guidance），并引入空间-时序-频域三维度交互模块（特别是利用频谱特征区分音色），显著提升了音乐场景下的音频-视觉问答（Music AVQA）性能。

研究背景与动机¶

AVQA 任务的挑战：音频-视觉问答需要联合理解听觉、视觉和文本信息，比纯视觉 QA 更具挑战性，因为声音线索在很多场景下比视觉线索更关键
音频模态被低估：现有 AVQA 方法（PSTP、APL 等）主要聚焦视觉信息处理，音频仅作为视频分析的"补充"，其独特频域特征未被充分利用
问题信息参与不足：文本问题通常仅在推理的最后阶段通过简单乘法融入，导致音频-视觉表示缺乏语义针对性
频域分析的必要性：管弦乐器（如长笛、单簧管）的视觉线索可能非常微妙（演奏动作极小），但其频谱特征（泛音分布、谐波结构）截然不同，频域分析对区分音色至关重要
复调场景的挑战：多乐器同时演奏时，仅靠时域或空间特征无法有效区分不同乐器的贡献

方法详解¶

整体框架¶

QSTar 由三个核心模块组成：(1) Query-Guided Multimodal Correlation（QGMC）在早期阶段用问题信息引导音频和视觉特征精炼；(2) Spatial-Temporal-Frequency Interaction（STFI）在空间、时序和频域三个维度增强特征交互；(3) Query Context Reasoning（QCR）利用 prompt 机制注入任务相关约束进行最终推理。

关键设计¶

1. Query-Guided Multimodal Correlation (QGMC)

做什么：在流程早期就用问题语义引导音频和视觉特征的精炼，而非等到最后才融入
核心思路：分三步——Self-enhancing（各模态自注意力增强内部关系）→ Capturing（词级文本特征作为 Query，通过交叉注意力从视觉/音频中捕获共享语义 \(F_{qv}, F_{qa}\)）→ Propagating（聚合的 query-guided 语义上下文 \(F_{qg}\) 通过交叉注意力反向传播回视觉和音频流）
设计动机：问题通常只关注一两个乐器，早期引入问题信息能使模型聚焦于语义相关的音频-视觉特征，避免冗余表示

2. Spatial-Temporal Interaction (STI)

做什么：利用 patch 级视觉特征和音频特征进行空间-时序交互
核心思路：空间交互——patch 级视觉特征通过交叉注意力与 query-guided 音频特征对齐，定位发声区域；时序交互——视觉和音频 query-guided 特征通过点积 + softmax 计算时序注意力，捕获全局时序依赖
设计动机：视频既有空间维度（哪里在发声）又有时序维度（何时在发声），需要分别建模并融合

3. Temporal-Frequency Interaction (TFI)

做什么：利用 Audio Spectrogram Transformer (AST) 提取频率感知特征，通过频率注意力机制增强音频表示
核心思路：(1) AST 提取时频表示 \(F_{ast} \in \mathbb{R}^{T \times F \times D}\)；(2) 将 AST 特征在时间维度聚合得到频率表示；(3) 结合问题嵌入计算频率注意力权重 \(a_f\)，突出与问题相关的频带；(4) 加权后的 AST 特征与 query-guided 音频特征通过卷积融合
设计动机：相似视觉外观的乐器（如长笛和单簧管）在频域上有截然不同的泛音和谐波分布，频域分析能提供视觉和时域特征无法捕获的辨别线索

4. Query Context Reasoning (QCR)

做什么：通过 prompt 机制注入任务相关的语言上下文用于最终推理
核心思路：编码乐器相关属性关键词（类型、表演时长、位置、时序、响度）为 prompt 嵌入 \(F_{prompt}\)，与句子级问题嵌入拼接后通过自注意力产生 query context \(F_{qc}\)，再用交叉注意力引导视觉和音频特征的最终精炼
设计动机：不同问题类型关注不同方面，prompt 提供聚焦的任务约束，帮助模型精确推理

损失函数 / 训练策略¶

标准交叉熵分类损失
AdamW 优化器，初始学习率 1e-4，每 10 epoch 衰减 0.1 倍
Batch size 64，训练 30 epochs
视觉特征用 CLIP-ViT-L/14，音频用 VGGish + AST，所有特征投射到 512 维

实验关键数据¶

主实验¶

MUSIC-AVQA 测试集准确率（%）：

方法	Audio QA	Visual QA	Audio-Visual QA	平均
PSTP	70.91	77.26	72.57	73.52
APL	78.09	79.69	70.96	74.53
TSPM	76.91	83.61	73.51	76.79
QA-TIGER	78.58	85.14	73.74	77.62
QSTar	80.63	84.17	75.98	78.98

QSTar 在总体准确率上超越前 SOTA QA-TIGER 1.36%，在 Audio QA 上超 2.05%，Audio-Visual QA 超 2.24%。

消融实验¶

消融设置	Audio QA	Visual QA	A-V QA	平均
w/o all	73.87	79.15	70.33	73.29
w/o QGMC	79.08	83.44	72.92	76.80
w/o QCR	79.33	83.24	75.43	78.19
w/o STI	-	-1.55%	-	-1.18%
w/o TFI	-2.42%	-	-1.59%	显著下降
完整 QSTar	80.63	84.17	75.98	78.98

关键发现¶

频域交互（TFI）对音频类问题至关重要：去除 TFI 后 Audio QA 下降 2.42%，Audio-Visual QA 下降 1.59%，证明频谱特征对区分乐器音色不可替代
Query 引导贯穿全流程的重要性：去除早期引导（\(M_b^-\)）导致 1.05% 下降，去除最终 prompt（\(M_f^-\)）导致 0.73% 下降
比较和时序问题类型提升最显著：超过 5% 的提升，体现了空间-时序-频域三维交互的优势
无需目标检测器：QSTar 未使用预训练目标检测器，在 Visual QA 上仅落后 QA-TIGER 0.97%，说明模型本身的视觉理解足够强大

亮点与洞察¶

频域分析填补了 AVQA 的空白：之前的方法几乎完全忽视了音频信号的频域特性，本文首次系统性地利用频谱特征（通过 AST）解决音乐场景问答
Query 引导的端到端设计比后期融合显著更优：语义信息在早期就引导特征提取，减少了冗余表示
频率注意力机制巧妙地利用问题文本过滤频谱，使模型能聚焦于与问题相关的频带
长笛演奏的案例分析非常直观：视觉上几乎看不到动作变化，但频谱中高频段的减弱清晰标志着停止演奏

局限性 / 可改进方向¶

依赖预训练特征提取器：CLIP、VGGish、AST 均为冻结预训练模型，端到端微调可能进一步提升
仅在音乐场景验证：MUSIC-AVQA 限于音乐场景，对更一般的 AVQA 场景（对话、自然声音）的泛化有待验证
Visual QA 表现略弱：未使用目标检测器导致空间定位精度不如 QA-TIGER，可考虑引入轻量级定位模块
频率注意力的可解释性：虽然提供了频谱可视化，但频率注意力权重的语义含义需要更深入分析
问答模板限制：MUSIC-AVQA 使用预定义模板生成问答对，对开放式问题的处理能力未知

评分¶

新颖性: ⭐⭐⭐⭐ 频域交互在 AVQA 中是新颖贡献，但整体框架结构（cross-attention 堆叠）相对常规
实验充分度: ⭐⭐⭐⭐ 消融研究覆盖各模块和 query guidance 各阶段，但仅在 MUSIC-AVQA 上全面评估
写作质量: ⭐⭐⭐⭐ 动机阐述清晰（长笛案例很好），方法描述系统但公式较多
价值: ⭐⭐⭐⭐ 在音乐 AVQA 上达到新 SOTA，频域分析的引入对多模态理解有启发价值