跳转至

Sparsify: Learning Sparsity for Effective and Efficient Music Performance Question Answering

会议: ACL 2025
arXiv: 2506.01319
代码: 无
领域: LLM效率
关键词: Music AVQA, sparse learning, multimodal QA, token merging, data efficiency

一句话总结

Sparsify 提出三层稀疏化策略(稀疏掩码+自适应稀疏合并+关键子集选择)用于音乐表演视听问答(Music AVQA),在 MUSIC-AVQA 和 v2.0 两个 benchmark 上达到 SOTA(81.75%/81.30%),训练时间减少 28.32%,25% 数据即保持 74% 的全量性能。

研究背景与动机

  1. 领域现状:Music AVQA 要求模型理解连续密集的音频-视觉流中的乐器演奏细节(手势、节奏、乐句),并回答关于声音来源、计数、时序等问题
  2. 现有痛点
  3. 现有方法(AVST、LAVisH、DG-SCT)依赖密集表示,难以从连续音频-视觉信号中有效隔离关键信息
  4. 特征提取和推理中缺乏有效的冗余减少机制
  5. 训练时无样本优先级策略,所有样本同等对待导致效率低下
  6. 核心矛盾:音乐表演数据的密集连续性导致大量冗余,但简单裁剪可能丢失细粒度的时序和语义信息
  7. 核心idea一句话:在表示、token、样本三个层面同时引入稀疏性,在提升效率的同时改善性能

方法详解

整体框架

Sparsify 基于 AMUSE 编码器,在端到端 pipeline 中集成三种稀疏化策略:(1) Sparse Masking 在前 3 个 epoch 随机掩码 50% 的视觉和音频 patch;(2) Adaptive Sparse Merging 在训练全程通过 IQR 筛选动态合并冗余 token;(3) Key-subset Selection 识别高价值训练样本减少数据量。

关键设计

  1. Sparse Masking(稀疏掩码):
  2. 做什么:在预训练前 3 个 epoch 对视觉(图像 patch)和音频(mel 频谱图 patch)随机掩码 50%
  3. 核心思路:统一的掩码设计保持跨模态的一致稀疏性
  4. 设计动机:前期强制模型学习从不完整输入中提取关键信息,类似 MAE 的思想,减少早期训练计算量

  5. Adaptive Sparse Merging(自适应稀疏合并):

  6. 做什么:基于 cross-modal attention 动态识别和合并冗余 token
  7. 核心思路:用注意力分数评估 token 重要性 \(\mathbf{a} = \text{softmax}(QK^T/\sqrt{d})V\),IQR 过滤保留上四分位 token 作为关键 token,剩余 token 按相似度 \(\text{Sim}(\mathbf{tok}_i, \mathbf{tok}_j) = \mathbf{k}_i \cdot \mathbf{k}_j^T\) 聚类合并到最近的关键 token
  8. 设计动机:IQR 比固定比例更鲁棒,能自适应不同样本的冗余程度

  9. Key-subset Selection(关键子集选择):

  10. 做什么:识别最有价值的训练样本,减少数据量
  11. 核心思路:两阶段分类 — loss 高于均值为 hard 样本 (D₁),其余为 easy 样本 (D₂)。Hard 样本按 epoch 聚合,用指数衰减权重 \(w_g = r^{g-1}\) 加权重要性。InfoBatch 方法缩放梯度,剪枝冗余 easy 样本。最终选 top-n 组成关键子集 D₃
  12. 设计动机:优先训练 hard 样本加速收敛,指数衰减保证近期 hard 样本权重更高

实验关键数据

主实验(MUSIC-AVQA)

方法 Audio QA Visual QA AV QA Overall
AVST 73.87 74.40 65.82 71.59
LAVisH 76.86 76.29 77.62 76.10
DG-SCT 76.34 82.08 67.48 74.62
Sparsify 80.38 84.43 79.89 81.75

AV QA 提升最显著(+12.41 vs DG-SCT)

效率对比

配置 训练时间 说明
Dense baseline 173h 100%
Sparsify (full) 124h -28.32%
25% key-subset - 74% performance retained

MUSIC-AVQA v2.0

方法 Overall
DG-SCT 74.53
Sparsify 81.30 (+6.77)

关键发现

  • AV QA 提升最大(+12.41/+9.71),说明稀疏化有效减少了模态间的冗余干扰
  • 25% 数据保持 74% 性能,Key-subset Selection 有效识别了高价值样本
  • 比较类和时序类问题提升尤为明显:Comparative +13.9,Temporal +12.75,说明稀疏化帮助模型更好地聚焦于关键时间点

亮点与洞察

  • 三层稀疏化的正交性:表示层(masking)、token 层(merging)、样本层(selection)分别解决不同维度的冗余问题,且互不干扰
  • IQR 自适应阈值比固定比例 pruning 更鲁棒,可以迁移到其他需要 token 合并的多模态任务中
  • Key-subset Selection 的指数衰减策略是一个简洁有效的 curriculum learning 变体

局限性 / 可改进方向

  • 仅在 Music AVQA 数据集上验证,其他密集音频-视觉任务的泛化性未知
  • 50% 掩码率缺乏超参数敏感性分析
  • Key-subset 算法有多个超参数(k、r、G),消融不够充分
  • 未与最新的 LLM-based 多模态方法(VideoLLM 等)对比

相关工作与启发

  • vs DG-SCT: DG-SCT 用密集图卷积建模音频-视觉关系;Sparsify 用稀疏策略减少冗余,AV QA 上大幅超越(+12.41)
  • vs LAVisH: LAVisH 冻结预训练编码器但整体性能较低;Sparsify 的稀疏策略更有效地利用了编码器能力
  • 启发:Token merging 策略可以从 VLM 效率(如 EffiVLM-Bench 中评估的方法)迁移过来

评分

  • 新颖性: ⭐⭐⭐⭐ 三层稀疏化框架在 Music AVQA 领域是新颖的组合
  • 实验充分度: ⭐⭐⭐⭐ 两个 benchmark,多种基线对比,含效率分析
  • 写作质量: ⭐⭐⭐ 方法描述清楚但消融不够深入
  • 价值: ⭐⭐⭐ 领域较窄(音乐 AVQA),但稀疏化思路可推广