Sparsify: Learning Sparsity for Effective and Efficient Music Performance Question Answering¶

会议: ACL 2025
arXiv: 2506.01319
代码: 无
领域: LLM效率
关键词: Music AVQA, sparse learning, multimodal QA, token merging, data efficiency

一句话总结¶

Sparsify 提出三层稀疏化策略（稀疏掩码+自适应稀疏合并+关键子集选择）用于音乐表演视听问答（Music AVQA），在 MUSIC-AVQA 和 v2.0 两个 benchmark 上达到 SOTA（81.75%/81.30%），训练时间减少 28.32%，25% 数据即保持 74% 的全量性能。

研究背景与动机¶

领域现状：Music AVQA 要求模型理解连续密集的音频-视觉流中的乐器演奏细节（手势、节奏、乐句），并回答关于声音来源、计数、时序等问题
现有痛点：
现有方法（AVST、LAVisH、DG-SCT）依赖密集表示，难以从连续音频-视觉信号中有效隔离关键信息
特征提取和推理中缺乏有效的冗余减少机制
训练时无样本优先级策略，所有样本同等对待导致效率低下
核心矛盾：音乐表演数据的密集连续性导致大量冗余，但简单裁剪可能丢失细粒度的时序和语义信息
核心idea一句话：在表示、token、样本三个层面同时引入稀疏性，在提升效率的同时改善性能

方法详解¶

整体框架¶

Sparsify 基于 AMUSE 编码器，在端到端 pipeline 中集成三种稀疏化策略：(1) Sparse Masking 在前 3 个 epoch 随机掩码 50% 的视觉和音频 patch；(2) Adaptive Sparse Merging 在训练全程通过 IQR 筛选动态合并冗余 token；(3) Key-subset Selection 识别高价值训练样本减少数据量。

关键设计¶

Sparse Masking（稀疏掩码）:
做什么：在预训练前 3 个 epoch 对视觉（图像 patch）和音频（mel 频谱图 patch）随机掩码 50%
核心思路：统一的掩码设计保持跨模态的一致稀疏性
设计动机：前期强制模型学习从不完整输入中提取关键信息，类似 MAE 的思想，减少早期训练计算量
Adaptive Sparse Merging（自适应稀疏合并）:
做什么：基于 cross-modal attention 动态识别和合并冗余 token
核心思路：用注意力分数评估 token 重要性 \(\mathbf{a} = \text{softmax}(QK^T/\sqrt{d})V\)，IQR 过滤保留上四分位 token 作为关键 token，剩余 token 按相似度 \(\text{Sim}(\mathbf{tok}_i, \mathbf{tok}_j) = \mathbf{k}_i \cdot \mathbf{k}_j^T\) 聚类合并到最近的关键 token
设计动机：IQR 比固定比例更鲁棒，能自适应不同样本的冗余程度
Key-subset Selection（关键子集选择）:
做什么：识别最有价值的训练样本，减少数据量
核心思路：两阶段分类 — loss 高于均值为 hard 样本 (D₁)，其余为 easy 样本 (D₂)。Hard 样本按 epoch 聚合，用指数衰减权重 \(w_g = r^{g-1}\) 加权重要性。InfoBatch 方法缩放梯度，剪枝冗余 easy 样本。最终选 top-n 组成关键子集 D₃
设计动机：优先训练 hard 样本加速收敛，指数衰减保证近期 hard 样本权重更高

实验关键数据¶

主实验（MUSIC-AVQA）¶

方法	Audio QA	Visual QA	AV QA	Overall
AVST	73.87	74.40	65.82	71.59
LAVisH	76.86	76.29	77.62	76.10
DG-SCT	76.34	82.08	67.48	74.62
Sparsify	80.38	84.43	79.89	81.75

AV QA 提升最显著（+12.41 vs DG-SCT）

效率对比¶

配置	训练时间	说明
Dense baseline	173h	100%
Sparsify (full)	124h	-28.32%
25% key-subset	-	74% performance retained

MUSIC-AVQA v2.0¶

方法	Overall
DG-SCT	74.53
Sparsify	81.30 (+6.77)

关键发现¶

AV QA 提升最大（+12.41/+9.71），说明稀疏化有效减少了模态间的冗余干扰
25% 数据保持 74% 性能，Key-subset Selection 有效识别了高价值样本
比较类和时序类问题提升尤为明显：Comparative +13.9，Temporal +12.75，说明稀疏化帮助模型更好地聚焦于关键时间点

亮点与洞察¶

三层稀疏化的正交性：表示层（masking）、token 层（merging）、样本层（selection）分别解决不同维度的冗余问题，且互不干扰
IQR 自适应阈值比固定比例 pruning 更鲁棒，可以迁移到其他需要 token 合并的多模态任务中
Key-subset Selection 的指数衰减策略是一个简洁有效的 curriculum learning 变体

局限性 / 可改进方向¶

仅在 Music AVQA 数据集上验证，其他密集音频-视觉任务的泛化性未知
50% 掩码率缺乏超参数敏感性分析
Key-subset 算法有多个超参数（k、r、G），消融不够充分
未与最新的 LLM-based 多模态方法（VideoLLM 等）对比

评分¶

新颖性: ⭐⭐⭐⭐ 三层稀疏化框架在 Music AVQA 领域是新颖的组合
实验充分度: ⭐⭐⭐⭐ 两个 benchmark，多种基线对比，含效率分析
写作质量: ⭐⭐⭐ 方法描述清楚但消融不够深入
价值: ⭐⭐⭐ 领域较窄（音乐 AVQA），但稀疏化思路可推广