Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation¶

会议: CVPR 2025
arXiv: 2503.13068
代码: GeWu-Lab/Crab
机构: 人民大学 / 清华大学 / 腾讯 PCG 领域: 音频视觉理解 / 多模态学习
关键词: audio-visual understanding, 统一模型, interaction-aware LoRA, 指令微调, 多任务学习

一句话总结¶

提出统一音视频场景理解模型 Crab，通过构建带显式推理过程的 AV-UIE 数据集（200K 样本）阐明跨任务协作关系，结合交互感知 LoRA（多头 LoRA）学习不同音视频交互模式，在多个任务上超越专用模型。

研究背景与动机¶

领域现状：音视频场景理解包含多类任务——时序定位（AVE、AVVP）、时空推理（AVQA）、空间定位（ARIG）、像素级理解（AVS、Ref-AVS）。人类具有统一的多任务理解能力，但现有研究大多针对单一任务设计专用模型。

现有痛点： - 简单联合训练：多任务间因音视频数据异构性和任务间复杂关系产生干扰 - 现有统一模型（VideoLLaMA、GroundingGPT 等）：缺乏任务间的显式协作机制，性能有限 - 现有数据集标签简单（单词级），无法体现任务间的推理协作关系

核心矛盾：如何在一个模型中同时处理时序/空间/像素级多粒度任务，且避免任务间干扰。

切入角度：从数据和模型两方面实现显式任务间协作。

核心 idea：显式推理数据集（AV-UIE） + 交互感知 LoRA（多头） = 统一音视频理解。

方法详解¶

整体架构¶

视觉编码器：CLIP-ViT-L/14，提取 patch 级特征
音频编码器：BEATs，提取声学特征
分割解码器：SAM decoder
语言模型：LLaMA-2-7b-Chat
多模态桥接：Audio Q-Former + Visual Q-Former（各 32 个查询 token）

关键设计¶

AV-UIE 数据集（Audio-Visual Unified Instruction-tuning with Explicit reasoning）
- 功能：构建 200K 样本的统一指令微调数据集，包含显式推理过程
- 核心思路：将现有数据集的简单标签扩展为包含推理链的指令格式
- 任务覆盖：时序定位、时空推理、空间定位、像素级分割、参考分割
- 效果：阐明任务间协作关系，如"时序定位帮助空间定位"
交互感知 LoRA（Interaction-aware LoRA）
- 功能：在 LLM 所有线性层中插入多头 LoRA，学习不同音视频交互模式
- 结构：共享 \(\mathbf{A}\) 矩阵 + \(n=3\) 个 LoRA 头（独立 \(\mathbf{B}\) 矩阵）
- 三个头分别关注：时序交互 / 空间交互 / 像素级交互
- rank = 8
- 设计动机：不同任务需要关注音视频数据的不同交互维度
- 输出：三个头的加权和作为最终适配
掩码解码器设计
- 两组 token 对应两个尺度的视觉特征（第 14 层和倒数第 2 层）
- 每组 3 个 token
- 支持语义分割（AVSS）和参考分割（Ref-AVS）

训练策略¶

阶段一：预训练对齐
- 视觉分支：Video-LLaVA 数据
- 音频分支：AudioCaps 数据
- 分割分支：LVIS 数据
- 全局 batch size 256，3 epochs
阶段二：指令微调
- AV-UIE 数据集，所有任务混合
- 可训练：三个多模态分支 + 交互感知 LoRA（冻结编码器）
- 全局 batch size 512，5 epochs

损失函数：\(\mathcal{L} = \lambda_{txt}\mathcal{L}_{txt} + \lambda_{seg}\mathcal{L}_{seg} + \lambda_{bce}\mathcal{L}_{bce} + \lambda_{dice}\mathcal{L}_{dice} + \lambda_{ce}\mathcal{L}_{ce}\)

实验关键数据¶

与专用模型的全面对比¶

任务	指标	之前 SOTA	Crab
AVE 时序定位	Acc	MM-Pyramid 77.80	80.15
AVQA 时空推理	Avg	TSPM 76.79	78.94
ARIG 空间定位	cIoU	FNAC 27.15	41.78
ARIG 空间定位	AUC	FNAC 0.31	0.42
AVS-MS3 像素分割	mIoU	AVSegFormer 58.40	58.21

AVQA 子类别对比¶

方法	Audio	Visual	Audio-Visual	Avg
LAVISH	75.97	80.22	71.26	74.46
TSPM	76.91	83.61	73.51	76.79
Crab	76.58	90.73	74.13	78.94

Visual 子类别上提升显著（90.73 vs. 83.61），可能受益于显式推理的视觉理解增强。

关键发现¶

各 LoRA 头自动学到不同的音视频理解能力（可视化验证）
时序定位任务在 AV-UIE 中占比最小，但因跨任务协作仍获得显著提升
与 VALOR（在 VALOR-1M 百万级数据上训练）性能相当（78.94 vs. 78.90），但用更少数据

亮点与洞察¶

多头 LoRA 设计简洁有效：共享 A 矩阵降低参数量，多头 B 矩阵捕获不同交互模式
显式推理数据比简单标签有效得多，使模型理解"为什么不同任务需要协作"
在空间定位（ARIG）上大幅超越专用方法（+14.63 cIoU），体现统一模型的跨任务迁移优势
统一模型思路比堆砌专用模型更优雅且高效