Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation¶

会议: ICCV 2025
arXiv: 2507.22886
代码: OmniAVS
领域: segmentation
关键词: 音频-视觉分割, 全模态指代, 推理分割, 多模态大语言模型, 查询传播

一句话总结¶

提出 OmniAVS 数据集和 OISA 模型，将指代音频-视觉分割从简单声学属性感知拓展至全模态表达（文本/语音/声音/图像的任意组合）和深度推理（理解声音内容+世界知识），在新基准及多个相关任务上取得 SOTA。

研究背景与动机¶

指代音频-视觉分割（RAVS）是一个新兴领域，旨在根据指代表达在视听场景中分割目标对象。现有数据集 Ref-AVS 存在三大局限：

声音利用浅层化：表达仅涉及声音的表面属性（如"谁发出最大声音"），不涉及声音内容的理解

模态单一：仅支持文本指代表达，缺乏语音、声音片段、图像等多模态输入

缺乏推理需求：表达不需要世界知识或复杂推理

以"谁最可能生病了？"为例，模型需要建立认知链：声音→咳嗽→生病，这超越了简单声学特征识别。同时，以 ChatGPT-4o 为代表的全模态 AI 强调了处理任意模态组合输入的重要性。

核心动机：构建一个真正理解声音内容、支持全模态指代、包含复杂推理的 RAVS 基准和基线模型。

方法详解¶

数据集 OmniAVS¶

视频来源：Creative Commons 网络视频 + TVQA 电视剧片段 + 自录制视频，从 10,871 个候选中精选 2,104 个视频。

标注规则： - 表达必须关联视频中的声音，而非仅视觉线索 - 强调声音内容而非声音行为（如"警告的狗"而非"吠叫的狗"） - 鼓励需要推理的表达，并提供推理解释 - 每个表达可指代 0 到多个目标

数据规模：2,104 视频、103k 帧、4,277 目标、206k 掩码、61,095 表达、34,841 推理解释。

模型 OISA（Omnimodal Instructed Segmentation Assistant）¶

总体架构：MLLM（音频编码器 + 视觉编码器 + LLM）+ 掩码头（ViT-Adapter + 像素解码器 + 掩码解码器）

MLLM 基座：InternVL2-1B（InternViT-300M-448px + Qwen2-0.5B）
音频编码器：Whisper-large-v3 + 音频 MLP

关键设计一：音频-视觉交错（Audio-Visual Interleaving）¶

视频采样 \(N\) 帧获取视觉 token \(\{v_1, ..., v_N\}\)，音频编码后分割为 \(N\) 个片段 \(\{a_1, ..., a_N\}\)，按时间顺序交错排列：

\[\{v_1, a_1, v_2, a_2, ..., v_N, a_N\}\]

对比 VideoLLaMA 的顺序拼接 \(\{v_1,...,v_N, a_1,...,a_N\}\) 或 video-SALMONN 的加权融合，交错策略无需额外参数即可实现时间对齐。在 TVQA 子集（包含大量对话、需精确音视对齐）上提升显著。

进一步在交错序列末尾追加完整音频 token \(\mathbf{A}\)，类似于 InternVL2 的缩略图策略，补充未截断的全局音频信息。

关键设计二：查询传播（Query Propagation）¶

MLLM 生成 [SEG] token 表示目标嵌入，传递给掩码解码器。

VideoLISA 的 OTSA（One-Token-Seg-All）策略用同一 [SEG] 独立分割每帧，但单个查询携带位置先验，难以适应目标运动（如从右到左），导致 ID 切换。

查询传播逐帧更新查询：

每帧分割后，将当前帧的输出查询传播到下一帧
查询在线细化，平滑捕获时间运动轨迹
有效建模上下文时序信息

\[\text{QP}: \quad q_{t+1} = \text{MaskDecoder}(q_t, F_t) \rightarrow q_{t+1}\]

训练流程¶

阶段 1 — 音频-文本对齐：使用 ASR 和 Audio Caption 数据集训练音频编码器 MLP，其余参数冻结。

阶段 2 — 全模态指令分割微调：在混合数据上训练（ADE20K、COCO-Stuff、RefCOCO 系列、MeViS、ReVOS、Ref-AVS、OmniAVS 等），使用 LoRA 微调 LLM，训练掩码头全部参数。损失包括交叉熵（文本）+ DICE + BCE（分割）。

实验¶

OmniAVS 基准¶

方法	总体 \(\mathcal{J\&F}\)	I(文本)	VII(文本+声+图)	VIII(语音+声+图)	METEOR
LMPM	25.8	31.2	-	-	-
MUTR	32.3	35.4	41.6	40.5	-
LISA-13B	36.1	36.4	46.7	45.7	16.5
OISA-1B	41.1	40.1	52.6	53.0	21.7

OISA-1B 以仅 1B 参数超越 LISA-13B 5.0%，推理解释质量（METEOR +5.2）同步提升。多模态组合输入（VII/VIII）效果最好，证明多模态互补。

Ref-AVS 基准¶

方法	Seen \(\mathcal{J}\)	Unseen \(\mathcal{J}\)	Mix \(\mathcal{J\&F}\)
EEMC	34.2	49.5	41.9/58.1
OISA-1B	51.7	58.3	54.5/61.4

在 Seen 和 Unseen 分割上分别提升 +17.5 和 +8.8。

消融实验¶

音视融合策略：

融合方式	TVQA子集	总体
Attention	37.4	35.8
拼接	36.9	35.3
AVI + 拼接	42.0	40.5

掩码头设计：

查询类型	掩码头	\(\mathcal{J\&F}\)	FPS
OTSA	SAM	38.1	4.3
OTSA	M2F	35.2	15.7
QP	SAM	41.2	4.1
QP	M2F	40.5	12.3

查询传播比 OTSA 在 M2F 头上提升 +5.3 \(\mathcal{J\&F}\)，同时保持 3x 速度优势。

关键发现¶

音频-视觉交错是时间对齐的最优方案，在 TVQA（大量对话）子集上优势最明显
模态越多性能越好（Split VII/VIII 最高），多模态确实提供互补信息
查询传播大幅改善动态目标的跟踪质量，解决 OTSA 的 ID 切换问题
OmniAVS 比 Ref-AVS 难度高 17%（41.1 vs 58.0），验证了数据集的挑战性

亮点与洞察¶

数据集设计前瞻：8 种模态组合 + 推理解释 + 多目标指代，为全模态 AI 提供了细粒度感知基准
从"听到"到"理解"：推动 RAVS 从声学属性检测进化到声音内容推理
1B 模型超越 13B：证明任务特化设计（AVI + QP）比纯参数量更重要

局限性¶

基座 LLM 仅 0.5B，在需要深度推理的场景（如 ReasonSeg）能力受限
复杂混叠声音的解耦仍是瓶颈（如多人同时说话 + 背景音）
语音表达通过 TTS 合成，与真实人类语音的分布有差距

评分¶

新颖性: ⭐⭐⭐⭐⭐ — OmniAVS 数据集定义了全新的全模态推理分割范式
技术深度: ⭐⭐⭐⭐ — AVI 和查询传播设计合理有效
实验: ⭐⭐⭐⭐⭐ — 跨 OmniAVS/Ref-AVS/RefCOCO/MeViS/ReVOS 多任务全面验证
写作: ⭐⭐⭐⭐ — 数据集动机和与 Ref-AVS 的对比论证清晰