Audio-Visual Instance Segmentation¶

研究背景与动机¶

人类在日常生活中自然地将听觉和视觉信息整合，以定位和识别环境中的声源。例如，听到狗叫声时，我们会自动将注意力聚焦到画面中的狗身上，并精确地感知其轮廓。这种视听联合感知能力在机器人导航、视频编辑、自动驾驶等领域具有重要应用价值。

现有的视听学习任务主要包括：

任务	输出	粒度	时序建模
Sound Source Localization	热力图	区域级	单帧
Audio-Visual Segmentation	语义掩码	像素级	单帧/短序列
Audio-Visual Source Separation	分离音频	源级	多帧
AVIS (本文)	实例掩码+ID	实例级	全视频

现有方法的局限性：

Sound Source Localization 仅提供粗糙的区域级定位，无法生成精确的像素级分割

Audio-Visual Segmentation 进行语义级分割但不区分同类不同个体

没有方法在视频级别同时进行实例级分割和跨帧追踪

本文提出 Audio-Visual Instance Segmentation (AVIS) 这一新任务：给定视频和对应音频，对所有发声物体进行实例级分割并跨帧追踪。同时构建了 AVISeg 基准数据集和 AVISM 基线方法。

方法详解¶

AVISeg 基准数据集¶

AVISeg 是首个用于音视频实例分割的大规模标注数据集：

属性	数值
视频数量	926
标注掩码	90,000+
物体类别	26
平均视频长度	8.3秒
分辨率	720p/1080p
标注频率	每5帧标注
数据来源	YouTube, ActivityNet, VGGSound

数据采集与标注流程¶

视频筛选：从大规模视频数据库中筛选包含明确声源的视频
音频事件标注：标注每段视频中的音频事件时间区间和类别
实例分割标注：对每个发声物体绘制实例级分割掩码
跨帧关联：为同一物体在不同帧中的掩码分配一致的实例ID
质量控制：多轮审核确保标注质量

AVISM 基线方法¶

AVISM (Audio-Visual Instance Segmentation and tracking Model) 由两个核心模块组成：

帧级声源定位器 (Frame-Level Sound Localizer, FLSL)¶

FLSL 负责在每一帧中定位发声物体：

音频特征提取：使用预训练的 AudioSet 模型提取音频嵌入 \(\mathbf{a}_t \in \mathbb{R}^{d}\)
视觉特征提取：使用 ResNet-50 / Swin-T 提取视觉特征图 \(\mathbf{V}_t \in \mathbb{R}^{d imes H imes W}\)
跨模态注意力：

\[\mathbf{A}_{t} = ext{softmax}\left(rac{\mathbf{a}_t \mathbf{V}_t^T}{\sqrt{d}} ight) \mathbf{V}_t\]

实例预测：基于注意力增强的特征，使用 Mask2Former 风格的解码器预测实例掩码和类别

视频级声源追踪器 (Video-Level Sounding Tracker, VLST)¶

VLST 负责跨帧的实例关联和追踪：

实例嵌入：为每个检测到的实例生成外观嵌入 \(\mathbf{e}_i^t\)
音频一致性约束：确保同一实例在不同帧中与对应音频的相关性一致
匹配策略：结合外观相似度和音频相关性的二部图匹配

\[ ext{cost}(i, j) = lpha \cdot ext{IoU}(m_i^t, m_j^{t+1}) + eta \cdot \cos(\mathbf{e}_i^t, \mathbf{e}_j^{t+1}) + \gamma \cdot ext{audio\_sim}(i, j)\]

评估指标¶

AVIS 任务采用改编自 VIS (Video Instance Segmentation) 的评估指标，并加入音频相关的约束：

指标	含义	说明
FSLA (Frame-level Sound Localization Accuracy)	帧级声源定位准确率	衡量每帧中发声物体是否被正确分割
HOTA (Higher Order Tracking Accuracy)	高阶追踪准确率	综合衡量检测和关联质量
mAP	平均精度	标准实例分割指标
IDsw	ID切换次数	衡量追踪一致性

实验结果¶

主实验结果¶

方法	FSLA↑	HOTA↑	mAP↑	IDsw↓
Mask2Former (仅视觉)	31.25	48.92	27.8	145
AVS + SORT	35.67	52.34	31.2	128
TAPIS	38.91	56.18	34.5	107
AVISM (本文)	42.78	61.73	38.9	82

AVISM 在所有指标上均显著优于现有方法的组合方案，验证了专门为AVIS任务设计的架构的优越性。

消融实验¶

配置	FSLA↑	HOTA↑
Full AVISM	42.78	61.73
w/o 音频输入	32.14	49.85
w/o 跨模态注意力	37.92	55.41
w/o 音频一致性约束	40.15	58.62
w/o VLST (无追踪)	42.78	52.37

音频信息是核心贡献因素（移除后 FSLA 下降 10.64%），VLST 追踪模块对 HOTA 贡献显著。

类别分析¶

类别	FSLA↑	难度
乐器 (piano, guitar)	52.3	易
动物 (dog, cat, bird)	43.7	中
车辆 (car, motorcycle)	38.9	中
人类活动 (speaking, clapping)	31.2	难

乐器类别最容易定位，因为声源位置固定且视觉特征显著；人类活动最难，因为声源（人）在画面中可能有多个且运动模式复杂。

总结与展望¶

本文提出了 AVIS 这一新的视听理解任务，构建了 AVISeg 基准（926视频，90K+掩码，26类别），并设计了 AVISM 基线方法（FLSL + VLST）。AVISM 达到 FSLA 42.78%、HOTA 61.73%，为后续研究提供了坚实的基础。