Towards Open-Vocabulary Audio-Visual Event Localization¶

会议: CVPR 2025
arXiv: 2411.11278
代码: https://github.com/jasongief/OV-AVEL (有)
领域: 音频语音 / 多模态
关键词: 开放词汇, 音视频事件定位, ImageBind, 时序建模, 零样本泛化

一句话总结¶

首次定义开放词汇音视频事件定位（OV-AVEL）任务，构建了包含 24800 个视频、67 类事件的 OV-AVEBench 基准，并提出基于 ImageBind 的训练免和微调两种基线方法，其中仅用 1 层时序 Transformer 微调即达 57.8% 平均性能。

研究背景与动机¶

领域现状：音视频事件定位（AVEL）旨在判断视频每个时间段中是否发生了音视频一致的事件并分类。现有方法（如 CMRA、PSP、MM-Pyramid）在固定类别集合上训练和测试，假设测试时只会遇到训练时见过的事件类别。

现有痛点：真实场景中不可能枚举所有事件类别——新的声音和视觉事件不断出现。现有闭集方法面对未见类别时性能断崖式下降（如 MM-Pyramid 从 68.6% 暴跌到 29.9%），且现有 AVE 数据集仅 4143 视频、28 类，规模太小。

核心矛盾：需要模型具备对未见类别事件的零样本泛化能力，但专门为新任务训练又会破坏预训练模型的通用表示能力。

本文目标 形式化定义 OV-AVEL 任务（训练只用 seen 类，测试需同时处理 seen + unseen 类），构建大规模基准，并建立简洁有效的基线方法。

切入角度：利用 ImageBind 的跨模态统一表示空间——音频、视觉和文本特征在同一空间中对齐，天然适合开放词汇场景。

核心 idea：用 ImageBind 统一表示 + 几何均值融合 + 单层时序Transformer = 简洁的开放词汇音视频事件定位基线。

方法详解¶

整体框架¶

视频被划分为 T=10 个 1 秒段。用 ImageBind 分别提取每段的音频特征 \(\bm{a}_t\) 和视觉特征 \(\bm{v}_t\)（维度 \(d=1024\)），以及所有候选类别的文本特征 \(\bm{e}_c\)。分别计算音频-文本和视觉-文本的相似度矩阵，用几何均值融合后预测每段的事件类别。

关键设计¶

训练免基线（零样本）:
- 功能：无需任何训练即可进行开放词汇事件定位
- 核心思路：计算每段音频和视觉特征与所有类别文本特征的余弦相似度。对每段分别取音频最高分类和视觉最高分类——两者一致则判定为该事件，不一致则判定为背景（"other"类）
- 设计动机：利用 ImageBind 预训练的跨模态对齐能力，音视频一致性检查天然过滤掉单模态噪声
微调基线（轻量时序增强）:
- 功能：用少量可学习参数增强时序建模，大幅提升性能
- 核心思路：在 ImageBind 的音频和视觉编码器后分别插入 \(L=1\) 层可学习 Transformer 块捕捉时序依赖，训练时仅用 seen 类数据。音视频融合采用几何均值 \(S_{ave}' = \sqrt{S_{ae}' \odot S_{ve}'}\)（Hadamard 积取平方根），预测概率取最大值对应的类别
- 设计动机：几何均值相比算术平均对单模态虚警更鲁棒——如果一个模态给出低分，几何均值会被显著拉低（57.8% vs 39.0%）
"Other"类的关键作用:
- 功能：处理不属于任何候选类别的背景段
- 核心思路：在候选类别文本列表末尾加入"other"类文本特征，让模型可以将背景段分类到"other"而非误分配到某个具体类别
- 设计动机：没有"other"类时性能从 57.8% 暴跌到 47.0%（-10.8%），因为背景段被强制分配到不相关的事件类别

损失函数 / 训练策略¶

单一交叉熵损失：\(\mathcal{L} = \text{CE}(S_{ave}', Y')\)。Adam 优化，lr=5e-5，batch size=32，仅训练 5 个 epoch。可训练参数仅 8.4M（1 层 Transformer），其余 ImageBind 参数冻结。

实验关键数据¶

主实验¶

OV-AVEBench 上的平均性能（Acc/Seg-F1/Event-F1 的均值）：

方法	Seen Avg	Unseen Avg	Total Avg
Video-LLaMA2	40.9	38.6	39.3
CLIP&CLAP	41.6	41.8	41.7
Training-free (Ours)	45.5	47.0	46.6
Fine-tuning (Ours)	62.9	55.8	57.8

闭集方法迁移到 OV-AVEL 时的 seen→unseen 性能崩溃：

闭集方法	Seen Avg	Unseen Avg	下降
MM-Pyramid	68.6	29.9	-38.7
AVE method	65.4	34.0	-31.4
CMRA	59.4	31.1	-28.3

消融实验¶

配置	Total Avg	说明
完整模型 (L=1 Transformer)	57.8	最优
无"other"类	47.0	下降 10.8 个点
算术平均融合	39.0	下降 18.8 个点
Linear 层替代 Transformer	39.0 (unseen 仅 28.3)	时序建模对泛化至关重要
L=2 层 Transformer	56.9	过拟合
仅跨模态时序交互	46.5	反而损害性能

关键发现¶

几何均值融合至关重要：相比算术平均高 18.8 个点，因为它对单模态虚警有天然的抑制作用（一个模态低分 → 乘积被拉低）
时序 Transformer 是泛化关键：Line 层在 seen 类上更好（65.8 vs 62.9），但在 unseen 类上崩溃（28.3 vs 55.8），说明时序建模帮助提取更通用的事件模式
跨模态交互反而有害：ImageBind 已提供了足够的跨模态语义对齐，额外的跨模态注意力层可能破坏预训练表示
数据效率极高：仅用 25% 训练数据（~3300 视频）就能达到 57.7%，接近 100% 数据的 57.8%

亮点与洞察¶

任务定义本身是主要贡献：OV-AVEL 作为新任务的形式化定义和大规模基准构建，比方法本身更有长期价值。24800 视频、67 类事件远超现有 AVE 数据集
简洁即有效：1 层 Transformer + 几何均值融合 + "other"类，三个极简设计组合就达到了强基线。这对后续工作划定了清晰的起跑线
几何均值融合的直觉：音视频一致性天然适合乘法——只有两个模态都"确信"某事件存在时，融合分数才高。这个 insight 可迁移到其他多模态融合场景

局限与展望¶

Seen-Unseen 性能差距仍大：微调后 seen 62.9% vs unseen 55.8%，7 个点的差距说明泛化仍有空间
事件级 F1 较低：unseen data 的 Event-F1 仅 47.5%，说明时序边界定位精度不够
固定时间分段：10 秒视频等分为 10 段的设计过于刚性，无法处理变长事件和跨段事件
方法相对简单：基线性质明显，后续需要更复杂的时序建模和跨模态交互设计
ImageBind 依赖：整个方法强依赖 ImageBind 的表示质量，换其他基础模型效果未知

评分¶

新颖性: ⭐⭐⭐⭐ 新任务定义 + 大规模基准是核心贡献，方法本身是基线级别
实验充分度: ⭐⭐⭐⭐⭐ 多种基线对比、闭集方法适配、详尽的消融（融合策略/层数/数据量/模态交互）
写作质量: ⭐⭐⭐⭐ 任务定义清晰，评估协议全面
价值: ⭐⭐⭐⭐ 为音视频事件定位社区开辟了开放词汇新方向，基准和基线都有持久价值