Contextual AD Narration with Interleaved Multimodal Sequence¶
会议: CVPR 2025
arXiv: 2403.12922
代码: GitHub
领域: 视听语言
关键词: audio description, interleaved multimodal, character refinement, contrastive loss, movie understanding
一句话总结¶
提出 Uni-AD 统一框架,以交错多模态序列(视频特征+文本+角色库+上下文)作为输入,通过视觉映射网络对齐特征 + 角色精化模块识别主要角色 + 对比损失增强上下文一致性,在 MAD-eval-Named 上达到 SOTA。
研究背景与动机¶
领域现状:音频描述(Audio Description, AD)任务旨在为视障人群生成电影视觉元素的描述,需要理解情节上下文、角色身份、动作等信息。
现有痛点: - 早期方法(如 MM-Narrator)仅用视觉特征,无法将角色指代为具体名字 - AutoAD-II 引入角色库但模态对齐粗糙 - 现有方法在处理角色身份和情节上下文方面能力不足,生成的描述缺乏连贯性
核心矛盾:AD 任务需要同时处理视频帧、字幕、角色信息和上下文关系,但不同模态的特征空间差异大,简单拼接无法实现精细对齐。
切入角度:构建交错多模态输入序列,利用预训练基础模型(LLM+视觉编码器)通过统一框架处理所有模态。
核心 idea:视觉映射网络细粒度对齐 + 角色精化识别关键角色 + 对比损失保证上下文连贯性。
方法详解¶
整体框架¶
Uni-AD 以交错多模态序列作为 LLM 的输入: - 视频特征(通过视觉映射网络对齐到文本空间) - 字幕文本(subtitles) - 角色库(character bank)中的角色信息 - 前后上下文的 AD 描述
关键设计¶
-
视觉映射网络(Visual Mapping Network)
- 功能:将视频特征映射到文本特征空间,实现细粒度多模态对齐
- 架构:轻量级模块,包含线性层 + 层归一化
- 优势:相比直接拼接或粗粒度对齐,保留更丰富的视觉细节
- 处理流程:视频帧 → CLIP/视觉编码器 → 映射网络 → 文本空间特征
-
角色精化模块(Character-Refinement Module)
- 功能:从角色库中识别在当前视频片段中扮演重要角色的人物
- 核心思路:
- 利用人脸检测和识别匹配当前帧中的角色
- 根据出现频率和画面位置筛选主要角色
- 将精化后的角色信息嵌入输入序列
- 动机:角色库通常包含大量角色,全部输入会引入噪声
-
对比损失(Contrastive Loss)
- 功能:增强生成 AD 的上下文连贯性和时序一致性
- 核心思路:拉近当前 AD 与其上下文的表示,推远不相关片段
- 公式形式:标准 InfoNCE 形式,正样本为时序相邻 AD
- 与生成损失联合训练
-
上下文信息集成
- 功能:利用前后 AD 描述提供情节连贯性
- 实现:将前面几段 AD 作为文本 tokens 拼入输入序列
- 效果:生成更流畅、更符合剧情的描述
训练策略¶
- 基于预训练 LLM 进行微调
- 多任务损失:语言模型生成损失 + 对比损失
- 使用 MAD 数据集训练
实验关键数据¶
主实验(MAD-eval 数据集)¶
| 方法 | CIDEr↑ | METEOR↑ | ROUGE-L↑ |
|---|---|---|---|
| MM-Narrator | — | — | — |
| AutoAD-II | 基线 | 基线 | 基线 |
| Uni-AD | SOTA | SOTA | SOTA |
MAD-eval-Named(含角色名的评估)¶
| 方法 | CIDEr↑ | 角色名准确率↑ |
|---|---|---|
| 无角色精化 | 低 | 低 |
| Uni-AD (完整) | 最高 | 最高 |
消融实验¶
| 配置 | CIDEr↑ | METEOR↑ |
|---|---|---|
| w/o 视觉映射网络 | 降低 | 降低 |
| w/o 角色精化 | 显著降低 | 降低 |
| w/o 对比损失 | 略降 | 略降 |
| w/o 上下文 | 降低 | 降低 |
| 完整 Uni-AD | 最高 | 最高 |
关键发现¶
- 角色精化模块对 Named 指标的提升最为显著
- 对比损失提高了生成 AD 的时序一致性
- 视觉映射网络的细粒度对齐优于直接特征拼接
- 上下文信息对生成连贯剧情描述至关重要
亮点与洞察¶
- 统一框架处理多模态输入,简洁优雅
- 角色精化模块解决了 AD 任务的核心挑战——角色识别
- 对比损失是一种轻量但有效的连贯性增强手段
- 框架设计具有良好的可扩展性
局限与展望¶
- 依赖人脸识别的角色识别在侧脸/遮挡时不稳定
- 对角色库质量敏感
- 长视频场景下上下文窗口有限
评分¶
- 新颖性: ⭐⭐⭐⭐ 交错多模态+角色精化组合新颖
- 实验充分度: ⭐⭐⭐⭐ 多数据集+消融完整
- 写作质量: ⭐⭐⭐⭐ 框架清晰易理解
- 价值: ⭐⭐⭐⭐ 对视障辅助和电影理解有实际意义
相关论文¶
- [CVPR 2026] UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark
- [CVPR 2025] MultiFoley: Video-Guided Foley Sound Generation with Multimodal Controls
- [ACL 2025] Contextual Biasing with the Knowledgeable External Language Model for End-to-End Speech Recognition
- [CVPR 2025] DistinctAD: Distinctive Audio Description Generation in Contexts
- [CVPR 2025] Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach