Contextual AD Narration with Interleaved Multimodal Sequence¶

会议: CVPR 2025
arXiv: 2403.12922
代码: GitHub
领域: 视听语言
关键词: audio description, interleaved multimodal, character refinement, contrastive loss, movie understanding

一句话总结¶

提出 Uni-AD 统一框架，以交错多模态序列（视频特征+文本+角色库+上下文）作为输入，通过视觉映射网络对齐特征 + 角色精化模块识别主要角色 + 对比损失增强上下文一致性，在 MAD-eval-Named 上达到 SOTA。

研究背景与动机¶

领域现状：音频描述（Audio Description, AD）任务旨在为视障人群生成电影视觉元素的描述，需要理解情节上下文、角色身份、动作等信息。

现有痛点： - 早期方法（如 MM-Narrator）仅用视觉特征，无法将角色指代为具体名字 - AutoAD-II 引入角色库但模态对齐粗糙 - 现有方法在处理角色身份和情节上下文方面能力不足，生成的描述缺乏连贯性

核心矛盾：AD 任务需要同时处理视频帧、字幕、角色信息和上下文关系，但不同模态的特征空间差异大，简单拼接无法实现精细对齐。

切入角度：构建交错多模态输入序列，利用预训练基础模型（LLM+视觉编码器）通过统一框架处理所有模态。

核心 idea：视觉映射网络细粒度对齐 + 角色精化识别关键角色 + 对比损失保证上下文连贯性。

方法详解¶

整体框架¶

Uni-AD 以交错多模态序列作为 LLM 的输入： - 视频特征（通过视觉映射网络对齐到文本空间） - 字幕文本（subtitles） - 角色库（character bank）中的角色信息 - 前后上下文的 AD 描述

关键设计¶

视觉映射网络（Visual Mapping Network）
- 功能：将视频特征映射到文本特征空间，实现细粒度多模态对齐
- 架构：轻量级模块，包含线性层 + 层归一化
- 优势：相比直接拼接或粗粒度对齐，保留更丰富的视觉细节
- 处理流程：视频帧 → CLIP/视觉编码器 → 映射网络 → 文本空间特征
角色精化模块（Character-Refinement Module）
- 功能：从角色库中识别在当前视频片段中扮演重要角色的人物
- 核心思路：
  - 利用人脸检测和识别匹配当前帧中的角色
  - 根据出现频率和画面位置筛选主要角色
  - 将精化后的角色信息嵌入输入序列
- 动机：角色库通常包含大量角色，全部输入会引入噪声
对比损失（Contrastive Loss）
- 功能：增强生成 AD 的上下文连贯性和时序一致性
- 核心思路：拉近当前 AD 与其上下文的表示，推远不相关片段
- 公式形式：标准 InfoNCE 形式，正样本为时序相邻 AD
- 与生成损失联合训练
上下文信息集成
- 功能：利用前后 AD 描述提供情节连贯性
- 实现：将前面几段 AD 作为文本 tokens 拼入输入序列
- 效果：生成更流畅、更符合剧情的描述

训练策略¶

基于预训练 LLM 进行微调
多任务损失：语言模型生成损失 + 对比损失
使用 MAD 数据集训练

实验关键数据¶

主实验（MAD-eval 数据集）¶

方法	CIDEr↑	METEOR↑	ROUGE-L↑
MM-Narrator	—	—	—
AutoAD-II	基线	基线	基线
Uni-AD	SOTA	SOTA	SOTA

MAD-eval-Named（含角色名的评估）¶

方法	CIDEr↑	角色名准确率↑
无角色精化	低	低
Uni-AD (完整)	最高	最高

消融实验¶

配置	CIDEr↑	METEOR↑
w/o 视觉映射网络	降低	降低
w/o 角色精化	显著降低	降低
w/o 对比损失	略降	略降
w/o 上下文	降低	降低
完整 Uni-AD	最高	最高

关键发现¶

角色精化模块对 Named 指标的提升最为显著
对比损失提高了生成 AD 的时序一致性
视觉映射网络的细粒度对齐优于直接特征拼接
上下文信息对生成连贯剧情描述至关重要

亮点与洞察¶

统一框架处理多模态输入，简洁优雅
角色精化模块解决了 AD 任务的核心挑战——角色识别
对比损失是一种轻量但有效的连贯性增强手段
框架设计具有良好的可扩展性

局限与展望¶

依赖人脸识别的角色识别在侧脸/遮挡时不稳定
对角色库质量敏感
长视频场景下上下文窗口有限

评分¶

新颖性: ⭐⭐⭐⭐ 交错多模态+角色精化组合新颖
实验充分度: ⭐⭐⭐⭐ 多数据集+消融完整
写作质量: ⭐⭐⭐⭐ 框架清晰易理解
价值: ⭐⭐⭐⭐ 对视障辅助和电影理解有实际意义