跳转至

Contextual AD Narration with Interleaved Multimodal Sequence

会议: CVPR 2025
arXiv: 2403.12922
代码: GitHub
领域: 视听语言
关键词: audio description, interleaved multimodal, character refinement, contrastive loss, movie understanding

一句话总结

提出 Uni-AD 统一框架,以交错多模态序列(视频特征+文本+角色库+上下文)作为输入,通过视觉映射网络对齐特征 + 角色精化模块识别主要角色 + 对比损失增强上下文一致性,在 MAD-eval-Named 上达到 SOTA。

研究背景与动机

领域现状:音频描述(Audio Description, AD)任务旨在为视障人群生成电影视觉元素的描述,需要理解情节上下文、角色身份、动作等信息。

现有痛点: - 早期方法(如 MM-Narrator)仅用视觉特征,无法将角色指代为具体名字 - AutoAD-II 引入角色库但模态对齐粗糙 - 现有方法在处理角色身份和情节上下文方面能力不足,生成的描述缺乏连贯性

核心矛盾:AD 任务需要同时处理视频帧、字幕、角色信息和上下文关系,但不同模态的特征空间差异大,简单拼接无法实现精细对齐。

切入角度:构建交错多模态输入序列,利用预训练基础模型(LLM+视觉编码器)通过统一框架处理所有模态。

核心 idea:视觉映射网络细粒度对齐 + 角色精化识别关键角色 + 对比损失保证上下文连贯性。

方法详解

整体框架

Uni-AD 以交错多模态序列作为 LLM 的输入: - 视频特征(通过视觉映射网络对齐到文本空间) - 字幕文本(subtitles) - 角色库(character bank)中的角色信息 - 前后上下文的 AD 描述

关键设计

  1. 视觉映射网络(Visual Mapping Network)

    • 功能:将视频特征映射到文本特征空间,实现细粒度多模态对齐
    • 架构:轻量级模块,包含线性层 + 层归一化
    • 优势:相比直接拼接或粗粒度对齐,保留更丰富的视觉细节
    • 处理流程:视频帧 → CLIP/视觉编码器 → 映射网络 → 文本空间特征
  2. 角色精化模块(Character-Refinement Module)

    • 功能:从角色库中识别在当前视频片段中扮演重要角色的人物
    • 核心思路:
      • 利用人脸检测和识别匹配当前帧中的角色
      • 根据出现频率和画面位置筛选主要角色
      • 将精化后的角色信息嵌入输入序列
    • 动机:角色库通常包含大量角色,全部输入会引入噪声
  3. 对比损失(Contrastive Loss)

    • 功能:增强生成 AD 的上下文连贯性和时序一致性
    • 核心思路:拉近当前 AD 与其上下文的表示,推远不相关片段
    • 公式形式:标准 InfoNCE 形式,正样本为时序相邻 AD
    • 与生成损失联合训练
  4. 上下文信息集成

    • 功能:利用前后 AD 描述提供情节连贯性
    • 实现:将前面几段 AD 作为文本 tokens 拼入输入序列
    • 效果:生成更流畅、更符合剧情的描述

训练策略

  • 基于预训练 LLM 进行微调
  • 多任务损失:语言模型生成损失 + 对比损失
  • 使用 MAD 数据集训练

实验关键数据

主实验(MAD-eval 数据集)

方法 CIDEr↑ METEOR↑ ROUGE-L↑
MM-Narrator
AutoAD-II 基线 基线 基线
Uni-AD SOTA SOTA SOTA

MAD-eval-Named(含角色名的评估)

方法 CIDEr↑ 角色名准确率↑
无角色精化
Uni-AD (完整) 最高 最高

消融实验

配置 CIDEr↑ METEOR↑
w/o 视觉映射网络 降低 降低
w/o 角色精化 显著降低 降低
w/o 对比损失 略降 略降
w/o 上下文 降低 降低
完整 Uni-AD 最高 最高

关键发现

  • 角色精化模块对 Named 指标的提升最为显著
  • 对比损失提高了生成 AD 的时序一致性
  • 视觉映射网络的细粒度对齐优于直接特征拼接
  • 上下文信息对生成连贯剧情描述至关重要

亮点与洞察

  • 统一框架处理多模态输入,简洁优雅
  • 角色精化模块解决了 AD 任务的核心挑战——角色识别
  • 对比损失是一种轻量但有效的连贯性增强手段
  • 框架设计具有良好的可扩展性

局限与展望

  • 依赖人脸识别的角色识别在侧脸/遮挡时不稳定
  • 对角色库质量敏感
  • 长视频场景下上下文窗口有限

评分

  • 新颖性: ⭐⭐⭐⭐ 交错多模态+角色精化组合新颖
  • 实验充分度: ⭐⭐⭐⭐ 多数据集+消融完整
  • 写作质量: ⭐⭐⭐⭐ 框架清晰易理解
  • 价值: ⭐⭐⭐⭐ 对视障辅助和电影理解有实际意义

相关论文