跳转至

DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing

日期: 2026-03-15
arXiv: 2603.14267
代码: Demo
领域: 图像生成 / 视频理解
关键词: video dubbing, discrete flow matching, lip sync, TTS, cross-modal alignment

一句话总结

提出 DiFlowDubber,用 Discrete Flow Matching 生成骨干将大规模 TTS 预训练知识迁移到视频配音,通过 FaPro 模块从面部表情捕获韵律先验 + Synchronizer 模块实现视频-文本-语音三模态对齐,在 Chem 和 V2C 数据集上超越 SOTA。

研究背景与动机

  1. 领域现状: 视频配音需要同时保证语音质量、韵律表达和唇形同步。现有方法要么在有限配音数据上直接训练(质量差),要么两阶段 TTS 适配(同步性差)。
  2. 现有痛点: ProDubber 靠 duration predictor 估算唇动长度但不受实际视频长度约束 → 唇形同步差。Speaker2Dubber 只迁移了音素编码,未充分利用 TTS 的韵律和声学建模能力。
  3. 核心 idea: 两阶段训练——Stage 1 预训练零样本 TTS(FACodec 分解 + DFM 联合建模韵律/声学)→ Stage 2 适配到视频配音(FaPro 面部→韵律 + Synchronizer 唇形→时间对齐)。

方法详解

整体框架

Stage 1: 大规模语音数据预训练零样本 TTS(FACodec 分解 + DFPA 联合生成韵律/声学 token)→ Stage 2: 视频适配(FaPro 从面部提取韵律先验 + Synchronizer 实现 video-text-speech 三模态时间对齐)→ vocoder 合成波形。

关键设计

  1. FACodec 分解: 语音 → prosody/content/acoustic token + speaker embedding,分离控制各维度
  2. Discrete Flow-Based Prosody-Acoustic (DFPA): DiT 去噪器,输入 masked prosody+acoustic token,条件化于 content latent + speaker embedding,联合生成韵律和声学 token
  3. FaPro (Face-to-Prosody): 面部特征 → 上采样 → ConvNeXt V2 → prosody predictor,从面部表情生成全局韵律先验——说话时的面部动作自然携带韵律信息(如强调时嘴巴张更大)
  4. Synchronizer 双对齐: (a) video-text: 唇形特征 cross-attend 音素 + contrastive loss; (b) speech-text: 语音表示 cross-attend 音素 + contrastive loss → 确保 video/text/speech 三模态时间对齐,解决唇形同步问题

实验关键数据

主实验: Chem 数据集

方法 LSE-C↑ LSE-D↓ WER↓ SECS↑ UTMOS↑
Ground Truth 8.12 6.59 3.85 100.00 4.18
V2C-Net (CVPR'22) 1.97 12.17 90.47 51.52 1.81
HPMDubbing (CVPR'23) 7.85 7.19 16.05 85.09 2.16
StyleDubber (ACL'24) 3.87 10.92 13.14 87.72 3.14
ProDubber (CVPR'25) 2.58 12.54 9.45 72.13 3.85
EmoDubber (CVPR'25) 8.11 6.92 11.72 90.62 3.82
DiFlowDubber 8.31 6.73 9.65 84.59 4.02

主实验: GRID 数据集

方法 LSE-C↑ LSE-D↓ WER↓ SECS↑ UTMOS↑
Ground Truth 7.13 6.78 22.41 100.00 3.94
StyleDubber 6.12 9.03 18.88 93.79 3.73
ProDubber 5.23 9.59 18.60 89.03 3.87
EmoDubber 7.12 6.82 18.53 92.22 3.83
DiFlowDubber 7.32 6.73 16.79 82.52 3.95

DiFlowDubber 的唇形同步 (LSE-C 8.31) 超越 Ground Truth (8.12),UTMOS 4.02 接近真人 (4.18)。

推理效率与消融

  • 8 NFEs 即达 competitive 质量(RTF=0.05),128 NFEs 达最优
  • 消融: 去掉 FaPro(面部韵律先验)→ LSE-C 下降 0.5+;去掉 Synchronizer → WER 上升 3+
  • Distillation loss 保证 TTS→配音迁移时语言一致性

关键发现

  • SECS(说话人相似度)不是最高——因为视频配音需要适配角色而非完美复制参考说话人
  • ProDubber 在 LSE 指标上明显差——因为 duration predictor 不受视频时长约束
  • EmoDubber 唇同步好但 UTMOS 不如 DiFlowDubber——说明 DFM 生成的语音自然度更高

亮点与洞察

  • DFM 首次用于视频配音:离散流匹配提供了比自回归更高效的 token 生成方式
  • 面部→韵律的生物学洞察:面部表情天然编码韵律信息,FaPro 利用这一先验减少配音中韵律生硬问题
  • 三模态对齐设计精巧:Synchronizer 的双对齐确保视频、文本、语音三者时间同步

相关工作对比

  • vs ProDubber: 有韵律增强预训练但 LSE-C 仅 2.58,本文 Synchronizer 约束视频长度达 8.31
  • vs EmoDubber: flow-based 情感条件化 LSE-C 8.11,但 WER 11.72% 高于本文 9.65%
  • vs Speaker2Dubber: 仅迁移音素编码器,本文完整迁移 DFPA 模块的韵律和声学建模
  • vs HPMDubbing: 层次化韵律建模 LSE-C 7.85,但 WER 16.05% 远高于本文 9.65%
  • vs V2C-Net: 早期方法 LSE-C 仅 1.97,WER 90.47%,差距巨大

相关工作对比

  • vs ProDubber: 有韵律增强预训练但 LSE-C 仅 2.58,本文 Synchronizer 约束视频长度达 8.31
  • vs EmoDubber: flow-based 情感条件化 LSE-C 8.11,但 WER 11.72% 高于本文 9.65%
  • vs Speaker2Dubber: 仅迁移音素编码器,本文完整迁移 DFPA 模块的韵律和声学建模
  • vs HPMDubbing: 层次化韵律建模 LSE-C 7.85,但 WER 16.05% 远高于本文 9.65%
  • vs V2C-Net: 早期方法 LSE-C 仅 1.97,WER 90.47%,差距巨大

局限性 / 可改进方向

  • 依赖 FACodec 的 token 分解质量,换用其他编解码器需重新适配
  • 当前针对英文配音验证,多语言泛化性待测
  • 真实对话场景(多人、重叠语音)的效果未知
  • Synchronizer 的双对齐训练需要音素级对齐标注,获取成本不低
  • 与端到端语音合成方案(如将配音视为条件生成)的对比缺失
  • 长视频配音(>30s)的连贯性和韵律一致性未系统评估

评分

  • 新颖性: ⭐⭐⭐⭐ DFM 首次用于视频配音,Synchronizer 双对齐有新意
  • 实验充分度: ⭐⭐⭐⭐ 两个 benchmark + 多指标 + ablation
  • 写作质量: ⭐⭐⭐⭐ pipeline 图清晰
  • 价值: ⭐⭐⭐⭐ 视频配音质量和同步性的实际提升

核心贡献:将 Discrete Flow Matching 与 TTS 预训练知识迁移结合,通过面部-韵律映射和三模态对齐实现高质量视频配音