跳转至

Mimir: Improving Video Diffusion Models for Precise Text Understanding

会议: CVPR 2025
arXiv: 2412.03085
代码: https://lucaria-academy.github.io/Mimir/
领域: 视频生成 / 扩散模型
关键词: 视频生成, 文本理解, 大语言模型, Token融合, Decoder-only LLM

一句话总结

Mimir 提出一个端到端训练框架,通过精心设计的 Token Fuser 将 decoder-only LLM(Phi-3.5)的强文本理解能力与传统 text encoder(T5)的稳定特征无损融合,显著提升视频扩散模型的文本理解精度,尤其在多物体、空间关系和时序理解上大幅领先现有方法。

研究背景与动机

  1. 领域现状:当前文本到视频(T2V)扩散模型通常使用 CLIP 或 T5 作为文本编码器,这些 encoder-based 模型的文本理解能力有限,难以精确理解复杂的空间关系、数量、颜色和时序动作等细节。
  2. 现有痛点:Decoder-only LLM(如 Phi-3.5、LLaMA)具有远超 encoder 的文本理解和推理能力,但其特征分布与已建立的 T2V 模型不兼容——(1) 特征尺度差异巨大(T5 特征集中在 [-0.5, 0.5],Phi-3.5 超出 [-1, 1]);(2) 特征波动性——decoder-only 模型对同一输入的多次编码可能产生不同特征(因其生成特性),直接融合会导致训练崩溃。
  3. 核心矛盾:如何在利用 decoder-only LLM 的推理能力的同时,保持 T2V 模型已有的视频先验,避免特征分布不兼容导致的训练不稳定。
  4. 本文目标 实现 encoder 和 decoder-only LLM 的异构文本特征的无损融合,让 T2V 模型同时享有稳定的视频先验和精确的文本理解。
  5. 切入角度:不把 LLM 重新训练为 encoder(会损失推理能力),而是设计专门的融合模块,用 Zero-Conv 实现渐进式融合 + 用语义稳定器抑制特征波动。
  6. 核心 idea:用 Token Fuser(Zero-Conv 无损融合 + Semantic Stabilizer 语义稳定)桥接 T5 encoder 和 Phi-3.5 decoder-only LLM 的异构特征。

方法详解

整体框架

Mimir 在标准 T2V 扩散模型(3D Causal VAE + DiT)基础上,增加 decoder-only LLM 分支。输入文本同时送入 T5 encoder(得到 \(e_\theta\))和 Phi-3.5 decoder-only LLM(得到 \(e_\beta\) 和指令 token \(e_i\))。Token Fuser 将两路特征融合为统一的条件嵌入,送入 DiT 指导视频生成。分为非破坏性融合和语义稳定器两个核心组件。

关键设计

  1. 非破坏性融合(Non-Destructive Fusion):

    • 功能:将 T5 encoder token 和 Phi-3.5 decoder token 在不破坏原有语义空间的前提下融合。
    • 核心思路:(1) 对 decoder-only token \(e_\beta\) 先做归一化 + 可学习缩放(Norm & Scale),将其尺度对齐到 encoder token 的范围;(2) 在 decoder-only 分支后接 Zero-Conv 层 \(\mathcal{Z}_\beta\),训练初始时输出为零,不干扰原有模型;(3) 在 encoder 分支后也接 Zero-Conv 层 \(\mathcal{Z}_\theta\)(残差方式),保证训练初始时等于原始 encoder token。最终融合为 \(e = e_\theta + \alpha \cdot e_\beta\),其中 \(e_\theta = \tau_\theta(\mathcal{T}) + \mathcal{Z}_\theta(\tau_\theta(\mathcal{T}))\)\(e_\beta = \mathcal{Z}_\beta(\tau_\beta(\mathcal{T}))\)
    • 设计动机:直接加和会导致训练崩溃(消融实验中所有指标暴跌,如 Object Class 从 87.82% 降到 4.97%)。Zero-Conv 确保新加入的 LLM 分支从零开始渐进贡献,是一种经典的"无害初始化"策略。
  2. 语义稳定器(Semantic Stabilizer):

    • 功能:抑制 decoder-only LLM 对同一输入产生不同特征的波动性,同时引导模型关注关键语义元素。
    • 核心思路:设计4个属性特定的指令 prompt(如"描述视频中的物体"、"描述颜色"等),输入 LLM 生成指令 token \(e_i\),再加上4个可学习的锚点 token \(e_l\) 作为视觉空间的桥梁:\(e_s = e_i + e_l\)\(e_s\) 与融合 token \(e\) 拼接后送入 DiT。指令 token 提供明确的语义关注方向,可学习 token 在训练中自动调整以稳定波动。
    • 设计动机:t-SNE 可视化显示,对同一 prompt 编码 50 次,query token 完全一致(一个点),但 answer token 分布广泛(decoder-only 的生成不确定性)。完全消除波动会损失 LLM 的推理优势,语义稳定器在保留多样性的同时限制了有害波动。
  3. 端到端训练策略:

    • 功能:高效训练整个 T2V + LLM 集成系统。
    • 核心思路:T5 encoder 和 Phi-3.5 参数均冻结,仅训练 Zero-Conv 层、可学习缩放参数和可学习锚点 token。DiT 的视觉 transformer 参数正常训练。使用 v-prediction + zero SNR 噪声调度。
    • 设计动机:冻结两个大型语言模型大幅减少训练开销,可训练参数仅限于融合模块的少量参数。

损失函数 / 训练策略

  • 标准扩散损失:\(\mathcal{L} = \mathbb{E}[\|\epsilon - \epsilon_\theta(z_t, e \oplus e_s, t)\|_2^2]\),其中 \(e \oplus e_s\) 为融合后的文本条件。
  • 使用 Phi-3.5 mini-instruct 作为 decoder-only LLM,500K 高质量视频片段作为训练数据。

实验关键数据

主实验

VBench 评估:

方法 Background Consistency Aesthetic Quality Object Class Multiple Objects Spatial Relation Temporal Style
CogVideoX-5B 95.60% 60.62% 87.82% 65.70% 64.86% 25.86%
OpenSora 97.20% 58.57% 90.79% 64.81% 76.63% 25.51%
Mimir 97.68% 62.92% 92.87% 85.29% 78.67% 26.22%

用户研究(10人, 20组prompt):

方法 Instruction Following Physics Simulation Visual Quality
CogVideoX-5B 72.15% 57.30% 63.25%
Mimir 82.00% 83.65% 89.65%

消融实验

配置 Object Class Multiple Objects Spatial Relation
Baseline (仅T5) 87.82% 65.70% 64.86%
+ Decoder-only (直接加) 4.97% 0.00% 2.36%
+ Decoder-only + Norm 85.50% 65.24% 59.28%
+ Decoder-only + ZeroConv 92.03% 84.98% 69.17%
+ ZeroConv + SS 91.21% 84.47% 70.16%
Mimir (全部) 92.87% 85.29% 78.67%

关键发现

  • 直接融合 encoder 和 decoder-only token 导致训练崩溃(Object Class 从87%降到5%、Multiple Objects降到0%),证明特征分布不兼容是一个严重问题。
  • Zero-Conv 是最关键组件:仅加 ZeroConv 即可将 Multiple Objects 从 65.70% 提升到 84.98%(+19.3%),效果远超仅做 Normalization(65.24%)。
  • Semantic Stabilizer 对空间关系理解有显著贡献:完整版 Spatial Relation 78.67% vs 无SS的 69.17%。
  • Mimir 在所有 VBench 指标上全面超越所有对比方法,用户研究中在指令遵循、物理模拟和视觉质量三项上均大幅领先。
  • t-SNE 分析清晰揭示了 encoder/decoder-only 特征的分布差异以及 decoder-only 的特征波动性,为融合策略的设计提供了直观依据。

亮点与洞察

  • Zero-Conv 渐进融合策略:训练初始时 decoder-only 分支贡献为零,随训练逐渐增加,避免了分布冲突导致的训练崩溃。这是 ControlNet 思想在文本条件融合上的优雅迁移。
  • 指令 token + 可学习锚点:利用 LLM 的指令遵循能力生成属性特定的语义引导,同时用可学习 token 做视觉-语言空间的桥梁,两者互补。这种设计可推广到任何需要融合异构特征的场景。
  • 首次在视频扩散模型中集成 decoder-only LLM:之前只有图像生成领域尝试过(如 LiDiT、SANA),但都是简单的 adapter 方案。Mimir 的 Token Fuser 解决了视频生成中时序建模带来的额外复杂性。

局限与展望

  • 仅使用 Phi-3.5 mini(3.8B参数),更大的 LLM 可能带来更好的文本理解但也增加计算开销,权衡关系未探索。
  • 训练数据为 500K 视频,规模相对有限,更大规模数据可能进一步提升效果。
  • 4个固定的指令 prompt 是手工设计的,可能并非最优;可以探索自动搜索或自适应指令。
  • 未探索图像生成场景下的效果,理论上 Token Fuser 同样适用于 T2I 模型。
  • 语义稳定器中的可学习 token 数量(=4)的选择缺乏深入分析。

相关工作与启发

  • vs CogVideoX-5B:当前 T2V 领域的强基线,仅使用 T5 作为文本编码器。Mimir 在 Multiple Objects 上大幅超越(85.29% vs 65.70%),证明 LLM 推理能力对复杂场景的理解至关重要。
  • vs LiDiT/SANA:这些 T2I 方法也尝试引入 LLM,但 LiDiT 从头训练 DiT、SANA 使用简单 adapter,均无法处理视频生成中的时序分布问题。Mimir 的 Zero-Conv + SS 策略更稳健。
  • vs ParaDiffusion/LaVi-Bridge:这些方法用 adapter 桥接 Phi3 和 PixArt,作者指出简单 adapter 在视频生成中效果不好,Token Fuser 的设计更为全面。

评分

  • 新颖性: ⭐⭐⭐⭐ Token Fuser 的设计有工程创新价值,但 Zero-Conv 本身非新概念,核心贡献在于将已有技术巧妙组合用于新问题。
  • 实验充分度: ⭐⭐⭐⭐⭐ VBench 量化 + 用户研究 + 详细消融 + t-SNE 可视化分析,实验设计全面透彻。
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,Figure 2/7 的核心概念与分析图非常有说服力。
  • 价值: ⭐⭐⭐⭐ 为 T2V 模型引入 LLM 提供了可行路径,Token Fuser 可复用于其他多源特征融合场景。

相关论文