跳转至

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

会议: CVPR 2026
arXiv: 2603.06688
代码: 待确认
领域: 多模态VLM
关键词: 长程视觉一致性, 叙事生成, AR+Diffusion, Memory Bank, 电商广告

一句话总结

提出 Narrative Weaver 框架,结合 MLLM 的叙事规划与扩散模型的精细生成,通过可学习查询和动态 Memory Bank 实现多模态条件下的长程视觉一致性生成,并构建首个电商广告视频分镜数据集 EAVSD(330K+ 图像)。

研究背景与动机

  1. 领域现状:Sora、Veo、Midjourney 等生成式 AI 在短片段图像/视频生成上表现优异,但长程叙事生成(保持角色、背景、风格跨帧一致性)仍是重大挑战。
  2. 现有痛点:(1) 视频生成在短片段后一致性迅速退化;(2) 图像生成限于单帧操作,无法规划多帧叙事;(3) 已有规划方法依赖纯文本条件,无法实现可控的视觉基础输出。
  3. 核心矛盾:缺乏统一框架将叙事规划、精细控制和长程一致性三项能力融为一体。同时缺乏大规模多模态条件生成数据集。
  4. 本文要解决什么:实现 (text, image) → (text, {Image_i}) 的多模态条件长序列一致性生成。
  5. 切入角度:AR 模型做规划 + 扩散模型做生成的混合架构,关键帧间通过 Memory Bank 传递一致性信息。
  6. 核心 idea:MLLM 作为"导演"规划叙事并压缩上下文为可学习查询,Memory Bank 锚定初始视觉条件防止漂移,三阶段渐进训练实现数据高效学习。

方法详解

整体框架

混合 AR + Diffusion 架构:MLLM(Qwen2.5-VL-3B)作为 AR 部分负责文本叙事规划和历史信息编码;Flux.1-Dev 作为扩散部分负责图像生成。输入为条件图像和用户指令,输出为多帧视觉叙事序列。

关键设计

  1. 多模态交互与可学习查询
  2. 做什么:MLLM 同时进行叙事规划(生成文本)和高层视觉内容聚合(生成查询向量)
  3. 核心思路:设计动态因果注意力掩码——文本 token 仅关注之前的文本(标准因果注意力),可学习查询 \(q_n\) 可关注全部多模态上下文(输入 \(\mathbf{I}\)、所有叙事文本 \(\{t_j\}\)、之前查询 \(\{q_k\}\)
  4. 使用 <img> / </img> 特殊 token 标记查询序列,让模型学习何时该生成图像、何时继续规划文本
  5. 设计动机:防止查询干扰原始文本生成,同时让查询充分吸收多模态信息

  6. 动态 Memory Bank

  7. 做什么:缓存前序生成图像的 VAE 特征,防止视觉漂移
  8. 核心思路:缓存最近 \(T\) 帧的特征,通过几何衰减的平均池化压缩——第 \(k\) 帧特征长度为 \(l/\lambda^{k-1}\),确保总内存长度有界 \(L < l \cdot \lambda/(\lambda-1)\)
  9. 最终条件信号:\(\mathbf{C}_n = \text{Concat}(q_n, f^{cond}, \hat{f}_{n-1}, ..., \hat{f}_{n-T})\)
  10. 设计动机:近期帧保留更多细节(高分辨率),远期帧提供粗粒度上下文(压缩),解耦了一致性和效率的矛盾

  11. 三阶段渐进训练

  12. Stage 1(叙事规划):训练 MLLM 学习文本叙事和生成时机判断,标准交叉熵损失
  13. Stage 2(语义一致生成):训练可学习查询和投影器,先在 30M 低分辨率文本-图像对上预训练,再在 60K 高质量样本上微调,使用 Flow Matching 目标
  14. Stage 3(精细一致对齐):全面训练扩散模型,引入条件图像的 VAE 特征和 Memory Bank 特征,继续使用 Flow Matching 目标

效率分析

  • DiT 计算复杂度从随图像数量二次增长降为线性增长
  • 瓶颈转移到高度可优化的 MLLM 部分
  • 推理时支持并行规划和生成

实验关键数据

GPT-4o 评估(一致性视觉生成)

方法 文本控制 ITC RGC MSSC MSCC IMQ
StoryDiffusion 6.54 5.86 7.48 6.00 6.80
IP-Adapter 7.11 6.10 8.57 7.57 6.65
Flux.1-kontext 7.06 9.41 8.11 7.28 6.94
Narrative Weaver 7.54 8.86 8.67 7.91 7.35

自动评估(DreamSim↓ / CLIP Score↑)

方法 DreamSim↓ (Avg) 说明
StoryDiffusion 56.33 多场景生成方法
IP-Adapter 33.30 参考图像方法
Flux.1-kontext 3.71 编辑方法(但有复制粘贴问题)
Narrative Weaver 12.18 在多场景生成中最优

用户研究

  • 180+ 份用户偏好调查确认模型优势
  • Flux.1-kontext 虽指标好但存在"复制粘贴"行为,用户不偏好

亮点

  • 首个将叙事规划、精细控制、长程一致性统一的生成框架,填补了重要空白
  • 动态因果注意力掩码设计精妙,仅用 ~5K 数据即可学会文本规划
  • Memory Bank 的几何衰减压缩保证了有界内存且偏重近期帧
  • EAVSD 填补了电商广告分镜数据集的空白(330K+ 图像)
  • 三阶段训练策略在有限计算和数据下实现 SOTA,实用性强
  • 计算复杂度从二次增长降为线性增长,允许生成更长叙事序列

局限性 / 可改进方向

  • 当前以关键帧生成为主,关键帧间的过渡视频片段一致性尚未解决
  • Qwen2.5-VL-3B 的规划能力可能限制叙事复杂度,更大 MLLM 可能提升上限
  • EAVSD 数据集的生成依赖商业模型(Qwen-Image、Flux.1-kontext),可能引入生成偏差
  • 可考虑引入人物 ID 保持的专用模块(如 face ID embedding)进一步提升角色一致性
  • Memory Bank 的几何衰减率 \(\lambda\) 的选择对不同叙事长度的影响需更多消融
  • Stage 3 仅训练 1-2 epoch,更充分的训练可能进一步提升细粒度一致性