跳转至

Narrative Weaver: 可控长程视觉一致性内容生成

日期: 2026-03-04
arXiv: 2603.06688
代码: 无
领域: 图像生成
关键词: long-range consistency, narrative planning, autoregressive diffusion, e-commerce, memory bank

一句话总结

Narrative Weaver 提出 MLLM Director + Diffusion Decoder 的混合架构,通过记忆银行实现几何衰减的历史上下文管理和渐进式训练策略,在一致性视觉内容生成和自主叙事规划上超越现有方法,计算效率比 vanilla attention 高 5.8 倍。

研究背景与动机

  1. 领域现状:生成 AI 擅长短内容创作,但在长序列内容(如电影分镜、电商广告)中维持角色一致性和叙事连贯性仍是难题。
  2. 现有痛点:(a) 现有方法缺乏统一的叙事规划和视觉一致性控制框架;(b) 长序列生成的 attention 计算 \(O(n^2)\) 增长;(c) 细粒度的视觉 grounded 控制不足。
  3. 核心矛盾:叙事规划需要高层语义理解(MLLM 擅长),而视觉生成需要低层细节控制(扩散模型擅长)——二者难以统一。
  4. 本文要解决什么? (1) 统一叙事规划与视觉生成;(2) 计算高效地维持长程一致性;(3) 支持电商等实际应用场景。
  5. 切入角度:MLLM 负责叙事规划并输出可学习查询作为视觉条件,记忆银行通过几何衰减 pooling 压缩历史,使计算线性增长。
  6. 核心 idea 一句话:用 MLLM 做叙事导演 + 记忆银行做历史管理 + 扩散模型做画面生成,实现长序列一致性内容创作。

方法详解

整体框架

MLLM Director (Qwen2.5-VL-3B) 接收文本指令和历史图像,生成叙事文本 + 可学习查询 \(Q\) → 记忆银行缓存历史 VAE 特征并几何衰减 → Flux.1-Dev 扩散模型以 \(\mathbf{C}_n = \text{Concat}(q_n, f_{cond}, \hat{f}_{n-1}, \ldots, \hat{f}_{n-T})\) 为条件生成下一张。

关键设计

  1. MLLM Director:

    • 动态因果注意力掩码:可学习查询可以关注完整多模态上下文,文本 token 用标准因果注意力
    • 特殊标记 <img>/</img> 包围可学习查询,标记视觉输出时机
    • MLLM 同时输出叙事文本(规划)和视觉查询(控制信号)
  2. 记忆银行 (Memory Bank):

    • 几何衰减 pooling:距当前帧 \(k\) 步的历史特征长度 \(l/\lambda^{k-1}\)
    • 总记忆有界:\(L < l \cdot \lambda/(\lambda-1)\),保证计算线性增长
    • 12 keyframes:995 TFLOPs (ours) vs 5744 TFLOPs (vanilla),约 5.8× 效率提升
  3. 渐进式训练策略:

    • Stage 1: 叙事规划 — 仅训练 MLLM 的文本生成,交叉熵损失,5K 数据即可
    • Stage 2: 语义一致性 — 训练可学习查询+投影器(2.1: 30M text-image预训练;2.2: 60K 高质量样本微调)
    • Stage 3: 细粒度对齐 — 完整扩散模型训练 + 记忆银行特征

EAVSD 数据集

首个电商广告视觉故事数据集:~330K 高质量图像,36K 样本,通过 LLM 提示生成 → 参考图生成 → 关键帧合成 → 质量过滤的流水线构建。

实验关键数据

主实验

OmniGen2 测试集上 GPT-4o 评估(10 分制):

方法 ITC RGC MSSC MSCC IMQ
Narrative Weaver 7.54 8.86 8.67 7.82 7.38
Flux.1-Kontext 7.06 9.41 8.11 7.28 6.94
Qwen-Image-Edit 7.46 7.44 8.43 7.81 7.29

CoMM 叙事基准上在 Style/Entity/Trend/Completeness/ImgQ 上均最佳。

消融实验

Stage 2 Stage 3 ITC RGC Avg
5.99 6.09 7.12
6.05 6.78 7.47
6.19 8.53 8.00
6.39 8.68 8.10

关键发现

  • Stage 3 贡献最大:细粒度对齐(记忆银行)使 RGC 从 6.09 提升到 8.53,是视觉一致性的关键
  • 两个 stage 互补:Stage 2 提供语义基础,Stage 3 在此基础上进一步细化,组合效果最佳
  • 计算效率显著:5.8× 效率提升使长序列生成在实际部署中可行

亮点与洞察

  • "导演+画师"分工:MLLM 做叙事规划输出高层控制信号,扩散模型负责画面细节——这种分工比端到端模型更可控
  • 几何衰减记忆:近期帧保留完整,远期帧逐步压缩——符合"相邻帧更重要"的先验,且严格有界

局限性 / 可改进方向

  • 仅支持图像关键帧:尚未扩展到视频片段生成,缺少时间连续性
  • 数据集局限于电商:更广泛的叙事场景(电影、教育)需要新数据
  • MLLM 导演的叙事质量依赖基底模型能力

相关工作与启发

  • vs StoryDiffusion: StoryDiffusion 用 attention sharing 做一致性,Narrative Weaver 用记忆银行更高效
  • vs SEED-Llama: 也做自主内容生成但缺乏细粒度一致性控制

评分

  • 新颖性: ⭐⭐⭐⭐ MLLM+扩散分工架构和记忆银行设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 多基准评估+消融+用户研究
  • 写作质量: ⭐⭐⭐⭐ 系统描述清晰
  • 价值: ⭐⭐⭐⭐ 对电商/广告内容自动化有直接应用价值