Narrative Weaver: 可控长程视觉一致性内容生成¶

日期: 2026-03-04
arXiv: 2603.06688
代码: 无
领域: 图像生成
关键词: long-range consistency, narrative planning, autoregressive diffusion, e-commerce, memory bank

一句话总结¶

Narrative Weaver 提出 MLLM Director + Diffusion Decoder 的混合架构，通过记忆银行实现几何衰减的历史上下文管理和渐进式训练策略，在一致性视觉内容生成和自主叙事规划上超越现有方法，计算效率比 vanilla attention 高 5.8 倍。

研究背景与动机¶

领域现状：生成 AI 擅长短内容创作，但在长序列内容（如电影分镜、电商广告）中维持角色一致性和叙事连贯性仍是难题。
现有痛点：(a) 现有方法缺乏统一的叙事规划和视觉一致性控制框架；(b) 长序列生成的 attention 计算 \(O(n^2)\) 增长；(c) 细粒度的视觉 grounded 控制不足。
核心矛盾：叙事规划需要高层语义理解（MLLM 擅长），而视觉生成需要低层细节控制（扩散模型擅长）——二者难以统一。
本文要解决什么？ (1) 统一叙事规划与视觉生成；(2) 计算高效地维持长程一致性；(3) 支持电商等实际应用场景。
切入角度：MLLM 负责叙事规划并输出可学习查询作为视觉条件，记忆银行通过几何衰减 pooling 压缩历史，使计算线性增长。
核心 idea 一句话：用 MLLM 做叙事导演 + 记忆银行做历史管理 + 扩散模型做画面生成，实现长序列一致性内容创作。

方法详解¶

整体框架¶

MLLM Director (Qwen2.5-VL-3B) 接收文本指令和历史图像，生成叙事文本 + 可学习查询 \(Q\) → 记忆银行缓存历史 VAE 特征并几何衰减 → Flux.1-Dev 扩散模型以 \(\mathbf{C}_n = \text{Concat}(q_n, f_{cond}, \hat{f}_{n-1}, \ldots, \hat{f}_{n-T})\) 为条件生成下一张。

关键设计¶

MLLM Director:
- 动态因果注意力掩码：可学习查询可以关注完整多模态上下文，文本 token 用标准因果注意力
- 特殊标记 <img>/</img> 包围可学习查询，标记视觉输出时机
- MLLM 同时输出叙事文本（规划）和视觉查询（控制信号）
记忆银行 (Memory Bank):
- 几何衰减 pooling：距当前帧 \(k\) 步的历史特征长度 \(l/\lambda^{k-1}\)
- 总记忆有界：\(L < l \cdot \lambda/(\lambda-1)\)，保证计算线性增长
- 12 keyframes：995 TFLOPs (ours) vs 5744 TFLOPs (vanilla)，约 5.8× 效率提升
渐进式训练策略:
- Stage 1: 叙事规划 — 仅训练 MLLM 的文本生成，交叉熵损失，5K 数据即可
- Stage 2: 语义一致性 — 训练可学习查询+投影器（2.1: 30M text-image预训练；2.2: 60K 高质量样本微调）
- Stage 3: 细粒度对齐 — 完整扩散模型训练 + 记忆银行特征

EAVSD 数据集¶

首个电商广告视觉故事数据集：~330K 高质量图像，36K 样本，通过 LLM 提示生成 → 参考图生成 → 关键帧合成 → 质量过滤的流水线构建。

实验关键数据¶

主实验¶

OmniGen2 测试集上 GPT-4o 评估（10 分制）：

方法	ITC	RGC	MSSC	MSCC	IMQ
Narrative Weaver	7.54	8.86	8.67	7.82	7.38
Flux.1-Kontext	7.06	9.41	8.11	7.28	6.94
Qwen-Image-Edit	7.46	7.44	8.43	7.81	7.29

CoMM 叙事基准上在 Style/Entity/Trend/Completeness/ImgQ 上均最佳。

消融实验¶

Stage 2	Stage 3	ITC	RGC	Avg
✗	✗	5.99	6.09	7.12
✓	✗	6.05	6.78	7.47
✗	✓	6.19	8.53	8.00
✓	✓	6.39	8.68	8.10

关键发现¶

Stage 3 贡献最大：细粒度对齐（记忆银行）使 RGC 从 6.09 提升到 8.53，是视觉一致性的关键
两个 stage 互补：Stage 2 提供语义基础，Stage 3 在此基础上进一步细化，组合效果最佳
计算效率显著：5.8× 效率提升使长序列生成在实际部署中可行

亮点与洞察¶

"导演+画师"分工：MLLM 做叙事规划输出高层控制信号，扩散模型负责画面细节——这种分工比端到端模型更可控
几何衰减记忆：近期帧保留完整，远期帧逐步压缩——符合"相邻帧更重要"的先验，且严格有界

局限性 / 可改进方向¶

仅支持图像关键帧：尚未扩展到视频片段生成，缺少时间连续性
数据集局限于电商：更广泛的叙事场景（电影、教育）需要新数据
MLLM 导演的叙事质量依赖基底模型能力

评分¶

新颖性: ⭐⭐⭐⭐ MLLM+扩散分工架构和记忆银行设计巧妙
实验充分度: ⭐⭐⭐⭐ 多基准评估+消融+用户研究
写作质量: ⭐⭐⭐⭐ 系统描述清晰
价值: ⭐⭐⭐⭐ 对电商/广告内容自动化有直接应用价值