Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning¶

会议: CVPR 2026
arXiv: 2603.06688
代码: 待确认
领域: 多模态VLM
关键词: 长程视觉一致性, 叙事生成, AR+Diffusion, Memory Bank, 电商广告

一句话总结¶

提出 Narrative Weaver 框架，结合 MLLM 的叙事规划与扩散模型的精细生成，通过可学习查询和动态 Memory Bank 实现多模态条件下的长程视觉一致性生成，并构建首个电商广告视频分镜数据集 EAVSD（330K+ 图像）。

研究背景与动机¶

领域现状：Sora、Veo、Midjourney 等生成式 AI 在短片段图像/视频生成上表现优异，但长程叙事生成（保持角色、背景、风格跨帧一致性）仍是重大挑战。
现有痛点：(1) 视频生成在短片段后一致性迅速退化；(2) 图像生成限于单帧操作，无法规划多帧叙事；(3) 已有规划方法依赖纯文本条件，无法实现可控的视觉基础输出。
核心矛盾：缺乏统一框架将叙事规划、精细控制和长程一致性三项能力融为一体。同时缺乏大规模多模态条件生成数据集。
本文要解决什么：实现 (text, image) → (text, {Image_i}) 的多模态条件长序列一致性生成。
切入角度：AR 模型做规划 + 扩散模型做生成的混合架构，关键帧间通过 Memory Bank 传递一致性信息。
核心 idea：MLLM 作为"导演"规划叙事并压缩上下文为可学习查询，Memory Bank 锚定初始视觉条件防止漂移，三阶段渐进训练实现数据高效学习。

方法详解¶

整体框架¶

混合 AR + Diffusion 架构：MLLM（Qwen2.5-VL-3B）作为 AR 部分负责文本叙事规划和历史信息编码；Flux.1-Dev 作为扩散部分负责图像生成。输入为条件图像和用户指令，输出为多帧视觉叙事序列。

关键设计¶

多模态交互与可学习查询：
做什么：MLLM 同时进行叙事规划（生成文本）和高层视觉内容聚合（生成查询向量）
核心思路：设计动态因果注意力掩码——文本 token 仅关注之前的文本（标准因果注意力），可学习查询 \(q_n\) 可关注全部多模态上下文（输入 \(\mathbf{I}\)、所有叙事文本 \(\{t_j\}\)、之前查询 \(\{q_k\}\)）
使用 <img> / </img> 特殊 token 标记查询序列，让模型学习何时该生成图像、何时继续规划文本
设计动机：防止查询干扰原始文本生成，同时让查询充分吸收多模态信息
动态 Memory Bank：
做什么：缓存前序生成图像的 VAE 特征，防止视觉漂移
核心思路：缓存最近 \(T\) 帧的特征，通过几何衰减的平均池化压缩——第 \(k\) 帧特征长度为 \(l/\lambda^{k-1}\)，确保总内存长度有界 \(L < l \cdot \lambda/(\lambda-1)\)
最终条件信号：\(\mathbf{C}_n = \text{Concat}(q_n, f^{cond}, \hat{f}_{n-1}, ..., \hat{f}_{n-T})\)
设计动机：近期帧保留更多细节（高分辨率），远期帧提供粗粒度上下文（压缩），解耦了一致性和效率的矛盾
三阶段渐进训练：
Stage 1（叙事规划）：训练 MLLM 学习文本叙事和生成时机判断，标准交叉熵损失
Stage 2（语义一致生成）：训练可学习查询和投影器，先在 30M 低分辨率文本-图像对上预训练，再在 60K 高质量样本上微调，使用 Flow Matching 目标
Stage 3（精细一致对齐）：全面训练扩散模型，引入条件图像的 VAE 特征和 Memory Bank 特征，继续使用 Flow Matching 目标

效率分析¶

DiT 计算复杂度从随图像数量二次增长降为线性增长
瓶颈转移到高度可优化的 MLLM 部分
推理时支持并行规划和生成

实验关键数据¶

GPT-4o 评估（一致性视觉生成）¶

方法	文本控制	ITC	RGC	MSSC	MSCC	IMQ
StoryDiffusion	✗	6.54	5.86	7.48	6.00	6.80
IP-Adapter	✗	7.11	6.10	8.57	7.57	6.65
Flux.1-kontext	✗	7.06	9.41	8.11	7.28	6.94
Narrative Weaver	✓	7.54	8.86	8.67	7.91	7.35

自动评估（DreamSim↓ / CLIP Score↑）¶

方法	DreamSim↓ (Avg)	说明
StoryDiffusion	56.33	多场景生成方法
IP-Adapter	33.30	参考图像方法
Flux.1-kontext	3.71	编辑方法（但有复制粘贴问题）
Narrative Weaver	12.18	在多场景生成中最优

用户研究¶

180+ 份用户偏好调查确认模型优势
Flux.1-kontext 虽指标好但存在"复制粘贴"行为，用户不偏好

亮点¶

首个将叙事规划、精细控制、长程一致性统一的生成框架，填补了重要空白
动态因果注意力掩码设计精妙，仅用 ~5K 数据即可学会文本规划
Memory Bank 的几何衰减压缩保证了有界内存且偏重近期帧
EAVSD 填补了电商广告分镜数据集的空白（330K+ 图像）
三阶段训练策略在有限计算和数据下实现 SOTA，实用性强
计算复杂度从二次增长降为线性增长，允许生成更长叙事序列

局限性 / 可改进方向¶

当前以关键帧生成为主，关键帧间的过渡视频片段一致性尚未解决
Qwen2.5-VL-3B 的规划能力可能限制叙事复杂度，更大 MLLM 可能提升上限
EAVSD 数据集的生成依赖商业模型（Qwen-Image、Flux.1-kontext），可能引入生成偏差
可考虑引入人物 ID 保持的专用模块（如 face ID embedding）进一步提升角色一致性
Memory Bank 的几何衰减率 \(\lambda\) 的选择对不同叙事长度的影响需更多消融
Stage 3 仅训练 1-2 epoch，更充分的训练可能进一步提升细粒度一致性