Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning¶
会议: CVPR 2026
arXiv: 2603.06688
代码: 待确认
领域: 多模态VLM
关键词: 长程视觉一致性, 叙事生成, AR+Diffusion, Memory Bank, 电商广告
一句话总结¶
提出 Narrative Weaver 框架,结合 MLLM 的叙事规划与扩散模型的精细生成,通过可学习查询和动态 Memory Bank 实现多模态条件下的长程视觉一致性生成,并构建首个电商广告视频分镜数据集 EAVSD(330K+ 图像)。
研究背景与动机¶
- 领域现状:Sora、Veo、Midjourney 等生成式 AI 在短片段图像/视频生成上表现优异,但长程叙事生成(保持角色、背景、风格跨帧一致性)仍是重大挑战。
- 现有痛点:(1) 视频生成在短片段后一致性迅速退化;(2) 图像生成限于单帧操作,无法规划多帧叙事;(3) 已有规划方法依赖纯文本条件,无法实现可控的视觉基础输出。
- 核心矛盾:缺乏统一框架将叙事规划、精细控制和长程一致性三项能力融为一体。同时缺乏大规模多模态条件生成数据集。
- 本文要解决什么:实现 (text, image) → (text, {Image_i}) 的多模态条件长序列一致性生成。
- 切入角度:AR 模型做规划 + 扩散模型做生成的混合架构,关键帧间通过 Memory Bank 传递一致性信息。
- 核心 idea:MLLM 作为"导演"规划叙事并压缩上下文为可学习查询,Memory Bank 锚定初始视觉条件防止漂移,三阶段渐进训练实现数据高效学习。
方法详解¶
整体框架¶
混合 AR + Diffusion 架构:MLLM(Qwen2.5-VL-3B)作为 AR 部分负责文本叙事规划和历史信息编码;Flux.1-Dev 作为扩散部分负责图像生成。输入为条件图像和用户指令,输出为多帧视觉叙事序列。
关键设计¶
- 多模态交互与可学习查询:
- 做什么:MLLM 同时进行叙事规划(生成文本)和高层视觉内容聚合(生成查询向量)
- 核心思路:设计动态因果注意力掩码——文本 token 仅关注之前的文本(标准因果注意力),可学习查询 \(q_n\) 可关注全部多模态上下文(输入 \(\mathbf{I}\)、所有叙事文本 \(\{t_j\}\)、之前查询 \(\{q_k\}\))
- 使用
<img>/</img>特殊 token 标记查询序列,让模型学习何时该生成图像、何时继续规划文本 -
设计动机:防止查询干扰原始文本生成,同时让查询充分吸收多模态信息
-
动态 Memory Bank:
- 做什么:缓存前序生成图像的 VAE 特征,防止视觉漂移
- 核心思路:缓存最近 \(T\) 帧的特征,通过几何衰减的平均池化压缩——第 \(k\) 帧特征长度为 \(l/\lambda^{k-1}\),确保总内存长度有界 \(L < l \cdot \lambda/(\lambda-1)\)
- 最终条件信号:\(\mathbf{C}_n = \text{Concat}(q_n, f^{cond}, \hat{f}_{n-1}, ..., \hat{f}_{n-T})\)
-
设计动机:近期帧保留更多细节(高分辨率),远期帧提供粗粒度上下文(压缩),解耦了一致性和效率的矛盾
-
三阶段渐进训练:
- Stage 1(叙事规划):训练 MLLM 学习文本叙事和生成时机判断,标准交叉熵损失
- Stage 2(语义一致生成):训练可学习查询和投影器,先在 30M 低分辨率文本-图像对上预训练,再在 60K 高质量样本上微调,使用 Flow Matching 目标
- Stage 3(精细一致对齐):全面训练扩散模型,引入条件图像的 VAE 特征和 Memory Bank 特征,继续使用 Flow Matching 目标
效率分析¶
- DiT 计算复杂度从随图像数量二次增长降为线性增长
- 瓶颈转移到高度可优化的 MLLM 部分
- 推理时支持并行规划和生成
实验关键数据¶
GPT-4o 评估(一致性视觉生成)¶
| 方法 | 文本控制 | ITC | RGC | MSSC | MSCC | IMQ |
|---|---|---|---|---|---|---|
| StoryDiffusion | ✗ | 6.54 | 5.86 | 7.48 | 6.00 | 6.80 |
| IP-Adapter | ✗ | 7.11 | 6.10 | 8.57 | 7.57 | 6.65 |
| Flux.1-kontext | ✗ | 7.06 | 9.41 | 8.11 | 7.28 | 6.94 |
| Narrative Weaver | ✓ | 7.54 | 8.86 | 8.67 | 7.91 | 7.35 |
自动评估(DreamSim↓ / CLIP Score↑)¶
| 方法 | DreamSim↓ (Avg) | 说明 |
|---|---|---|
| StoryDiffusion | 56.33 | 多场景生成方法 |
| IP-Adapter | 33.30 | 参考图像方法 |
| Flux.1-kontext | 3.71 | 编辑方法(但有复制粘贴问题) |
| Narrative Weaver | 12.18 | 在多场景生成中最优 |
用户研究¶
- 180+ 份用户偏好调查确认模型优势
- Flux.1-kontext 虽指标好但存在"复制粘贴"行为,用户不偏好
亮点¶
- 首个将叙事规划、精细控制、长程一致性统一的生成框架,填补了重要空白
- 动态因果注意力掩码设计精妙,仅用 ~5K 数据即可学会文本规划
- Memory Bank 的几何衰减压缩保证了有界内存且偏重近期帧
- EAVSD 填补了电商广告分镜数据集的空白(330K+ 图像)
- 三阶段训练策略在有限计算和数据下实现 SOTA,实用性强
- 计算复杂度从二次增长降为线性增长,允许生成更长叙事序列
局限性 / 可改进方向¶
- 当前以关键帧生成为主,关键帧间的过渡视频片段一致性尚未解决
- Qwen2.5-VL-3B 的规划能力可能限制叙事复杂度,更大 MLLM 可能提升上限
- EAVSD 数据集的生成依赖商业模型(Qwen-Image、Flux.1-kontext),可能引入生成偏差
- 可考虑引入人物 ID 保持的专用模块(如 face ID embedding)进一步提升角色一致性
- Memory Bank 的几何衰减率 \(\lambda\) 的选择对不同叙事长度的影响需更多消融
- Stage 3 仅训练 1-2 epoch,更充分的训练可能进一步提升细粒度一致性