Wan-Weaver: Interleaved Multi-modal Generation via Decoupled Training¶

会议: CVPR 2026
arXiv: 2603.25706
代码: https://doubiiu.github.io/projects/WanWeaver
领域: 多模态VLM
关键词: 交错多模态生成、解耦训练、文本代理数据、视觉一致性、规划-可视化

一句话总结¶

Wan-Weaver 提出规划器（VLM）+ 可视化器（DiT）的解耦架构，通过大规模文本代理数据训练规划器而非真实交错数据，在 OpenING 上 Overall 8.67 分超越 Nano Banana 的 8.85，在保持理解能力（MMMU 74.9）的同时实现 SOTA 交错文图生成。

研究背景与动机¶

领域现状：交错多模态生成（interleaved text-image generation）需要模型根据用户指令生成穿插文字和图片的连贯内容，如图文教程、故事绘制等。GPT-4o+DALL-E3 通过流水线方式领先，开源方案（Anole、Emu3）差距较大。
现有痛点：(1) 高质量真实交错数据极度稀缺——网页抓取的图文数据质量差且版权风险高；(2) 联合训练文本理解和图像生成容易互相干扰——生成训练损害理解能力；(3) 长序列生成中视觉一致性难以保持——前面生成的角色在后面会"变脸"。
核心矛盾：交错生成需要同时具备"规划能力"（决定何时插图、图的内容描述）和"视觉一致性"（多张图中保持角色/风格一致），两者的训练信号和数据需求完全不同。
本文目标：通过解耦训练分别优化规划和视觉化能力，用合成文本代理数据替代稀缺的真实交错数据。
切入角度：将交错生成分为两个独立可训练的子任务——规划器只需学习"文本中哪里应该插图、图的详细描述是什么"，可以用纯文本代理数据训练；可视化器只需学习"根据描述和参考图生成一致的图片"。
核心 idea：解耦训练（Decoupled Training）+ 文本代理数据（textual-proxy）+ Dense Prompt Context Window（DPCW）注意力机制。

方法详解¶

整体框架¶

用户指令 → 规划器（QWen2.5-VL-32B-Think）生成含 <imagine> 标签的文本+密集图像描述 → 可视化器（Twin DiT）根据密集描述和前序视觉参考生成图像 → DPCW 注意力确保视觉一致性 → 输出交错图文内容。

关键设计¶

解耦训练策略
- 功能：分别优化规划和视觉化，避免训练冲突
- 核心思路：三阶段——(1) 冻结规划器只训练可视化器（文本到图、单图参考、多图参考三种一致性模式）；(2) 冻结可视化器只微调规划器（用文本代理数据，图片替换为密集描述）；(3) DPCW 微调让可视化器适应上下文窗口条件化。训练总计 9.6T token（可视化器）+ 35.72G token（规划器）
- 设计动机：联合训练时视觉损失和文本损失会互相干扰——消融显示解耦训练的视觉损失曲线更平滑（从 ~0.25 降至 0.15 vs 联合训练的震荡）
文本代理数据
- 功能：用纯文本模拟交错数据来训练规划器
- 核心思路：将目标交错数据中的图片替换为 VLM 生成的密集描述，包裹在 <imagine> 标签中。三种数据来源：LLM 生成的用户查询对、VLM 围绕数据库图片生成的查询对、多图叙述（SigLIP聚类后精炼）。生成与理解数据比例 5:1
- 设计动机：高质量真实交错数据不可获取，但文本代理数据可以无限生成——规划器只需学习"何时插图+描述什么"，不需要真正看到图片
Dense Prompt Context Window (DPCW)
- 功能：让可视化器在去噪时关注上下文中的视觉参考
- 核心思路：在密集 prompt 位置周围设置自注意力窗口，通过注意力 mask 策略让当前生成的图像能看到之前的视觉参考特征。使用 3D RoPE 编码时序位置
- 设计动机：标准扩散生成只条件化于当前 prompt，无法利用前序图像的视觉信息来保持一致性

损失函数 / 训练策略¶

可视化器：Flow-matching 损失。规划器：标准自回归交叉熵。可视化器分三阶段递进训练（T2I → +SI2I → +MI2I）。

实验关键数据¶

主实验¶

方法	OpenING Overall ↑	WeaverBench Overall ↑	MMMU (理解)↑	GenEval (T2I)↑	DPG (T2I)↑
Anole	5.75	3.74	-	-	-
Emu3	5.76	-	-	-	-
Gemini+Flux	7.23	-	-	-	-
GPT-4o+DALL-E3	8.20	-	-	-	-
Nano Banana	8.85	8.38	-	-	-
Bagel	-	-	55.3	0.88	85.07
Wan-Weaver	8.67	8.43	74.9	0.89	87.21

消融实验¶

配置	效果	说明
解耦 vs 联合训练	视觉损失 0.15 vs 0.25	解耦更稳定
数据比例 0g1u	token acc ~0%	纯理解数据无生成能力
数据比例 5g1u	最优	生成为主+理解辅助
T2I only	基础文图对齐	无参考能力
+SI2I	外观保持	单图参考
+MI2I	长程视觉一致	完整能力

关键发现¶

Wan-Weaver 保持了接近基座 QWen2.5-VL-32B 的理解能力（MMMU 74.9 vs 75.1），证明解耦训练有效避免了"生成损害理解"
OpenING 8.67 接近甚至某些指标超越 GPT-4o+DALL-E3（8.20），表明开源方案已接近闭源天花板
图像编辑性能（ImgEdit 4.31）大幅超越专用编辑模型 Step1X-Edit（3.06）

亮点与洞察¶

文本代理数据的巧妙设计：用密集描述替代真实图片来训练规划器，完全回避了交错数据稀缺的问题——是一种优雅的"数据降维"思路
解耦训练的工程价值：规划器和可视化器可以独立迭代升级，不需要重新联合训练——系统维护成本大幅降低
理解+生成+编辑三合一：同一个模型在理解(MMMU 74.9)、生成(GenEval 0.89)、编辑(ImgEdit 4.31)上都达到SOTA级别

局限与展望¶

用户必须预先指定生成图像的分辨率和宽高比，不能自适应根据内容决定
顺序生成瓶颈——所有已生成内容需要回馈模型，长序列时GPU内存消耗线性增长
生成能力的提升没有反哺理解能力——双向增强仍是开放问题
偶尔出现结构坍塌（如网格布局替代预期的独立图片），几何推理和符号接地仍有缺陷

评分¶

新颖性: ⭐⭐⭐⭐⭐ 解耦训练+文本代理数据是对交错生成范式的重要创新
实验充分度: ⭐⭐⭐⭐⭐ OpenING+WeaverBench+单模态全面评测+详细消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰但训练细节较密集
价值: ⭐⭐⭐⭐⭐ 开源交错生成接近闭源水平的里程碑式工作