Mixture of States: Routing Token-Level Dynamics for Multimodal Generation¶
会议: CVPR2026 arXiv: 2511.12207 代码: 待确认 领域: 图像生成 关键词: 多模态扩散模型, 动态路由, Mixture of States, 文本到图像生成, 图像编辑, 稀疏交互
一句话总结¶
提出 Mixture of States (MoS)——一种基于可学习 token 级稀疏路由的多模态融合范式,使视觉 token 能在每个去噪步骤自适应地从文本编码器任意层选取隐藏状态,仅用 3-5B 参数即可匹敌或超越 20B 级模型。
研究背景与动机¶
- 模态表征鸿沟:文本模型(对比学习/掩码预测/下一 token 预测)与视觉模型(扩散/流匹配)的训练目标截然不同,对齐两者的异构表征是核心难题。
- 现有融合方式的固有局限:Cross-Attention 仅使用文本编码器最后一层特征,信息量有限;Self-Attention 将文本与视觉 token 拼接处理,计算复杂度随序列长度平方增长,开销过大。
- MoT 的刚性约束:Mixture-of-Transformers 要求文本与视觉分支具有相同深度和隐藏维度,进行严格的层对层对应,无法支持非对称架构。
- 静态条件与动态去噪的失配:现有方法将文本嵌入编码一次后保持不变,但扩散过程的噪声水平和视觉特征在不同时间步动态变化,形成"信息失配"。
- 单一层表征不够精细:实验表明,使用单一固定层的全局嵌入表示所有 token 并非最优,不同 token 应从不同层自适应地获取表征。
- 参数效率需求:现有 SOTA 模型(如 Qwen-Image 20B)虽然性能强大,但参数量巨大,需要更小规模即可达到同等性能的高效方案。
方法详解¶
整体框架¶
MoS 采用双塔架构:理解塔(Understanding Tower, \(\mathcal{U}\))和生成塔(Generation Tower, \(\mathcal{G}\)),通过可学习路由器 \(\mathcal{R}\) 连接。理解塔处理多模态上下文(文本/文本+图像),生成塔负责视觉合成。训练时理解塔冻结,仅训练生成塔和路由器。整个模型用 Rectified Flow Matching 端到端训练:
关键设计:MoS 路由器¶
路由器输入空间:路由器同时接收三种信号——(1) 文本 prompt 嵌入 \(c\)(通过共享投影层+线性层对齐维度);(2) 加噪图像隐变量 \(z_t\)(共享 patchify 层+投影);(3) 去噪时间步 \(t\)(正弦嵌入+投影)。三种信号统一到相同隐藏维度后拼接。
路由器输出空间:对每个 context token,路由器预测一个 logit 矩阵 \(\mathcal{W} \in \mathbb{R}^{m \times n}\)(\(m\) 为理解塔深度,\(n\) 为生成塔深度)。每个条目 \(w_{ij}\) 表示将理解塔第 \(i\) 层状态路由到生成塔第 \(j\) 层的亲和权重。每个 token 独立预测自己的路由矩阵,而非共享全局策略。
轻量级路由器架构:所有输入嵌入经 tokenize、归一化后拼接为序列,通过两层双向自注意力 Transformer 块捕获上下文语义,最后用投影层输出 logit 矩阵。路由器仅 100M 参数,延迟开销可忽略(每次迭代仅 0.008s)。
稀疏 Top-k 选择与 ε-Greedy 探索:对每个生成塔第 \(j\) 层,对 logits 列 \(w_{:,j}\) 做 softmax 归一化,选取权重最高的 top-\(k\) 个理解塔层,加权聚合隐藏状态:
训练时以概率 \(\epsilon\) 随机选取 \(k\) 层(探索),以 \(1-\epsilon\) 概率用 top-\(k\)(利用),防止路由器过早收敛到次优解。推理时 \(\epsilon=0\)。
损失函数¶
标准 Rectified Flow Matching 损失,目标速度 \(v_t = z_1 - z_0\),其中 \(z_t = (1-t)z_0 + tz_1\),\(z_0\) 为 VAE 编码后的图像隐变量,\(z_1 \sim \mathcal{N}(0, I)\)。
任务拓展¶
- MoS-Image(文本到图像):理解塔处理文本,路由器聚合的特征投影后与视觉特征拼接作为 in-context tokens。
- MoS-Edit(图像编辑):理解塔同时处理参考图像和文本指令,生成塔接收高斯噪声和干净参考图像,迭代精炼。
训练策略¶
四阶段渐进式训练:Stage 1 — 512² 低分辨率(1400 A100-days)→ Stage 2 — 1024² 高分辨率 → Stage 3 — 美学微调(10M 高质量数据,100 A100-days)→ Stage 4 — 2048² 超分辨率微调(1M 数据,80 A100-days)。MoS-Edit 额外 50 A100-days。总计约 3000 A100-days,远低于 SD v1.5 的 6250 A100-days。
实验¶
主要结果¶
| 模型 | 交互类型 | 参数量 | GenEval↑ | DPG↑ | GEdit↑ | ImgEdit↑ |
|---|---|---|---|---|---|---|
| Qwen-Image | Self-Attn | 20B | 0.87 | 88.32 | 7.56 | 4.27 |
| SANA-1.5 | Cross-Attn | 4.8B | 0.81 | 84.70 | - | - |
| FLUX.1[Dev] | Self-Attn | 12B | 0.66 | 83.84 | - | - |
| Bagel | MoT | 14B | 0.88 | - | 6.52 | 3.20 |
| MoS-S | MoS | 3B | 0.89 | 86.33 | 7.41 | 4.17 |
| MoS-L | MoS | 5B | 0.90 | 87.01 | 7.86 | 4.33 |
MoS-L (5B) 在 GenEval、GEdit、ImgEdit 上均超越 Qwen-Image (20B),参数量仅为其 1/4。
消融实验¶
| 消融维度 | 关键发现 |
|---|---|
| 路由器输入 | Prompt+Latent+Timestep 全动态条件最优(FID 20.15 vs 仅 Prompt 的 21.12) |
| 预测粒度 | Token 级预测优于 Sample 级(FID 20.17 vs 21.66) |
| 层选择 | 自适应路由显著优于手工固定路由(FID 17.77 vs 21.51) |
| MoS vs MoT | 在相同参数/数据/计算下,MoS 在所有训练阶段一致优于 MoT |
| MoS vs Cross-Attn | GenEval 0.79 vs 0.74,DPG 85.61 vs 83.40 |
关键发现¶
- 路由器的时间步感知能力至关重要——去噪过程的不同阶段需要不同的条件引导。
- Token 级路由模式天然产生多样化策略,无需显式正则化。
- MoS 的路由器延迟开销极小(0.008s/iter),整体推理速度优于 Qwen-Image 和 Bagel。
- 结合 Self-CoT 推理,MoS-L 在 WISE 基准上从 0.54 提升到 0.65。
亮点¶
- 核心创新突出:MoS 路由器将"稀疏、动态、token 级"三个设计原则统一,突破了 MoT 对称架构的刚性约束,实现非对称双塔的灵活融合。
- 极高参数效率:5B 模型匹敌或超越 20B 模型,3000 A100-days 训练成本远低于前代方法。
- 消融设计严谨:逐一验证了动态条件、token 级预测、自适应层选择三个核心假设,说服力强。
- 任务统一:同一框架支持图像生成和图像编辑,理解塔冻结设计保留原有理解能力。
局限性¶
- MoS 目前仅支持单向(理解→生成)交互,双向融合(如联合训练)尚未验证。
- 仅使用 SFT 作为后训练策略,未探索 GRPO/RLHF 等人类偏好对齐方法。
- 生成小物体时仍存在视觉伪影问题。
- 理解塔冻结虽高效,但可能限制了生成塔利用理解表征的上限。
相关工作¶
- Cross-Attention 系列(SD, PixArt-α, SANA-1.5):仅用最终层特征,信息有限。
- Self-Attention 系列(FLUX, Qwen-Image):全序列交互性能强但计算昂贵。
- MoT 系列(LMFusion, Bagel, Mogao):层级共享 KV,但要求对称架构。
- 动态网络(MoE, MoD, MoR):稀疏自适应计算的思想,但主要用于模型内部路由,MoS 将其扩展到模型间协作。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — MoS 路由器是全新的跨模态融合范式,token 级动态稀疏路由的设计理念独到
- 实验充分度: ⭐⭐⭐⭐⭐ — 消融覆盖全面(输入/输出/层选择/效率),多基准多任务评测,与 MoT/Cross-Attn/Self-Attn 均有公平对比
- 写作质量: ⭐⭐⭐⭐⭐ — 三条设计原则层层递进,图示清晰,逻辑严密
- 价值: ⭐⭐⭐⭐⭐ — 4× 参数效率提升具有显著实用意义,为非对称多模态架构提供了通用融合方案