Mixture of States (MoS): Routing Token-Level Dynamics for Multimodal Generation¶

会议: CVPR 2026
arXiv: 2511.12207
代码: 无（但基于开源组件）
领域: 图像生成 / 多模态融合 / 扩散模型
关键词: 多模态融合, 状态路由, T2I/图像编辑, 非对称Transformer, token级动态

一句话总结¶

提出Mixture of States (MoS)——一种新的多模态扩散模型融合范式，用可学习的token级路由器将理解塔(冻结LLM/VLM)的任意层hidden state动态路由到生成塔(DiT)的任意层，以3-5B参数在图像生成和编辑上匹配或超越20B的Qwen-Image。

背景与动机¶

多模态扩散模型的核心挑战是文本/视觉信号的有效对齐。现有融合方式各有缺陷：(1) Cross-Attention仅用最终层特征,信息有限；(2) Self-Attention将文本视觉token拼接处理,计算\(O(n^2)\)昂贵；(3) MoT(Mixture-of-Transformers)层对层共享KV,要求两个塔结构对称、深度相同,极不灵活。三个关键设计原则被忽视：层选择应自适应而非固定、条件信号应随去噪时刻动态变化、条件信号应token级个性化。

核心问题¶

能否设计一种灵活的跨模态融合机制，允许理解塔和生成塔完全非对称（不同深度、不同宽度），且融合方式动态适应输入内容和去噪进度？

方法详解¶

整体框架¶

双塔设计：理解塔\(\mathcal{U}\)（冻结的PLM-8B/InternVL-14B）处理文本/图像条件,生成塔\(\mathcal{G}\)（从头训练的3B/5B DiT）进行扩散去噪。轻量路由器\(\mathcal{R}\)（仅100M参数,2个Transformer块）根据(prompt, 噪声图像\(z_t\), 时刻\(t\))动态决定理解塔哪些层的hidden state被路由到生成塔的哪些层。

关键设计¶

Token级稀疏路由：每个context token独立预测一个logit矩阵\(\mathcal{W} \in \mathbb{R}^{m \times n}\)（\(m\)=理解塔层数, \(n\)=生成塔层数），每个\(w_{ij}\)表示将理解塔第\(i\)层路由到生成塔第\(j\)层的权重。softmax归一化后top-k（\(k=2\)）选择,仅传递最相关的两层hidden state。关键发现：token级路由比sample级路由好(FID 20.17 vs 21.66),因为不同token需要不同层的特征。
时刻敏感的路由：路由器接收三个输入——文本prompt、噪声潜变量\(z_t\)、去噪时刻\(t\)。消融证实三者都不可或缺(FID: 仅prompt 21.12 → +latent 21.89 → +timestep 20.15)。可视化显示路由模式随去噪进展变化：早期稀疏选择特定层,后期趋向平均权重——与扩散模型"先结构后细节"的去噪模式一致。
\(\epsilon\)-greedy探索训练：以\(\epsilon=0.05\)概率随机选择层（而非top-k），防止路由器陷入局部最优。消融显示\(\epsilon\)-greedy加速收敛且最终性能更好。\(k=2\)最优——\(k=1\)过于局部,\(k \geq 3\)稀释信息。

损失函数 / 训练策略¶

Rectified flow matching标准训练: \(\mathbb{E}[\|v_t - \mathcal{G}(z_t, t, \mathcal{R}(\cdot))\|^2]\)。四阶段渐进训练: 512²(1400 A100-days) → 1024²(等量) → 美学微调(100 A100-days) → 2048²超分(80 A100-days)。总计~3000 A100-days——远低于SD1.5的6250 A100-days。

实验关键数据¶

方法	参数	融合类型	GenEval↑	DPG↑	oneIG↑	ImgEdit↑
FLUX.1[Dev]	12B	Self-Attn	0.66	83.84	0.43	—
SANA-1.5	4.8B	Cross-Attn	0.81	84.70	0.33	—
Bagel	14B	MoT	0.88	—	0.36	3.20
Qwen-Image	20B	Self-Attn	0.87	88.32	0.54	4.27
MoS-S	3B	MoS	0.89	86.33	0.50	4.17
MoS-L	5B	MoS	0.90	87.01	0.52	4.33

MoS-L(5B)在GenEval 0.90、ImgEdit 4.33上甚至超越Qwen-Image(20B)——参数量仅1/4。

消融实验要点¶

MoS > MoT > Cross-Attn: FID 17.77 vs 21.66(手工), GenEval 0.79 vs 0.74(Cross-Attn)
非对称塔的优势: 理解塔可独立scaling(8B→14B提升一致),MoT无法做到
路由器开销极低: 仅0.008s/iter,几乎可忽略
总延迟更低: MoS < Qwen-Image ≈ Bagel(因为理解塔仅执行一次)
编辑任务同理有效: 双塔各取reference image的不同粒度信息(语义 vs 像素)

亮点¶

MoS突破了MoT的对称约束 —— 允许完全异构的理解/生成塔自由组合,这对实际部署极有价值
"理解塔冻结+仅训练生成塔"策略大幅降低训练成本——3000 A100-days创建SOTA级模型
Token级时刻敏感路由是对扩散模型融合方式的范式转变——不再是"一个embedding处理所有去噪步骤"
路由器可视化提供了跨模态交互的可解释性窗口——不同token/不同时刻确实需要不同层的特征
5B > 20B的效率故事非常compelling——计算效率是产业界最关注的

局限性 / 可改进方向¶

目前仅支持理解塔→生成塔的单向路由,双向MoS可能更强
未探索RLHF/GRPO等人类偏好对齐技术
小物体生成仍有瑕疵（视觉artifact）
未探索与量化/蒸馏/特征缓存等效率技术的组合
仅验证了图像生成/编辑,视频生成的MoS有待开发

与相关工作的对比¶

vs MoT (Bagel/LMFusion)：MoT要求对称塔+层层对应,限制灵活性。MoS通过路由器实现任意层到任意层的稀疏连接,且3B就超越14B的Bagel
vs Cross-Attention (SANA/PixArt)：Cross-Attn仅用最终层embedding,静态且信息量有限。MoS动态选择所有层的hidden state
vs Self-Attention (FLUX/SD3)：Self-Attn计算昂贵且也是静态embedding。MoS计算更少(生成塔更小)且动态适应
vs Qwen-Image (20B)：Qwen-Image性能强但参数量4×。MoS-L(5B)匹配或超越其性能

启发与关联¶

MoS的"异构塔+路由器"架构可直接推广到视频生成——理解塔处理文本/首帧,路由器随时间步和帧位置动态调整
与LinVideo正交互补——LinVideo将softmax替换为linear attention加速,MoS减少整体参数量,二者可组合
Token级路由的思想可以启发VLM推理中的跨模态交互——目前VLM也是固定层融合,动态路由可能提升效率

评分¶

新颖性: ⭐⭐⭐⭐⭐ MoS作为新的融合范式,突破对称约束且token/timestep级路由均为原创
实验充分度: ⭐⭐⭐⭐⭐ 全面消融(路由输入/输出/架构/稀疏度/scaling)、多任务(生成+编辑)、多基准(GenEval/DPG/WISE/oneIG/ImgEdit/GEdit)
写作质量: ⭐⭐⭐⭐⭐ 三大设计原则→MoS设计→系统消融→SOTA结果的逻辑链完美
价值: ⭐⭐⭐⭐⭐ 5B=20B的效率故事+可解释的路由+范式创新=对图像生成领域影响巨大