IOMM: Rethinking UMM Visual Generation — Masked Modeling for Efficient Image-Only Pre-training¶

日期: 2026-03-17
arXiv: 2603.16139
代码: GitHub
领域: 多模态/VLM / 图像生成
关键词: 统一多模态模型, 纯图像预训练, 掩码图像建模, Flow Matching, 数据效率

一句话总结¶

提出 IOMM 框架，通过两阶段训练（纯图像自监督预训练 + 混合数据微调）构建统一多模态模型的视觉生成组件，用掩码图像建模防止自条件坍塌，仅 1050 H800 GPU 小时即在 GenEval 上达到 0.89 超越 BAGEL-7B。

研究背景与动机¶

领域现状: 统一多模态模型（UMM）同时具备理解和生成能力（如 BAGEL、BLIP3-o、Qwen-Image），但其视觉生成组件的预训练严重依赖大量高质量文本-图像配对数据，且训练效率低下。
现有痛点: (a) 高质量文本-图像配对数据稀缺且成本高，限制了开源研究的可重复性；(b) 现有训练范式效率低——很多 UMM 需要数万 GPU 小时且大量专有数据。
核心矛盾: 视觉生成预训练需要海量配对数据，但无标签图像数据极其丰富（互联网上几乎无限）——能否用无标签图像完成预训练？
切入角度: 观察到文本条件本质上只提供了稀疏的语义指导，图像本身的视觉特征包含了完整的语义信息。如果用图像自身作为条件，就可以完全摆脱对配对数据的依赖——但需要防止退化为恒等映射。
核心 idea: 用冻结 MLLM 的视觉编码器提取图像特征作为自条件，加上掩码建模（随机遮去部分 patch）将训练转变为"稀疏到稠密"的重建任务，防止坍塌。

方法详解¶

整体框架¶

两阶段训练： 1. Stage 1 (预训练): 纯图像数据，图像自条件 + 掩码建模训练扩散模型 2. Stage 2 (微调): 混合无标签图像 + 少量高质量文本-图像对，提升指令跟随能力

推理时用文本替代图像作为条件，实现 text-to-image 生成。

关键设计¶

图像自条件 (Self-Conditioning):
- 做什么：用图像自身的视觉特征替代文本作为生成条件
- 核心思路：将图像送入冻结 MLLM 的 ViT 编码器得到 patch embedding \(\mathbf{c}_{\text{img}} = \boldsymbol{v}(\mathbf{x})\)，与辅助文本提示（"Generate an image identical to the reference image"）拼接后送入冻结 MLLM 产生条件特征 \(\mathbf{h} = \boldsymbol{g}(\mathbf{c})\)
- 设计动机：图像特征包含比文本更丰富的语义和视觉信息，且无标签图像近乎无限——打破了对配对数据的依赖
掩码图像建模 (Masked Image Modeling):
- 做什么：防止自条件下的恒等映射坍塌
- 核心思路：训练时随机掩去比例 \(r\) 的图像 patch token，\(\mathbf{c}_{\text{img}} \leftarrow \mathbf{c}_{\text{img}} \odot \mathbf{M}\)，模型必须从部分可见的 patch 推断完整图像
- 设计动机：如果提供完整的图像自条件，模型只需学恒等映射（输入=输出），学不到有意义的生成先验。掩码将训练转变为"稀疏到稠密"重建——模拟了文本条件的稀疏性（文本只描述图像的部分信息），让模型学到组合式的视觉理解
残差查询适配器 (Residual Query Adapter, RQA):
- 做什么：在不微调 MLLM 的情况下适配其表示用于生成
- 核心思路：256 个可学习查询 token 通过交叉注意力处理条件序列，产生"残差查询"附加到原始条件中，轻量级仅 29M 参数
- 设计动机：直接用冻结 MLLM 的输出作为扩散模型条件效果差（域失配）；微调整个 MLLM 太贵且可能灾难性遗忘。RQA 是一个轻量的"可学习 prompt"，引导冻结 MLLM 提取更适合生成的特征

六种训练策略系统分析¶

论文对比了 6 种预训练+微调的组合： - 纯文本-图像对预训练 - 纯图像预训练 - 混合预训练 - 各种微调配置 - 结论：图像预训练 + 混合微调最优（Fig.1c）

实验关键数据¶

主实验¶

方法	参数量	GenEval↑	DPGBench↑	WISE↑	GPU 小时
IOMM-B	3.6B	0.89	82.95	0.55	~1050
BAGEL-7B	7B	0.88†	-	0.52	大量
BLIP3-o-4B	4B	0.81	79.36	0.50	大量
BLIP3-o-8B*	8B	0.84	81.60	0.62	大量+30M私有数据
MetaQuery-XL	~8B	0.80†	82.05	0.55	大量
Janus-Pro-7B	7B	0.80	84.19	0.35	-

IOMM-B 用 3.6B 参数和 ~1050 GPU 小时超越远大模型。

GenEval 子项分析¶

方法	单物体	双物体	计数	颜色	位置	颜色属性
IOMM-B	0.99	0.92	0.83	0.94	0.91	0.75
BAGEL-7B	0.98	0.95	0.84	0.95	0.78	0.77

IOMM 在位置理解上显著领先 (+13pp)。

消融实验（组件贡献）¶

配置	GenEval
完整 IOMM-XL	最高
无掩码 (Raw self-conditioning)	显著下降
无 RQA	下降
无混合微调	下降

每个组件都有正贡献。掩码建模最关键——没有它会退化为恒等映射。

训练策略对比¶

策略	GenEval
图像预训练 → 混合微调 (IOMM)	最高
配对数据预训练 → 配对微调	较低
混合预训练 → 混合微调	中等
纯图像端到端	较低

亮点与洞察¶

"文本只是稀疏条件"的洞察：文本对图像的描述本质上是不完整的，这种稀疏性反而是好的——它迫使模型学习组合式理解。掩码建模完美地在纯图像场景中重现了这种稀疏性。
极致数据效率：用 ~12M 无标签图像 + ~60K 配对数据（微调阶段），就超越了依赖大量专有配对数据的竞品。这对开源社区有重大意义。
混合微调策略可迁移：论文在 Qwen-Image 等已有模型上也验证了混合微调的有效性——这是一个通用的提升手段。

局限性 / 可改进方向¶

理解能力未评估：论文只评估了生成能力，作为 UMM 的理解能力（VQA、推理等）是否受影响？
掩码率的选择：论文中掩码率 r 的最优值和对结果的敏感性未充分讨论
与纯文本到图像模型的差距：在 DPGBench 上 IOMM-B (82.95) 仍低于 SD3-Medium (84.08)，说明 UMM 范式在纯生成质量上仍有提升空间

评分¶

新颖性: ⭐⭐⭐⭐ 纯图像预训练 UMM 生成组件是新颖的，掩码建模防坍塌的思路巧妙
实验充分度: ⭐⭐⭐⭐ 6 种训练策略系统对比 + 组件消融 + 多基准评估
写作质量: ⭐⭐⭐⭐ 清晰系统，图表丰富
价值: ⭐⭐⭐⭐⭐ 对开源 UMM 社区有直接推动意义，代码开源、极致效率