UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?¶

日期: 2026-03-03
arXiv: 2603.03241
代码: https://nssmd.github.io/unig2u.github.io/
领域: 多模态/VLM
关键词: 统一多模态模型, 生成辅助理解, 基准评测, VLM, G2U

一句话总结¶

UniG2U-Bench 是目前最大的统一多模态模型评测基准（3000 样本、30 子任务、30+ 模型），系统验证了"生成是否帮助理解"——结论是统一模型通常不如基础 VLM，但在空间智能、视觉错觉和多轮推理等特定任务上生成能力带来一致的提升。

领域现状：统一多模态模型（Bagel、Janus、Show-o）将理解和生成统一在单一架构中，生成质量令人印象深刻。
现有痛点：(1) "生成是否帮助理解"这个问题基本未被研究——现有工作只研究了"理解帮助生成"的单向关系；(2) 现有基准（MME-Unify、Uni-MMMU）分别评估理解和生成，不测试二者的协同效应；(3) 模型骨干和规模差异混淆了对统一训练效果的判断。
核心矛盾：统一模型引入生成目标可能损害理解性能（模态竞争），但某些需要视觉外化推理的任务可能受益。缺乏系统性基准来区分这两类场景。
切入角度：严格将统一模型与其基础 VLM 配对比较，消除骨干差异，在 7 类推理体制下精确隔离 G2U 增益。
核心 idea 一句话：构建 G2U 专门基准，通过统一模型 vs 基础 VLM 配对+直接推理 vs 先生成再回答两种模式，量化"生成帮助理解"的条件和程度。

三大类模型（端到端统一 E2E、解耦统一 Decoupled、代理式统一 UM-Ag）× 两种推理模式（Direct、Generate-then-Answer GtA）× 7 类 30 子任务。严格配对：每个统一模型对比其基础 VLM。

G2U 形式化定义：
- G2U 增益：\(\Delta_{\text{G2U}}(M_{UM}; \mathcal{D}) = \text{Perf}(M_{UM}; \mathcal{D}) - \text{Perf}(\mathcal{B}(M_{UM}); \mathcal{D})\)
- 分解为直接增益 \(\Delta_{\text{Direct}}\)（统一训练带来的内在能力变化）和 GtA 增益 \(\Delta_{\text{GtA}}\)（显式生成中间图像带来的额外效果）
- 新指标：Reasoning-Alignment（RA）和 Answer-Alignment（AL）量化中间生成图像的质量
7 类推理体制：
- 现实应用（200 样本）：注意力聚焦、视觉最短路径
- 几何推理（200 样本）：平面几何、立体几何——辅助线等中间构造可能有帮助
- 物理推理（200 样本）：力学、光学——需要图解推理
- 谜题与游戏（537 样本）：迷宫、拼图、滑动谜题——状态跟踪需要外化
- 图表推理（100 样本）：ChartQA
- 空间智能（500 样本）：多步空间推理、属性测量、运动感知
- 感知推理（1263 样本）：视觉错觉、形状推理、类比推理
模型分类法：
- E2E（端到端统一）：Bagel、UniPic2 等——参数共享，联合训练
- Decoupled（解耦）：Bagel 两阶段、OneCAT——模块分离
- UM-Ag（代理式）：GPT-4o + 图像工具——协议级统一，无联合训练

模型对	基础 VLM	统一模型	Δ
Qwen2.5-VL → Bagel	67.2	64.8	-2.4
InternVL3 → UniPic2	65.5	63.1	-2.4
平均 (所有配对)	—	—	负