MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models¶

会议: CVPR 2026
arXiv: 2602.19497
代码: https://github.com/Angusliuuu/MICON-Bench
领域: 图像生成 / 多模态评估
关键词: 多图上下文生成, 统一多模态模型, benchmark, 动态注意力重平衡, 检查点评估

一句话总结¶

提出 MICON-Bench，覆盖 6 项任务（1043 案例）的多图上下文生成基准，配合 MLLM 驱动的 Evaluation-by-Checkpoint 自动评估框架；同时提出 DAR（Dynamic Attention Rebalancing）训练无关机制，通过动态调整推理时注意力权重提升 UMM 的多图生成一致性和质量。

研究背景与动机¶

领域现状：UMM 已能处理多图输入并生成上下文一致的视觉输出，代表模型有 Nano-Banana、GPT-Image、BAGEL、OmniGen2。但多图上下文生成能力缺乏系统评估。

评估空白：现有基准（GenEval、T2ICompBench、ImgEdit-Bench）主要评文生图或单图编辑，不涉及跨图一致性和复杂视觉关系推理。OmniContext 虽有多图但仅限简单主体组合。

技术痛点：UMM 在多图输入时倾向于均匀分配注意力到所有参考图所有区域，包括无关区域，导致幻觉和不一致。

核心idea：(a) 6 项标准化任务 + 可验证检查点评估系统；(b) 注意力重平衡在推理时调整焦点。

方法详解¶

MICON-Bench 基准设计¶

6 项任务（5 组合 + 1 复杂推理）：

任务	描述	案例数	参考图数
Object Composition	单主体 + 背景组合	200	2-3
Spatial Composition	多物体空间关系约束	200	2-3
Attribute Disentanglement	主体/风格/背景解耦重组	100	3
Component Transfer	部件/配饰跨图迁移	240	2-3
FG/BG Composition	前景+背景融合	200	2
Story Generation	因果推理续写故事	103	2-3
总计		1043	2518张

Evaluation-by-Checkpoint 框架¶

为每个案例定义可验证检查点，涵盖七个维度：指令遵循、身份一致、结构、跨参考一致性、因果性、文本锚定、整体可用性
MLLM（Qwen3-VL-32B）作为验证器，每个检查点判 pass/fail，最终分数为通过率均值
Story 任务额外设预定义答案集评估推理能力

Dynamic Attention Rebalancing (DAR)¶

问题诊断：UMM 注意力常不加区分地关注参考图中无关区域，导致幻觉
高效注意力分析:
- 均匀采样 \(m \ll L_q\) 个查询 token（默认 m=64），计算与参考图 key token 的注意力图
- 总注意力分数：\(r_k = \sum_{i=1}^{m}\sum_{h=1}^{H} \tilde{A}_{i,h,k}\)
- Min-max 归一化得 \(\hat{r}_k\)
动态权重调整:
- 双阈值三类划分：\(w_k = 1+\gamma\) (若 \(\hat{r}_k \geq \tau_{high}\))，\(w_k = 1-\gamma\) (若 \(\hat{r}_k \leq \tau_{low}\))，否则 \(w_k = 1\)
- 调整后注意力：\(A = \text{softmax}\left(\frac{Q(w \odot K_{ref})^\top}{\sqrt{d}}\right)\)
- 默认 \(\gamma=0.15\), \(\tau_{high}=0.7\), \(\tau_{low}=0.3\)
设计优势：训练无关、即插即用、计算开销极小（仅采样 64 个 query）

实验关键数据¶

主实验：MICON-Bench 各任务评分¶

模型	Object	Spatial	Attribute	Component	FG/BG	Story	Avg↑
Nano-Banana	95.60	93.79	92.13	84.23	83.13	82.84	89.25
GPT-Image	96.45	94.41	93.39	87.69	85.99	91.51	90.15
UNO	58.40	66.68	65.28	28.84	20.96	39.08	44.76
DreamOmni2	88.24	84.76	85.28	59.64	76.16	59.58	75.56
BAGEL	87.64	89.96	89.84	52.40	64.64	65.09	73.55
BAGEL + DAR	88.04	91.88	90.76	56.06	71.24	66.34	76.31
OmniGen2	89.52	80.32	81.64	44.76	57.96	60.96	67.83
OmniGen2 + DAR	89.84	81.00	82.12	48.72	59.28	60.73	69.21

OmniContext 基准¶

方法	SINGLE Char/Obj	MULTIPLE Char/Obj	SCENE Char/Obj	Avg↑
OmniGen2	8.18/7.33	6.56/7.99	6.87/7.90	7.53
OmniGen2+DAR	8.30/8.19	6.64/8.42	7.06/7.97	7.77
BAGEL	5.71/6.22	3.03/6.90	4.24/5.16	5.54
BAGEL+DAR	6.26/6.08	4.14/7.18	4.78/4.84	5.80

XVerseBench 基准¶

方法	Single-Subject Avg↑	Multi-Subject Avg↑	Overall↑
OmniGen2	52.53	49.76	51.14
OmniGen2+DAR	53.24	50.23	51.73
BAGEL	47.91	42.62	45.26
BAGEL+DAR	48.54	43.91	46.23

关键发现¶

MICON-Bench 有效区分模型：GPT-Image 最强（90.15），扩散模型 UNO 最弱（44.76）
DAR 对 BAGEL 提升最显著：Avg +2.76（73.55→76.31），FG/BG 单项 +6.60
DAR 在三个不同基准（MICON-Bench、OmniContext、XVerseBench）均一致提升，泛化性好
Component Transfer 和 FG/BG 是最具挑战性任务，即使顶级模型也仅 84-88 分
开源模型与闭源模型差距仍显著（BAGEL 73.55 vs GPT-Image 90.15）

亮点与洞察¶

首个系统性多图上下文生成基准：6 任务覆盖从简单组合到因果推理的完整难度谱
Evaluation-by-Checkpoint 范式：细粒度、可量化、可扩展，比图像级指标更客观
DAR 机制简洁有效：仅采样 64 查询 token + 双阈值重加权即可显著提升，零训练开销
暴露了 UMM 在多图推理中的注意力分配盲区，为未来模型设计提供方向

局限性¶

DAR 阈值 \(\tau_{high}, \tau_{low}\) 和调制因子 \(\gamma\) 需手动设置，未探索自适应方案
Story Generation 任务样本量较少（103 例）
基准数据由 Qwen-Image + GPT-4o 生成，可能引入生成模型偏差
未评估 3D 一致性和时序连续性等更高阶要求

评分¶

新颖性: ⭐⭐⭐⭐ 首个多图上下文生成基准 + 即插即用 DAR
实验充分度: ⭐⭐⭐⭐⭐ 7+ 模型 + 3 基准 + 多指标 + 全面对比
写作质量: ⭐⭐⭐⭐ 任务定义清晰评估流程完善
实用价值: ⭐⭐⭐⭐ 基准推动评估标准化，DAR 即插即用