MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning¶

会议: ICLR 2026
arXiv: 2603.02024
代码: 项目页面
领域: 多模态评估基准
关键词: 多模态推理, 多图推理, 真实场景, 推理类型, 基准评估

一句话总结¶

提出 MMR-Life 基准（2646 道 5 选 1 多图选择题，基于 19108 张真实图像，覆盖 7 种推理类型和 21 个任务），首次系统评估 MLLM 在真实生活场景中的多图推理能力，发现最强模型 GPT-5 仅 58.69% 准确率，距人类水平差 14%，并揭示了推理增强方法在大模型上失效、RL 泛化弱于 BoN 等关键发现。

研究背景与动机¶

MLLM 推理评估存在两条主流路线，但两者都偏离日常推理场景：
- 知识密集型基准（MMMU、GPQA 等）：使用专家级 STEM 题目，日常推理很少需要专业知识
- 合成符号型基准（VisualPuzzles、PuzzleVQA 等）：使用拼图/符号图案，与真实视觉场景差距大
多图输入严重不足：
- 大多数多模态推理基准仅用单图输入（MMMU 平均 1.05 张），不符合人类从多图序列获取信息的真实感知模式
- 现有多图基准要么包含非推理任务，要么只覆盖有限推理类型（如仅空间推理）
核心需求：需要一个全面覆盖多种推理类型、基于真实生活场景、支持多图输入的 MLLM 推理基准

方法详解¶

整体框架¶

MMR-Life 是一个多图多模态推理评估基准，核心设计：

规模：2646 道 5 选 1 多选题，基于 19108 张真实生活图像
推理覆盖：7 种推理类型、21 个子任务
特点：不需领域专业知识，需要整合多图信息并运用多种推理能力
平均图片数：每题 7.22 张，远超现有基准

关键设计¶

7 种推理类型的系统化分类
- 溯因推理（Abductive）：从观察结果反推最合理解释（307 题，11.60%）
- 类比推理（Analogical）：发现相似性并推断新情况（568 题，21.47%）
- 因果推理（Causal）：从原因推断效果（263 题，9.94%）
- 演绎推理（Deductive）：从一般规则推断具体情况（282 题，10.66%）
- 归纳推理（Inductive）：从具体观察归纳规律（429 题，16.21%）
- 空间推理（Spatial）：理解物体位置和空间关系（255 题，9.64%）
- 时序推理（Temporal）：推理事件顺序和时间（542 题，20.48%）
数据收集管线（多源 + 多阶段质控）
- 数据来源：公开图像数据集（Kaggle）+ 开放网络资源（eBird 等）+ 公开视频源（抽帧）+ 现有基准数据
- 题目生成：规则自动合成（如时序排列直接用视频帧信息）+ 人工标注（需隐含推理的任务如溯因推理）
- 干扰项生成：图片选项用启发式规则采样错误候选，文本选项用 GPT-5-mini/GPT-4o/Qwen2.5-VL-32B 生成后人工筛选最优 4 个错误选项
- 三阶段质控：难度过滤（三个小模型全答对的题目移除）→ 格式过滤（确保选项长度/格式一致避免 shortcut）→ 质量过滤（人工审核排除歧义/多答案/需专业知识的题目）
选项格式设计
- 文本选项：1454 题（54.95%）
- 图片选项：1192 题（45.05%）
- 混合格式避免模型仅依赖文本或仅依赖视觉的 shortcut

损失函数或训练策略¶

本文为评估基准论文，不涉及模型训练。评估采用统一的 zero-shot CoT prompt，开源模型跑 5 次取平均以减少随机波动。

实验设计¶

评估模型¶

类别	代表模型	数量
闭源 + Thinking	GPT-5, Gemini-2.5-Pro, o4-mini, Claude-Sonnet-4	6
闭源 + No Thinking	GPT-4.1, GPT-4o, Claude-3.7-Sonnet, Doubao-1.5-vision	5
开源 + Thinking	VL-Rethinker-72B, QVQ-72B, MM-Eureka-32B, MiMo-VL-7B	6
开源 + No Thinking	Qwen2.5-VL-7/32/72B, Gemma3-12/27B, InternVL3.5-8B/30B	7+
人类	12 名不同学历学生，210 题子集	12 人

与现有基准对比¶

基准	规模	图像类型	推理类型	知识需求	平均图片数
MME-Reasoning	1.2K	符号图	3 种	低	1
VisualPuzzles	1.1K	符号图	5 种	低	1
MMMU	11.5K	混合	-	高	1.05
MMRB	4.8K	混合	3 种	中	6.17
MMR-Life	2.7K	自然图	7 种	低	7.22

实验结果与分析¶

主实验结果（37 个模型）¶

模型	溯因	类比	因果	演绎	归纳	空间	时序	平均
人类	79.76	57.65	75.00	70.59	63.41	79.76	79.76	72.28
GPT-5	53.75	78.87	41.06	80.14	78.32	17.25	41.70	58.69
Gemini-2.5-Pro	54.40	73.77	36.99	79.43	73.66	25.10	35.79	56.86
o4-mini	41.37	73.59	27.38	71.28	68.07	19.22	32.66	50.49
Claude-Sonnet-4	36.96	60.92	44.11	67.02	56.64	15.69	28.23	45.32
GPT-4.1	44.30	71.30	22.43	67.38	70.16	13.73	27.31	48.15
Qwen2.5-VL-72B	35.50	55.46	35.36	52.13	55.48	12.94	23.80	40.21
VL-Rethinker-72B	36.48	50.88	33.08	56.03	57.58	15.69	21.59	39.68
InternVL3.5-8B	35.18	11.44	18.63	34.04	11.19	14.90	16.61	18.67

关键发现：

⭐⭐⭐ MMR-Life 极具挑战性：GPT-5 仅 58.69%，距人类 72.28% 差 14 个百分点；几乎所有开源模型低于 40%，部分模型（InternVL3.5-8B 的 18.67%）接近随机猜测水平（20%）
⭐⭐⭐ 推理类型间差异巨大：所有模型在空间推理上表现极差（最高仅 25.10% vs 人类 79.76%），但在类比推理和演绎推理上部分闭源模型超越人类。空间/时序/因果推理是当前 MLLM 的显著瓶颈
⭐⭐ 开源 Thinking 模型未见改善：开源 thinking 模型平均 27.15%，反而低于 no-thinking 模型的 29.01%，说明开源模型的推理模式在真实场景泛化能力不足

推理范式分析¶

分析维度	核心发现
Thinking 长度 vs 准确率	准确率与 thinking token 数呈对数线性关系，但部分开源 thinking 模型处于低效区域（token 多，准确率低）
长 CoT 是否总有效	否——归纳推理使用 CoT 反而变差，类比推理显著受益，推测长 CoT 仅适合需逐步推导的任务
BoN vs GRPO	BoN@8 在所有模型规模上泛化优于 GRPO，GRPO 在大模型上甚至低于基线 CoT
推理类型间相关性	类比-归纳高度相关（Pearson \(r=0.97\)），空间推理与其他所有类型低相关（\(r=0.40\)），聚类揭示高阶推理模式

推理增强方法对比¶

模型	方法	溯因	类比	因果	演绎	归纳	空间	时序	平均 (Δ)
Qwen2.5-VL-7B	CoT	26.06	35.74	20.53	20.92	38.93	9.41	12.18	24.68
Qwen2.5-VL-7B	BoN@8	27.64	44.72	22.81	25.53	48.02	13.33	13.10	29.54 (+4.86)
Qwen2.5-VL-72B	CoT	35.50	55.46	35.36	52.13	55.48	12.94	23.80	40.21
Qwen2.5-VL-72B	BoN@8	34.20	53.35	32.70	51.77	56.88	13.73	24.72	39.80 (-0.41)
Qwen2.5-VL-72B	GRPO	36.48	50.88	33.08	56.03	57.58	15.69	21.59	39.68 (-0.53)