MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning¶
会议: ICLR 2026
arXiv: 2603.02024
代码: 项目页面
领域: 多模态评估基准
关键词: 多模态推理, 多图推理, 真实场景, 推理类型, 基准评估
一句话总结¶
提出 MMR-Life 基准(2646 道 5 选 1 多图选择题,基于 19108 张真实图像,覆盖 7 种推理类型和 21 个任务),首次系统评估 MLLM 在真实生活场景中的多图推理能力,发现最强模型 GPT-5 仅 58.69% 准确率,距人类水平差 14%,并揭示了推理增强方法在大模型上失效、RL 泛化弱于 BoN 等关键发现。
研究背景与动机¶
-
MLLM 推理评估存在两条主流路线,但两者都偏离日常推理场景:
- 知识密集型基准(MMMU、GPQA 等):使用专家级 STEM 题目,日常推理很少需要专业知识
- 合成符号型基准(VisualPuzzles、PuzzleVQA 等):使用拼图/符号图案,与真实视觉场景差距大
-
多图输入严重不足:
- 大多数多模态推理基准仅用单图输入(MMMU 平均 1.05 张),不符合人类从多图序列获取信息的真实感知模式
- 现有多图基准要么包含非推理任务,要么只覆盖有限推理类型(如仅空间推理)
-
核心需求:需要一个全面覆盖多种推理类型、基于真实生活场景、支持多图输入的 MLLM 推理基准
方法详解¶
整体框架¶
MMR-Life 是一个多图多模态推理评估基准,核心设计:
- 规模:2646 道 5 选 1 多选题,基于 19108 张真实生活图像
- 推理覆盖:7 种推理类型、21 个子任务
- 特点:不需领域专业知识,需要整合多图信息并运用多种推理能力
- 平均图片数:每题 7.22 张,远超现有基准
关键设计¶
-
7 种推理类型的系统化分类
- 溯因推理(Abductive):从观察结果反推最合理解释(307 题,11.60%)
- 类比推理(Analogical):发现相似性并推断新情况(568 题,21.47%)
- 因果推理(Causal):从原因推断效果(263 题,9.94%)
- 演绎推理(Deductive):从一般规则推断具体情况(282 题,10.66%)
- 归纳推理(Inductive):从具体观察归纳规律(429 题,16.21%)
- 空间推理(Spatial):理解物体位置和空间关系(255 题,9.64%)
- 时序推理(Temporal):推理事件顺序和时间(542 题,20.48%)
-
数据收集管线(多源 + 多阶段质控)
- 数据来源:公开图像数据集(Kaggle)+ 开放网络资源(eBird 等)+ 公开视频源(抽帧)+ 现有基准数据
- 题目生成:规则自动合成(如时序排列直接用视频帧信息)+ 人工标注(需隐含推理的任务如溯因推理)
- 干扰项生成:图片选项用启发式规则采样错误候选,文本选项用 GPT-5-mini/GPT-4o/Qwen2.5-VL-32B 生成后人工筛选最优 4 个错误选项
- 三阶段质控:难度过滤(三个小模型全答对的题目移除)→ 格式过滤(确保选项长度/格式一致避免 shortcut)→ 质量过滤(人工审核排除歧义/多答案/需专业知识的题目)
-
选项格式设计
- 文本选项:1454 题(54.95%)
- 图片选项:1192 题(45.05%)
- 混合格式避免模型仅依赖文本或仅依赖视觉的 shortcut
损失函数或训练策略¶
本文为评估基准论文,不涉及模型训练。评估采用统一的 zero-shot CoT prompt,开源模型跑 5 次取平均以减少随机波动。
实验设计¶
评估模型¶
| 类别 | 代表模型 | 数量 |
|---|---|---|
| 闭源 + Thinking | GPT-5, Gemini-2.5-Pro, o4-mini, Claude-Sonnet-4 | 6 |
| 闭源 + No Thinking | GPT-4.1, GPT-4o, Claude-3.7-Sonnet, Doubao-1.5-vision | 5 |
| 开源 + Thinking | VL-Rethinker-72B, QVQ-72B, MM-Eureka-32B, MiMo-VL-7B | 6 |
| 开源 + No Thinking | Qwen2.5-VL-7/32/72B, Gemma3-12/27B, InternVL3.5-8B/30B | 7+ |
| 人类 | 12 名不同学历学生,210 题子集 | 12 人 |
与现有基准对比¶
| 基准 | 规模 | 图像类型 | 推理类型 | 知识需求 | 平均图片数 |
|---|---|---|---|---|---|
| MME-Reasoning | 1.2K | 符号图 | 3 种 | 低 | 1 |
| VisualPuzzles | 1.1K | 符号图 | 5 种 | 低 | 1 |
| MMMU | 11.5K | 混合 | - | 高 | 1.05 |
| MMRB | 4.8K | 混合 | 3 种 | 中 | 6.17 |
| MMR-Life | 2.7K | 自然图 | 7 种 | 低 | 7.22 |
实验结果与分析¶
主实验结果(37 个模型)¶
| 模型 | 溯因 | 类比 | 因果 | 演绎 | 归纳 | 空间 | 时序 | 平均 |
|---|---|---|---|---|---|---|---|---|
| 人类 | 79.76 | 57.65 | 75.00 | 70.59 | 63.41 | 79.76 | 79.76 | 72.28 |
| GPT-5 | 53.75 | 78.87 | 41.06 | 80.14 | 78.32 | 17.25 | 41.70 | 58.69 |
| Gemini-2.5-Pro | 54.40 | 73.77 | 36.99 | 79.43 | 73.66 | 25.10 | 35.79 | 56.86 |
| o4-mini | 41.37 | 73.59 | 27.38 | 71.28 | 68.07 | 19.22 | 32.66 | 50.49 |
| Claude-Sonnet-4 | 36.96 | 60.92 | 44.11 | 67.02 | 56.64 | 15.69 | 28.23 | 45.32 |
| GPT-4.1 | 44.30 | 71.30 | 22.43 | 67.38 | 70.16 | 13.73 | 27.31 | 48.15 |
| Qwen2.5-VL-72B | 35.50 | 55.46 | 35.36 | 52.13 | 55.48 | 12.94 | 23.80 | 40.21 |
| VL-Rethinker-72B | 36.48 | 50.88 | 33.08 | 56.03 | 57.58 | 15.69 | 21.59 | 39.68 |
| InternVL3.5-8B | 35.18 | 11.44 | 18.63 | 34.04 | 11.19 | 14.90 | 16.61 | 18.67 |
关键发现:
-
⭐⭐⭐ MMR-Life 极具挑战性:GPT-5 仅 58.69%,距人类 72.28% 差 14 个百分点;几乎所有开源模型低于 40%,部分模型(InternVL3.5-8B 的 18.67%)接近随机猜测水平(20%)
-
⭐⭐⭐ 推理类型间差异巨大:所有模型在空间推理上表现极差(最高仅 25.10% vs 人类 79.76%),但在类比推理和演绎推理上部分闭源模型超越人类。空间/时序/因果推理是当前 MLLM 的显著瓶颈
-
⭐⭐ 开源 Thinking 模型未见改善:开源 thinking 模型平均 27.15%,反而低于 no-thinking 模型的 29.01%,说明开源模型的推理模式在真实场景泛化能力不足
推理范式分析¶
| 分析维度 | 核心发现 |
|---|---|
| Thinking 长度 vs 准确率 | 准确率与 thinking token 数呈对数线性关系,但部分开源 thinking 模型处于低效区域(token 多,准确率低) |
| 长 CoT 是否总有效 | 否——归纳推理使用 CoT 反而变差,类比推理显著受益,推测长 CoT 仅适合需逐步推导的任务 |
| BoN vs GRPO | BoN@8 在所有模型规模上泛化优于 GRPO,GRPO 在大模型上甚至低于基线 CoT |
| 推理类型间相关性 | 类比-归纳高度相关(Pearson \(r=0.97\)),空间推理与其他所有类型低相关(\(r=0.40\)),聚类揭示高阶推理模式 |
推理增强方法对比¶
| 模型 | 方法 | 溯因 | 类比 | 因果 | 演绎 | 归纳 | 空间 | 时序 | 平均 (Δ) |
|---|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL-7B | CoT | 26.06 | 35.74 | 20.53 | 20.92 | 38.93 | 9.41 | 12.18 | 24.68 |
| Qwen2.5-VL-7B | BoN@8 | 27.64 | 44.72 | 22.81 | 25.53 | 48.02 | 13.33 | 13.10 | 29.54 (+4.86) |
| Qwen2.5-VL-72B | CoT | 35.50 | 55.46 | 35.36 | 52.13 | 55.48 | 12.94 | 23.80 | 40.21 |
| Qwen2.5-VL-72B | BoN@8 | 34.20 | 53.35 | 32.70 | 51.77 | 56.88 | 13.73 | 24.72 | 39.80 (-0.41) |
| Qwen2.5-VL-72B | GRPO | 36.48 | 50.88 | 33.08 | 56.03 | 57.58 | 15.69 | 21.59 | 39.68 (-0.53) |
关键发现:
-
⭐⭐⭐ 推理增强方法在大模型上失效:从 7B→32B→72B,SC/BoN/GRPO 相对 CoT 的增益单调递减;72B 模型上 BoN 和 GRPO 反而低于基线 CoT,推测大模型采样正确路径概率已较高,增强方法边际收益递减
-
⭐⭐ RL 泛化弱于 BoN:在所有模型规模上,GRPO 的泛化性均弱于 BoN@8,RL 训练的模型在真实场景推理上可能存在过拟合特定数据集的风险
错误分析(GPT-5 & Gemini-2.5-Pro)¶
| 错误类型 | 占比 | 说明 |
|---|---|---|
| 推理错误 | 32% | 因果倒置(24%)、时序混淆(42%)、遗漏关键步骤(24%) |
| 抽象错误 | 17% | 短程思维能力不足,联想/概括失败 |
| 知识错误 | 17% | 无法调用正确的常识/世界知识辅助推理 |
| 感知错误 | 12% | 颜色/形状等静态属性或运动等动态变化识别失败 |
优点与创新¶
- ⭐⭐⭐ 填补真实场景多图推理空白:首个同时满足"真实生活图像 + 多图输入 + 7 种推理类型"的基准,与日常推理场景高度对齐
- ⭐⭐⭐ 揭示关键研究发现:推理增强方法在大模型失效、RL 泛化弱于 BoN、长 CoT 不总有效等发现对未来研究有重要指导价值
- ⭐⭐ 严格的数据质量控制:三阶段过滤(难度/格式/质量)+ 人工审核,降低 shortcut 和数据污染风险
- ⭐⭐ 推理类型聚类分析:通过相关性分析和层次聚类揭示了推理能力的内在结构(如类比-归纳共享模式、空间推理独立性)
- ⭐ 大规模评估:覆盖 37 个模型,包括最新的 GPT-5、Gemini-2.5-Pro 等
不足与展望¶
- ⭐⭐ 规模相对有限:2646 道题目(部分推理类型仅 250+ 题),细分到子任务后单任务样本量小,可能影响统计显著性
- ⭐⭐ 仅选择题格式:5 选 1 格式存在猜测概率(20%基线),无法评估开放式推理能力
- ⭐ 推理类型边界模糊:溯因推理和因果推理的区分在实际中可能存在重叠,部分题目可能同时涉及多种推理类型
- ⭐ 图片来源多样性:视频抽帧和监控截图占比较高,可能不完全代表日常手持拍摄的真实场景
- ⭐ 缺乏训练信号:仅作为评估基准,未提供训练集指导模型在弱势推理类型上的改进
总结¶
MMR-Life 是首个面向真实生活场景的多模态多图推理基准,系统覆盖 7 种推理类型和 21 个任务。通过对 37 个 MLLM 的大规模评估,揭示了当前模型在空间/时序/因果推理上的显著瓶颈(GPT-5 仅 58.69% vs 人类 72.28%),并发现推理增强方法在大模型上失效、开源 thinking 模型泛化不足等关键洞察。该基准为评估和改进下一代多模态推理系统提供了重要基础。
相关论文¶
- [ACL 2026] When Helpers Become Hazards: A Benchmark for Analyzing Multimodal LLM-Powered Safety in Daily Life
- [ICLR 2026] Reasoning-Driven Multimodal LLM for Domain Generalization
- [ICLR 2026] Enhancing Multi-Image Understanding through Delimiter Token Scaling
- [ICLR 2026] Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes
- [ICLR 2026] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models