跳转至

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

会议: ICLR 2026
arXiv: 2603.02024
代码: 项目页面
领域: 多模态评估基准
关键词: 多模态推理, 多图推理, 真实场景, 推理类型, 基准评估

一句话总结

提出 MMR-Life 基准(2646 道 5 选 1 多图选择题,基于 19108 张真实图像,覆盖 7 种推理类型和 21 个任务),首次系统评估 MLLM 在真实生活场景中的多图推理能力,发现最强模型 GPT-5 仅 58.69% 准确率,距人类水平差 14%,并揭示了推理增强方法在大模型上失效、RL 泛化弱于 BoN 等关键发现。

研究背景与动机

  1. MLLM 推理评估存在两条主流路线,但两者都偏离日常推理场景:

    • 知识密集型基准(MMMU、GPQA 等):使用专家级 STEM 题目,日常推理很少需要专业知识
    • 合成符号型基准(VisualPuzzles、PuzzleVQA 等):使用拼图/符号图案,与真实视觉场景差距大
  2. 多图输入严重不足:

    • 大多数多模态推理基准仅用单图输入(MMMU 平均 1.05 张),不符合人类从多图序列获取信息的真实感知模式
    • 现有多图基准要么包含非推理任务,要么只覆盖有限推理类型(如仅空间推理)
  3. 核心需求:需要一个全面覆盖多种推理类型、基于真实生活场景、支持多图输入的 MLLM 推理基准

方法详解

整体框架

MMR-Life 是一个多图多模态推理评估基准,核心设计:

  1. 规模:2646 道 5 选 1 多选题,基于 19108 张真实生活图像
  2. 推理覆盖:7 种推理类型、21 个子任务
  3. 特点:不需领域专业知识,需要整合多图信息并运用多种推理能力
  4. 平均图片数:每题 7.22 张,远超现有基准

关键设计

  1. 7 种推理类型的系统化分类

    • 溯因推理(Abductive):从观察结果反推最合理解释(307 题,11.60%)
    • 类比推理(Analogical):发现相似性并推断新情况(568 题,21.47%)
    • 因果推理(Causal):从原因推断效果(263 题,9.94%)
    • 演绎推理(Deductive):从一般规则推断具体情况(282 题,10.66%)
    • 归纳推理(Inductive):从具体观察归纳规律(429 题,16.21%)
    • 空间推理(Spatial):理解物体位置和空间关系(255 题,9.64%)
    • 时序推理(Temporal):推理事件顺序和时间(542 题,20.48%)
  2. 数据收集管线(多源 + 多阶段质控)

    • 数据来源:公开图像数据集(Kaggle)+ 开放网络资源(eBird 等)+ 公开视频源(抽帧)+ 现有基准数据
    • 题目生成:规则自动合成(如时序排列直接用视频帧信息)+ 人工标注(需隐含推理的任务如溯因推理)
    • 干扰项生成:图片选项用启发式规则采样错误候选,文本选项用 GPT-5-mini/GPT-4o/Qwen2.5-VL-32B 生成后人工筛选最优 4 个错误选项
    • 三阶段质控:难度过滤(三个小模型全答对的题目移除)→ 格式过滤(确保选项长度/格式一致避免 shortcut)→ 质量过滤(人工审核排除歧义/多答案/需专业知识的题目)
  3. 选项格式设计

    • 文本选项:1454 题(54.95%)
    • 图片选项:1192 题(45.05%)
    • 混合格式避免模型仅依赖文本或仅依赖视觉的 shortcut

损失函数或训练策略

本文为评估基准论文,不涉及模型训练。评估采用统一的 zero-shot CoT prompt,开源模型跑 5 次取平均以减少随机波动。

实验设计

评估模型

类别 代表模型 数量
闭源 + Thinking GPT-5, Gemini-2.5-Pro, o4-mini, Claude-Sonnet-4 6
闭源 + No Thinking GPT-4.1, GPT-4o, Claude-3.7-Sonnet, Doubao-1.5-vision 5
开源 + Thinking VL-Rethinker-72B, QVQ-72B, MM-Eureka-32B, MiMo-VL-7B 6
开源 + No Thinking Qwen2.5-VL-7/32/72B, Gemma3-12/27B, InternVL3.5-8B/30B 7+
人类 12 名不同学历学生,210 题子集 12 人

与现有基准对比

基准 规模 图像类型 推理类型 知识需求 平均图片数
MME-Reasoning 1.2K 符号图 3 种 1
VisualPuzzles 1.1K 符号图 5 种 1
MMMU 11.5K 混合 - 1.05
MMRB 4.8K 混合 3 种 6.17
MMR-Life 2.7K 自然图 7 种 7.22

实验结果与分析

主实验结果(37 个模型)

模型 溯因 类比 因果 演绎 归纳 空间 时序 平均
人类 79.76 57.65 75.00 70.59 63.41 79.76 79.76 72.28
GPT-5 53.75 78.87 41.06 80.14 78.32 17.25 41.70 58.69
Gemini-2.5-Pro 54.40 73.77 36.99 79.43 73.66 25.10 35.79 56.86
o4-mini 41.37 73.59 27.38 71.28 68.07 19.22 32.66 50.49
Claude-Sonnet-4 36.96 60.92 44.11 67.02 56.64 15.69 28.23 45.32
GPT-4.1 44.30 71.30 22.43 67.38 70.16 13.73 27.31 48.15
Qwen2.5-VL-72B 35.50 55.46 35.36 52.13 55.48 12.94 23.80 40.21
VL-Rethinker-72B 36.48 50.88 33.08 56.03 57.58 15.69 21.59 39.68
InternVL3.5-8B 35.18 11.44 18.63 34.04 11.19 14.90 16.61 18.67

关键发现

  1. ⭐⭐⭐ MMR-Life 极具挑战性:GPT-5 仅 58.69%,距人类 72.28% 差 14 个百分点;几乎所有开源模型低于 40%,部分模型(InternVL3.5-8B 的 18.67%)接近随机猜测水平(20%)

  2. ⭐⭐⭐ 推理类型间差异巨大:所有模型在空间推理上表现极差(最高仅 25.10% vs 人类 79.76%),但在类比推理和演绎推理上部分闭源模型超越人类。空间/时序/因果推理是当前 MLLM 的显著瓶颈

  3. ⭐⭐ 开源 Thinking 模型未见改善:开源 thinking 模型平均 27.15%,反而低于 no-thinking 模型的 29.01%,说明开源模型的推理模式在真实场景泛化能力不足

推理范式分析

分析维度 核心发现
Thinking 长度 vs 准确率 准确率与 thinking token 数呈对数线性关系,但部分开源 thinking 模型处于低效区域(token 多,准确率低)
长 CoT 是否总有效 否——归纳推理使用 CoT 反而变差,类比推理显著受益,推测长 CoT 仅适合需逐步推导的任务
BoN vs GRPO BoN@8 在所有模型规模上泛化优于 GRPO,GRPO 在大模型上甚至低于基线 CoT
推理类型间相关性 类比-归纳高度相关(Pearson \(r=0.97\)),空间推理与其他所有类型低相关(\(r=0.40\)),聚类揭示高阶推理模式

推理增强方法对比

模型 方法 溯因 类比 因果 演绎 归纳 空间 时序 平均 (Δ)
Qwen2.5-VL-7B CoT 26.06 35.74 20.53 20.92 38.93 9.41 12.18 24.68
Qwen2.5-VL-7B BoN@8 27.64 44.72 22.81 25.53 48.02 13.33 13.10 29.54 (+4.86)
Qwen2.5-VL-72B CoT 35.50 55.46 35.36 52.13 55.48 12.94 23.80 40.21
Qwen2.5-VL-72B BoN@8 34.20 53.35 32.70 51.77 56.88 13.73 24.72 39.80 (-0.41)
Qwen2.5-VL-72B GRPO 36.48 50.88 33.08 56.03 57.58 15.69 21.59 39.68 (-0.53)

关键发现

  1. ⭐⭐⭐ 推理增强方法在大模型上失效:从 7B→32B→72B,SC/BoN/GRPO 相对 CoT 的增益单调递减;72B 模型上 BoN 和 GRPO 反而低于基线 CoT,推测大模型采样正确路径概率已较高,增强方法边际收益递减

  2. ⭐⭐ RL 泛化弱于 BoN:在所有模型规模上,GRPO 的泛化性均弱于 BoN@8,RL 训练的模型在真实场景推理上可能存在过拟合特定数据集的风险

错误分析(GPT-5 & Gemini-2.5-Pro)

错误类型 占比 说明
推理错误 32% 因果倒置(24%)、时序混淆(42%)、遗漏关键步骤(24%)
抽象错误 17% 短程思维能力不足,联想/概括失败
知识错误 17% 无法调用正确的常识/世界知识辅助推理
感知错误 12% 颜色/形状等静态属性或运动等动态变化识别失败

优点与创新

  1. ⭐⭐⭐ 填补真实场景多图推理空白:首个同时满足"真实生活图像 + 多图输入 + 7 种推理类型"的基准,与日常推理场景高度对齐
  2. ⭐⭐⭐ 揭示关键研究发现:推理增强方法在大模型失效、RL 泛化弱于 BoN、长 CoT 不总有效等发现对未来研究有重要指导价值
  3. ⭐⭐ 严格的数据质量控制:三阶段过滤(难度/格式/质量)+ 人工审核,降低 shortcut 和数据污染风险
  4. ⭐⭐ 推理类型聚类分析:通过相关性分析和层次聚类揭示了推理能力的内在结构(如类比-归纳共享模式、空间推理独立性)
  5. 大规模评估:覆盖 37 个模型,包括最新的 GPT-5、Gemini-2.5-Pro 等

不足与展望

  1. ⭐⭐ 规模相对有限:2646 道题目(部分推理类型仅 250+ 题),细分到子任务后单任务样本量小,可能影响统计显著性
  2. ⭐⭐ 仅选择题格式:5 选 1 格式存在猜测概率(20%基线),无法评估开放式推理能力
  3. 推理类型边界模糊:溯因推理和因果推理的区分在实际中可能存在重叠,部分题目可能同时涉及多种推理类型
  4. 图片来源多样性:视频抽帧和监控截图占比较高,可能不完全代表日常手持拍摄的真实场景
  5. 缺乏训练信号:仅作为评估基准,未提供训练集指导模型在弱势推理类型上的改进

总结

MMR-Life 是首个面向真实生活场景的多模态多图推理基准,系统覆盖 7 种推理类型和 21 个任务。通过对 37 个 MLLM 的大规模评估,揭示了当前模型在空间/时序/因果推理上的显著瓶颈(GPT-5 仅 58.69% vs 人类 72.28%),并发现推理增强方法在大模型上失效、开源 thinking 模型泛化不足等关键洞察。该基准为评估和改进下一代多模态推理系统提供了重要基础。

相关论文