跳转至

I-RAVEN-X: Benchmarking Generalization and Robustness of Analogical and Mathematical Reasoning in Large Language and Reasoning Models

会议: NeurIPS 2025
arXiv: 2510.17496
代码: GitHub (有)
领域: LLM推理
关键词: abstract reasoning, Raven's Progressive Matrices, LRM, analogical reasoning, robustness

一句话总结

提出 I-RAVEN-X,一个增强版的符号化推理基准,通过增加操作数复杂度、属性范围和感知不确定性来评估 LLM 和 LRM 的类比推理与数学推理的泛化能力和鲁棒性,发现 LRM 在确定性推理上显著优于 LLM,但在不确定性推理下性能急剧下降。

研究背景与动机

  1. 领域现状: 抽象推理被视为人类智能的核心特征。Raven 渐进矩阵 (RPM) 是评估抽象推理、类比能力和 OOD 泛化的经典任务。I-RAVEN 是其自动生成版本,已被广泛用于评估 ML 模型。
  2. 现有痛点: (1) I-RAVEN 的问题大多只涉及少量操作数(3×3 矩阵),推理难度过低;(2) 测试数据已公开,存在数据泄漏风险;(3) 文本化转换时假设完美感知(oracle perception),忽略了感知不确定性。
  3. 核心矛盾: 现有 benchmark 无法区分模型是否真正具备泛化性的推理能力,还是仅在简单设置下表现良好——特别是在 LRM(推理模型)出现后,需要更具挑战性的评测。
  4. 本文要解决什么? 构建一个可参数化的、更具挑战性的推理基准,系统评估 LLM 和 LRM 在泛化(更长推理链、更大属性范围)和鲁棒性(感知不确定性)上的表现。
  5. 切入角度: 在 I-RAVEN 基础上沿四个维度扩展——生产力、系统性、混淆因子鲁棒性、值分布鲁棒性。
  6. 核心idea一句话: RPM 推理不仅要测"做对了没有",还要测"推理链变长/值域变大/加入噪声后还能不能做对"。

方法详解

整体框架

I-RAVEN-X 是纯符号化的参数化数据集,基于 I-RAVEN 的单中心星座(center constellation)设置,沿四个维度增强:

关键设计

  1. 生产力 (Productivity): 将矩阵从 3×3 扩展到 3×10,增加每行中的操作数/面板数量,测试模型在更长推理链上的泛化能力。
  2. 系统性 (Systematicity): 将属性值的动态范围从 10 扩展到 100 和 1000(如属性值从 [0,9] 扩展到 [0,999]),测试模型对更多概念/值域的泛化。
  3. 混淆因子鲁棒性: 在每个面板中添加 1-10 个随机采样的无关属性(如背景色、对象内颜色模式),模拟不完美感知的噪声信号。信噪比 (SNR) 从 ∞ 降到 -5.23 dB。
  4. 值分布鲁棒性: 对属性值的分布进行平滑处理——不再是确定性的单值,而是概率分布(正确值的概率 \(p_L\) 从 1.0 降到 0.51),模拟感知前端的不确定性。

评估模型

  • LRM: OpenAI o3-mini (medium/high), DeepSeek R1, DeepSeek R1 distilled (Llama 70B)
  • LLM: GPT-4, Llama-3 70B
  • LLM 使用 21 个 prompt(含 ICL 示例+自一致性+解耦提示),LRM 仅使用 1 个简单 prompt

评估指标

  • Task Accuracy: 测试样本的整体正确预测比例
  • Arithmetic Accuracy: 由算术关系控制的属性的正确预测比例

实验关键数据

主实验

I-RAVEN (3×3) vs I-RAVEN-X (3×10, Range 1000) 的准确率对比:

模型 I-RAVEN Task I-RAVEN Arith. I-RAVEN-X Task I-RAVEN-X Arith.
GPT-4 (21 prompts) 93.2% 73.6% 76.6% 8.4%
Llama-3 70B (21 prompts) 85.0% 45.0% 74.2% 0.4%
o3-mini high (1 prompt) 92.6% 86.1% 80.6% 60.1%
DeepSeek R1 (1 prompt) 80.6% 74.8% 82.8% 65.8%

关键对比: LLM 算术准确率 59.3%→4.4%(暴跌),LRM 80.5%→63.0%(温和下降)

消融实验

不确定性推理 (o3-mini, Range 1000):

设置 Task Acc. Arith. Acc.
无噪声 81.0% 60.8%
+10 混淆属性 69.8% (-11.2%) 45.6% (-15.2%)
分布平滑 p_L=0.51 75.6% (-5.4%) 53.2%
混淆+平滑(最难) 17.0% (-64.0%) 41.1%

随机基线为 12.5%,最难设置下 LRM 几乎退化到随机水平。

关键发现

  • LRM 在确定性推理上显著优于 LLM: 尤其是数学/算术推理,LRM 使用 1 个 prompt 就优于 LLM 使用 21 个 prompt
  • LRM 不需要复杂 prompt 工程: o3-mini 用 1/21 的 prompt 量就能匹配或超过 GPT-4
  • 不确定性是 LRM 的阿喀琉斯之踵: 混淆因子+分布平滑同时施加时,任务准确率暴跌至接近随机
  • 思考 token 与推理鲁棒性: 面对不确定性时,o3-mini 的输出 token 从 ~7K 增加到 ~18K,但思考更多并未带来更好结果
  • DeepSeek R1 对混淆因子更鲁棒但对分布平滑更脆弱,o3-mini 则相反

亮点与洞察

  • 参数化 benchmark 设计: 可控地调节推理难度的多个维度(长度、范围、噪声),比固定 benchmark 更灵活
  • 感知不确定性的引入: 首次在纯符号推理 benchmark 中模拟"不完美感知",弥合了理想化推理评测与端到端系统之间的差距
  • LRM vs LLM 的系统性对比: 清晰展示了推理模型 (o3-mini, R1) 相比传统 LLM 的优势在哪里、短板在哪里
  • 数据泄漏规避: I-RAVEN-X 是全新生成的,降低了预训练数据泄漏的风险

局限性 / 可改进方向

  • 仅使用符号化表示,未扩展到视觉域——未测试模型的真实视觉感知能力
  • 仅使用 center constellation(单对象),未覆盖其他空间布局
  • 不确定性推理的因果机制未深入分析——性能下降是因为 prompt 变长、模式识别困难,还是概率推理能力本身的缺陷?
  • 测试的模型数量有限,缺少更多 LRM(如 Claude 3.7 Sonnet extended thinking)
  • 本文是两篇已发表工作的合并总结,增量贡献受限

相关工作与启发

  • 与 ARC (Abstraction and Reasoning Corpus) benchmark 方向一致,但 RPM 任务结构更受控
  • CRUXEval 和 CoRe 从代码推理角度评估类似的能力,I-RAVEN-X 从类比推理角度互补
  • LRM 在不确定性推理下的失败对 agent 系统有警示:真实世界的感知总是不完美的,推理系统需要处理不确定性
  • "思考更多不等于推理更好"的发现值得 scaling 研究关注

评分

  • 新颖性: ⭐⭐⭐⭐ 参数化 benchmark 设计有创新,感知不确定性的引入是有价值的新视角
  • 实验充分度: ⭐⭐⭐ 模型覆盖有限(仅 4-5 个模型),且部分是已有工作的合并
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,实验设置描述明确,但篇幅较短(workshop paper 风格)
  • 价值: ⭐⭐⭐⭐ 对理解 LRM 的能力边界有参考价值,不确定性推理是重要的未解问题