I-RAVEN-X: Benchmarking Generalization and Robustness of Analogical and Mathematical Reasoning in Large Language and Reasoning Models¶

会议: NeurIPS 2025
arXiv: 2510.17496
代码: GitHub (有)
领域: LLM推理
关键词: abstract reasoning, Raven's Progressive Matrices, LRM, analogical reasoning, robustness

一句话总结¶

提出 I-RAVEN-X，一个增强版的符号化推理基准，通过增加操作数复杂度、属性范围和感知不确定性来评估 LLM 和 LRM 的类比推理与数学推理的泛化能力和鲁棒性，发现 LRM 在确定性推理上显著优于 LLM，但在不确定性推理下性能急剧下降。

研究背景与动机¶

领域现状: 抽象推理被视为人类智能的核心特征。Raven 渐进矩阵 (RPM) 是评估抽象推理、类比能力和 OOD 泛化的经典任务。I-RAVEN 是其自动生成版本，已被广泛用于评估 ML 模型。
现有痛点: (1) I-RAVEN 的问题大多只涉及少量操作数（3×3 矩阵），推理难度过低；(2) 测试数据已公开，存在数据泄漏风险；(3) 文本化转换时假设完美感知（oracle perception），忽略了感知不确定性。
核心矛盾: 现有 benchmark 无法区分模型是否真正具备泛化性的推理能力，还是仅在简单设置下表现良好——特别是在 LRM（推理模型）出现后，需要更具挑战性的评测。
本文要解决什么？ 构建一个可参数化的、更具挑战性的推理基准，系统评估 LLM 和 LRM 在泛化（更长推理链、更大属性范围）和鲁棒性（感知不确定性）上的表现。
切入角度: 在 I-RAVEN 基础上沿四个维度扩展——生产力、系统性、混淆因子鲁棒性、值分布鲁棒性。
核心idea一句话: RPM 推理不仅要测"做对了没有"，还要测"推理链变长/值域变大/加入噪声后还能不能做对"。

方法详解¶

整体框架¶

I-RAVEN-X 是纯符号化的参数化数据集，基于 I-RAVEN 的单中心星座（center constellation）设置，沿四个维度增强：

关键设计¶

生产力 (Productivity): 将矩阵从 3×3 扩展到 3×10，增加每行中的操作数/面板数量，测试模型在更长推理链上的泛化能力。
系统性 (Systematicity): 将属性值的动态范围从 10 扩展到 100 和 1000（如属性值从 [0,9] 扩展到 [0,999]），测试模型对更多概念/值域的泛化。
混淆因子鲁棒性: 在每个面板中添加 1-10 个随机采样的无关属性（如背景色、对象内颜色模式），模拟不完美感知的噪声信号。信噪比 (SNR) 从 ∞ 降到 -5.23 dB。
值分布鲁棒性: 对属性值的分布进行平滑处理——不再是确定性的单值，而是概率分布（正确值的概率 \(p_L\) 从 1.0 降到 0.51），模拟感知前端的不确定性。

评估模型¶

LRM: OpenAI o3-mini (medium/high), DeepSeek R1, DeepSeek R1 distilled (Llama 70B)
LLM: GPT-4, Llama-3 70B
LLM 使用 21 个 prompt（含 ICL 示例+自一致性+解耦提示），LRM 仅使用 1 个简单 prompt

评估指标¶

Task Accuracy: 测试样本的整体正确预测比例
Arithmetic Accuracy: 由算术关系控制的属性的正确预测比例

实验关键数据¶

主实验¶

I-RAVEN (3×3) vs I-RAVEN-X (3×10, Range 1000) 的准确率对比：

模型	I-RAVEN Task	I-RAVEN Arith.	I-RAVEN-X Task	I-RAVEN-X Arith.
GPT-4 (21 prompts)	93.2%	73.6%	76.6%	8.4%
Llama-3 70B (21 prompts)	85.0%	45.0%	74.2%	0.4%
o3-mini high (1 prompt)	92.6%	86.1%	80.6%	60.1%
DeepSeek R1 (1 prompt)	80.6%	74.8%	82.8%	65.8%

关键对比: LLM 算术准确率 59.3%→4.4%（暴跌），LRM 80.5%→63.0%（温和下降）

消融实验¶

不确定性推理 (o3-mini, Range 1000)：

设置	Task Acc.	Arith. Acc.
无噪声	81.0%	60.8%
+10 混淆属性	69.8% (-11.2%)	45.6% (-15.2%)
分布平滑 p_L=0.51	75.6% (-5.4%)	53.2%
混淆+平滑（最难）	17.0% (-64.0%)	41.1%

随机基线为 12.5%，最难设置下 LRM 几乎退化到随机水平。

关键发现¶

LRM 在确定性推理上显著优于 LLM: 尤其是数学/算术推理，LRM 使用 1 个 prompt 就优于 LLM 使用 21 个 prompt
LRM 不需要复杂 prompt 工程: o3-mini 用 1/21 的 prompt 量就能匹配或超过 GPT-4
不确定性是 LRM 的阿喀琉斯之踵: 混淆因子+分布平滑同时施加时，任务准确率暴跌至接近随机
思考 token 与推理鲁棒性: 面对不确定性时，o3-mini 的输出 token 从 ~7K 增加到 ~18K，但思考更多并未带来更好结果
DeepSeek R1 对混淆因子更鲁棒但对分布平滑更脆弱，o3-mini 则相反

亮点与洞察¶

参数化 benchmark 设计: 可控地调节推理难度的多个维度（长度、范围、噪声），比固定 benchmark 更灵活
感知不确定性的引入: 首次在纯符号推理 benchmark 中模拟"不完美感知"，弥合了理想化推理评测与端到端系统之间的差距
LRM vs LLM 的系统性对比: 清晰展示了推理模型 (o3-mini, R1) 相比传统 LLM 的优势在哪里、短板在哪里
数据泄漏规避: I-RAVEN-X 是全新生成的，降低了预训练数据泄漏的风险

局限性 / 可改进方向¶

仅使用符号化表示，未扩展到视觉域——未测试模型的真实视觉感知能力
仅使用 center constellation（单对象），未覆盖其他空间布局
不确定性推理的因果机制未深入分析——性能下降是因为 prompt 变长、模式识别困难，还是概率推理能力本身的缺陷？
测试的模型数量有限，缺少更多 LRM（如 Claude 3.7 Sonnet extended thinking）
本文是两篇已发表工作的合并总结，增量贡献受限

评分¶

新颖性: ⭐⭐⭐⭐ 参数化 benchmark 设计有创新，感知不确定性的引入是有价值的新视角
实验充分度: ⭐⭐⭐ 模型覆盖有限（仅 4-5 个模型），且部分是已有工作的合并
写作质量: ⭐⭐⭐⭐ 结构清晰，实验设置描述明确，但篇幅较短（workshop paper 风格）
价值: ⭐⭐⭐⭐ 对理解 LRM 的能力边界有参考价值，不确定性推理是重要的未解问题