I-RAVEN-X: Benchmarking Generalization and Robustness of Analogical and Mathematical Reasoning in Large Language and Reasoning Models¶
会议: NeurIPS 2025
arXiv: 2510.17496
代码: GitHub (有)
领域: LLM推理
关键词: abstract reasoning, Raven's Progressive Matrices, LRM, analogical reasoning, robustness
一句话总结¶
提出 I-RAVEN-X,一个增强版的符号化推理基准,通过增加操作数复杂度、属性范围和感知不确定性来评估 LLM 和 LRM 的类比推理与数学推理的泛化能力和鲁棒性,发现 LRM 在确定性推理上显著优于 LLM,但在不确定性推理下性能急剧下降。
研究背景与动机¶
- 领域现状: 抽象推理被视为人类智能的核心特征。Raven 渐进矩阵 (RPM) 是评估抽象推理、类比能力和 OOD 泛化的经典任务。I-RAVEN 是其自动生成版本,已被广泛用于评估 ML 模型。
- 现有痛点: (1) I-RAVEN 的问题大多只涉及少量操作数(3×3 矩阵),推理难度过低;(2) 测试数据已公开,存在数据泄漏风险;(3) 文本化转换时假设完美感知(oracle perception),忽略了感知不确定性。
- 核心矛盾: 现有 benchmark 无法区分模型是否真正具备泛化性的推理能力,还是仅在简单设置下表现良好——特别是在 LRM(推理模型)出现后,需要更具挑战性的评测。
- 本文要解决什么? 构建一个可参数化的、更具挑战性的推理基准,系统评估 LLM 和 LRM 在泛化(更长推理链、更大属性范围)和鲁棒性(感知不确定性)上的表现。
- 切入角度: 在 I-RAVEN 基础上沿四个维度扩展——生产力、系统性、混淆因子鲁棒性、值分布鲁棒性。
- 核心idea一句话: RPM 推理不仅要测"做对了没有",还要测"推理链变长/值域变大/加入噪声后还能不能做对"。
方法详解¶
整体框架¶
I-RAVEN-X 是纯符号化的参数化数据集,基于 I-RAVEN 的单中心星座(center constellation)设置,沿四个维度增强:
关键设计¶
- 生产力 (Productivity): 将矩阵从 3×3 扩展到 3×10,增加每行中的操作数/面板数量,测试模型在更长推理链上的泛化能力。
- 系统性 (Systematicity): 将属性值的动态范围从 10 扩展到 100 和 1000(如属性值从 [0,9] 扩展到 [0,999]),测试模型对更多概念/值域的泛化。
- 混淆因子鲁棒性: 在每个面板中添加 1-10 个随机采样的无关属性(如背景色、对象内颜色模式),模拟不完美感知的噪声信号。信噪比 (SNR) 从 ∞ 降到 -5.23 dB。
- 值分布鲁棒性: 对属性值的分布进行平滑处理——不再是确定性的单值,而是概率分布(正确值的概率 \(p_L\) 从 1.0 降到 0.51),模拟感知前端的不确定性。
评估模型¶
- LRM: OpenAI o3-mini (medium/high), DeepSeek R1, DeepSeek R1 distilled (Llama 70B)
- LLM: GPT-4, Llama-3 70B
- LLM 使用 21 个 prompt(含 ICL 示例+自一致性+解耦提示),LRM 仅使用 1 个简单 prompt
评估指标¶
- Task Accuracy: 测试样本的整体正确预测比例
- Arithmetic Accuracy: 由算术关系控制的属性的正确预测比例
实验关键数据¶
主实验¶
I-RAVEN (3×3) vs I-RAVEN-X (3×10, Range 1000) 的准确率对比:
| 模型 | I-RAVEN Task | I-RAVEN Arith. | I-RAVEN-X Task | I-RAVEN-X Arith. |
|---|---|---|---|---|
| GPT-4 (21 prompts) | 93.2% | 73.6% | 76.6% | 8.4% |
| Llama-3 70B (21 prompts) | 85.0% | 45.0% | 74.2% | 0.4% |
| o3-mini high (1 prompt) | 92.6% | 86.1% | 80.6% | 60.1% |
| DeepSeek R1 (1 prompt) | 80.6% | 74.8% | 82.8% | 65.8% |
关键对比: LLM 算术准确率 59.3%→4.4%(暴跌),LRM 80.5%→63.0%(温和下降)
消融实验¶
不确定性推理 (o3-mini, Range 1000):
| 设置 | Task Acc. | Arith. Acc. |
|---|---|---|
| 无噪声 | 81.0% | 60.8% |
| +10 混淆属性 | 69.8% (-11.2%) | 45.6% (-15.2%) |
| 分布平滑 p_L=0.51 | 75.6% (-5.4%) | 53.2% |
| 混淆+平滑(最难) | 17.0% (-64.0%) | 41.1% |
随机基线为 12.5%,最难设置下 LRM 几乎退化到随机水平。
关键发现¶
- LRM 在确定性推理上显著优于 LLM: 尤其是数学/算术推理,LRM 使用 1 个 prompt 就优于 LLM 使用 21 个 prompt
- LRM 不需要复杂 prompt 工程: o3-mini 用 1/21 的 prompt 量就能匹配或超过 GPT-4
- 不确定性是 LRM 的阿喀琉斯之踵: 混淆因子+分布平滑同时施加时,任务准确率暴跌至接近随机
- 思考 token 与推理鲁棒性: 面对不确定性时,o3-mini 的输出 token 从 ~7K 增加到 ~18K,但思考更多并未带来更好结果
- DeepSeek R1 对混淆因子更鲁棒但对分布平滑更脆弱,o3-mini 则相反
亮点与洞察¶
- 参数化 benchmark 设计: 可控地调节推理难度的多个维度(长度、范围、噪声),比固定 benchmark 更灵活
- 感知不确定性的引入: 首次在纯符号推理 benchmark 中模拟"不完美感知",弥合了理想化推理评测与端到端系统之间的差距
- LRM vs LLM 的系统性对比: 清晰展示了推理模型 (o3-mini, R1) 相比传统 LLM 的优势在哪里、短板在哪里
- 数据泄漏规避: I-RAVEN-X 是全新生成的,降低了预训练数据泄漏的风险
局限性 / 可改进方向¶
- 仅使用符号化表示,未扩展到视觉域——未测试模型的真实视觉感知能力
- 仅使用 center constellation(单对象),未覆盖其他空间布局
- 不确定性推理的因果机制未深入分析——性能下降是因为 prompt 变长、模式识别困难,还是概率推理能力本身的缺陷?
- 测试的模型数量有限,缺少更多 LRM(如 Claude 3.7 Sonnet extended thinking)
- 本文是两篇已发表工作的合并总结,增量贡献受限
相关工作与启发¶
- 与 ARC (Abstraction and Reasoning Corpus) benchmark 方向一致,但 RPM 任务结构更受控
- CRUXEval 和 CoRe 从代码推理角度评估类似的能力,I-RAVEN-X 从类比推理角度互补
- LRM 在不确定性推理下的失败对 agent 系统有警示:真实世界的感知总是不完美的,推理系统需要处理不确定性
- "思考更多不等于推理更好"的发现值得 scaling 研究关注
评分¶
- 新颖性: ⭐⭐⭐⭐ 参数化 benchmark 设计有创新,感知不确定性的引入是有价值的新视角
- 实验充分度: ⭐⭐⭐ 模型覆盖有限(仅 4-5 个模型),且部分是已有工作的合并
- 写作质量: ⭐⭐⭐⭐ 结构清晰,实验设置描述明确,但篇幅较短(workshop paper 风格)
- 价值: ⭐⭐⭐⭐ 对理解 LRM 的能力边界有参考价值,不确定性推理是重要的未解问题