Are Your LLMs Capable of Stable Reasoning?¶

会议: ACL 2025
arXiv: 2412.13147
代码: https://github.com/open-compass/GPassK (有)
领域: LLM评估 / 数学推理
关键词: G-Pass@k, 推理稳定性, LiveMathBench, 评估指标, 数学推理

一句话总结¶

提出 G-Pass@k 评估指标和 LiveMathBench 动态基准，从"性能上限"和"稳定性"两个维度全面评估LLM的推理能力，揭示了当前LLM在推理一致性上存在巨大提升空间。

研究背景与动机¶

当前LLM在数学推理等复杂任务上取得了显著进展，但基准测试成绩与实际应用表现之间存在显著差距。作者认为这一差距的根源在于现有评估协议和指标的不足——它们无法全面捕捉LLM的真实能力。

现有评估方法的核心矛盾在于：

Greedy decoding 只看"最佳单次回答"：Pass@1 只反映贪心解码下的单次表现，无法衡量模型是否能"稳定地"给出正确答案。一个模型可能偶尔答对，但在多次采样中表现极不一致。

Pass@k 只看"至少一次正确"：传统 Pass@k 衡量的是 \(k\) 次采样中至少有一次正确的概率，它只反映模型的性能上限（potential），完全忽略了稳定性。

静态基准存在数据泄露风险：像 MATH、GSM8K 这样的经典基准已被广泛使用，模型可能在训练数据中见过类似题目，导致评估结果虚高。

核心idea：一个真正可靠的推理模型不仅要"能答对"，更要"稳定地答对"。因此需要一个能同时量化性能上限和稳定性的指标。

方法详解¶

整体框架¶

本文的贡献分为两部分：(1) G-Pass@k 评估指标；(2) LiveMathBench 动态基准。流程为：对每个问题采样 \(n\) 次生成回答 → 统计正确次数 \(c\) → 用 G-Pass@k 系列指标计算在不同稳定性要求下的表现。

关键设计¶

G-Pass@k 基础指标:
- 功能：衡量从 \(n\) 次采样中随机选 \(k\) 次，全部正确的概率
- 核心思路：利用超几何分布计算。设总采样数为 \(n\)，正确数为 \(c\)，则： \(\text{G-Pass@}k = \mathbb{E}_{\text{Questions}}\left[\frac{\binom{c}{k}}{\binom{n}{k}}\right]\)
- 设计动机：当 \(k=1\) 时退化为 Pass@1，当需要全部 \(k\) 次都正确时能反映稳定性。但单个 \(k\) 值仍不够全面。
G-Pass@\(k_\tau\) 带阈值的指标:
- 功能：衡量从 \(k\) 次采样中至少有 \(\lceil\tau \cdot k\rceil\) 次正确的概率
- 核心思路：引入阈值参数 \(\tau \in [0, 1]\) 控制"成功"的标准： \(\text{G-Pass@}k_\tau = \mathbb{E}_{\text{Questions}}\left[\sum_{j=\lceil\tau \cdot k\rceil}^{c}\frac{\binom{c}{j}\cdot\binom{n-c}{k-j}}{\binom{n}{k}}\right]\)
- 设计动机：\(\tau = 0\) 时等价于传统 Pass@k（至少1次正确），\(\tau = 1\) 时要求全部正确。通过调节 \(\tau\) 可以连续地在"性能上限"和"完美稳定"之间权衡。
mG-Pass@k 综合指标:
- 功能：对 \(\tau \in [0.5, 1.0]\) 区间的 G-Pass@\(k_\tau\) 取积分均值，一个数字衡量整体表现
- 核心思路： \(\text{mG-Pass@}k = 2\int_{0.5}^{1.0}\text{G-Pass@}k_\tau \, d\tau = \frac{2}{k}\sum_{i=\lceil 0.5k\rceil+1}^{k}\text{G-Pass@}\frac{i}{k}\)
- 设计动机：选择 \([0.5, 1.0]\) 区间是因为该区间更能区分模型——在低阈值下大部分模型都能通过，区分度不大。mG-Pass@k 提供了一个简洁的单值指标。
LiveMathBench 动态基准:
- 功能：提供持续更新的、有挑战性的数学竞赛题目，减少数据泄露
- 核心思路：从当代数学竞赛中收集新题目，定期更新（如 v202412、v202505），确保题目是模型训练数据中未见过的
- 设计动机：解决静态基准被"刷榜"和数据泄露的问题

评判方法¶

使用 Qwen2.5-72B-Instruct 作为 judge 模型评判答案正确性，同时也发布了轻量级的 LiveMath-Judge 模型降低评估成本。

实验关键数据¶

主实验（LiveMathBench-202412）¶

模型	Pass@1	G-Pass@16₀	G-Pass@16₀.₅	G-Pass@16₁	mG-Pass@16
Llama-3.1-8B-Inst	24.0	18.2	11.3	4.5	10.4
Qwen2.5-7B-Inst	37.0	36.5	27.2	16.0	25.8
Claude-3.5-Sonnet	46.7	44.1	36.2	26.6	35.3
Qwen2.5-Math-7B-Inst	68.4	44.1	38.3	28.1	36.6
QwQ-32B-Preview	72.7	74.9	65.8	40.1	61.2
OpenAI-o1-mini	74.1	76.3	67.3	48.3	64.8
DeepSeek-R1	81.1	83.6	79.1	69.5	77.6
OpenAI-o3-mini	84.7	85.7	78.8	65.3	76.8

消融/对比（AIME2025）¶

模型	Pass@1	mG-Pass@16	说明
Qwen2.5-Math-72B-Inst	13.3	13.3	数学专用模型稳定性反而高
DeepSeek-Distill-Qwen-7B	46.7	36.1	蒸馏模型Pass@1>mG稳定性缺口大
DeepSeek-R1	66.7	42.5	最强模型仍有24%稳定性差距
OpenAI-o3-mini	53.3	43.6	o1-like模型相对稳定

关键发现¶

Pass@1 与稳定性可能脱节：Qwen2.5-Math-7B Pass@1 高达 68.4，但 mG-Pass@16 仅 36.6，说明高 Pass@1 不代表稳定推理
o1-like 推理模型（🏀）整体更稳定：DeepSeek-R1、o3-mini 的 Pass@1 与 mG-Pass 差距较小
数学专用模型（🏐）稳定性不一定好：可能过拟合到特定解题模式
在 Hard 子集上差异更大：大部分模型在 LiveMathBench-Hard 上 G-Pass@16₁.₀ 接近 0

亮点与洞察¶

G-Pass@k 的核心价值在于用一条曲线代替一个点来评估模型，给出从"最佳表现"到"最差表现"的完整画像
mG-Pass@k 提供了一个实用的单值指标，可直接用于排行榜
LiveMathBench 的动态更新机制有效对抗数据泄露，值得推广到其他领域
基于超几何分布的公式设计简洁优雅，无需额外拟合参数
开源了完整评估框架，支持 OpenCompass 和 LightEval

局限与展望¶

目前仅在数学推理上验证，未扩展到代码生成、逻辑推理等其他需要稳定性的任务
LiveMathBench 题量有限（~100题级别），可能不够大规模
仅分析了现象（不稳定），未深入探究为什么模型不稳定的机制性原因
\(k\) 和 \(n\) 的选择对结果有影响，论文未充分讨论最优设置
采样温度等推理超参数也会影响稳定性，但未系统研究其交互效应

评分¶

新颖性: ⭐⭐⭐⭐ 指标设计虽简洁但动机清晰，是在评估维度上的重要补充
实验充分度: ⭐⭐⭐⭐⭐ 覆盖了大量模型和多个基准，数据量充足
写作质量: ⭐⭐⭐⭐ 表述清晰，公式推导完整
价值: ⭐⭐⭐⭐ 揭示了"稳定性"这一被忽视的评估维度，对社区有参考意义