Predicting LLM Reasoning Performance with Small Proxy Model¶

会议: ICLR 2026
arXiv: 2509.21013
代码: 有（计划开源数据集和代码）
领域: LLM/NLP
关键词: scaling law, proxy model, reasoning, pre-training data selection, negative log-likelihood

一句话总结¶

提出 rBridge，通过使用 frontier 模型的推理 trace 作为 gold label 并按 token 级任务对齐加权 NLL，使 ≤1B 的小模型能有效预测 13B-32B 大模型的推理性能，在数据集排名任务中实现 100× 以上的计算节省。

研究背景与动机¶

预训练大语言模型的成本极高，因此业界常用小型代理模型（proxy model）来评估预训练设计选择。scaling law 和数据集排名不变性等研究已证明这一策略在一般任务上的可行性。

核心矛盾：推理能力表现出涌现行为（emergent behavior），只在足够大的模型（通常 >7B）上才可靠地出现。小模型（≤1B）在推理 benchmark 上噪声极大甚至斜率反向（如 1B 模型在 MATH500 上随训练进行准确率不升反降）。这意味着： - 用小模型的准确率直接预测大模型表现 → 失败 - 实践者被迫使用 7B-15B 的"代理模型"，开销仍然巨大（单次 7B/500B tokens 训练 >50K USD）

作者的分析揭示两个根本问题： 1. 评估目标错位：小模型的训练目标是 NTP（next-token prediction），但评估用的是 Acc./Pass@K——与训练目标完全不同的离散指标 2. 任务对齐缺失：即使使用 NLL，gold label 的选择也至关重要：如果 gold label 分布外（OOD），NLL 信号同样嘈杂。同时，标准 NLL 对所有 token 等权处理，未区分任务关键 token 和格式化 token

方法详解¶

整体框架¶

rBridge 的核心思想：设计一个 proxy 评估指标 $\text{metric}^p$，使得 $\text{corr}(\text{metric}^p(\pi^p), \text{metric}^t(\pi^t))$ 最大化。即找到一个在小模型上计算的指标，使其与大模型的目标指标（Acc./Pass@K）高度相关。

关键设计¶

推理 Trace 作为 Gold Label：
使用 frontier 模型 $\pi^\phi$ 生成的推理 trace $R^\phi$（不含最终答案格式部分）作为 gold label
为什么有效：(a) $R^\phi$ 更接近预训练数据分布（连续长文本），NLL 降低 74.7%；(b) $R^\phi$ 是通向正确答案的推理过程，天然与目标任务对齐
对比 ScalingBench 的方案：ScB 使用 $R^\phi + A^\phi$（trace + 答案），但答案中含 "\n", "Final Answer:", "I hope it is correct." 等格式伪影，严重 OOD
Token 级任务对齐加权： $$\text{rBridge NLL}(\text{token}_i) = -\log(p^p(\text{token}_i)) \cdot \frac{1}{|\text{token}_i|} \sum_{\text{letter} \in \text{token}_i} p^\phi(\text{letter})$$
每个 token 的 NLL 乘以 frontier 模型对该 token 的信心度（概率）
直觉：frontier 模型高置信的 token（如 "sum modulo 9"）是推理关键步骤，应获得更高权重；低置信的 token（如换行符、编号）是格式化噪声，降低权重
Tokenizer 无关：使用字母级概率平均法处理不同 tokenizer 的分词差异
最后对权重因子做 MinMax 归一化以放大效果
一次性前期成本：frontier 模型生成推理 trace 的成本 <$10/benchmark，加权计算仅需几秒 CPU 时间

训练策略¶

本文不训练新模型，而是使用预训练中间检查点作为 proxy 模型，计算 rBridge NLL 来预测目标模型性能。

实验关键数据¶

主实验（1B→13B 代理-目标关系）¶

方法	平均 Train R² ↑	平均 Test MAE ↓
Acc./Pass@1	0.304	3.709
iSFT	0.290	5.123
TED	0.375	3.377
MPCA	0.194	302.642
NLL	0.485	5.173
$R^\phi$ (仅 trace NLL)	0.867	1.455
rBridge	0.874	1.384

rBridge 在 12 个设定（6 benchmark × R²/MAE）中的 10 个取得最好
1B→32B: R²=0.826, MAE=1.481，同样最优
1B→13B+SFT: R²=0.846, MAE=1.304，最优

消融实验（数据集排名 <100M→1.2B）¶

代理规模	rBridge DAcc	最佳基线 DAcc	计算节省
3.7M (87.3M tokens)	~70%	~50% (随机水平)	733.4×
6M (81.6M tokens)	~75%	~55%	100.2×
97.9M	~80%	~75%	-

在最小 proxy（3.7M）下，rBridge 比基线高 27% DAcc
实现相同排名精度，rBridge 节省 100.2× 到 733.4× FLOPs

关键发现¶

rBridge 优于 7-13× 更大的模型：1B 模型使用 rBridge 的预测能力超过 7B/13B 模型直接用准确率评估
零样本跨数据集迁移：在 OLMo-Mix-1124 上拟合的 rBridge→Acc 函数可零样本迁移到另一个数据集，5 个 benchmark 中排名全对（5/5），MAE 仅 0.043-1.417（1 个异常值 9.716）
消融证实每个组件有效：从标准 NLL → 使用 $R^\phi$ → 添加加权 → MinMax 归一化，每步都带来一致提升

亮点与洞察¶

深刻的洞察：小模型在推理 benchmark 上"失败"不是因为缺乏信息，而是因为评估方式（Acc.）与小模型的能力不匹配
NLL 回归本源：预训练的目标是 NTP，评估也应回归 NLL——但关键在于用什么做 gold label
Frontier 模型概率作为自动标注器：token 概率天然编码了"哪些步骤是关键推理"，免去人工标注
实用性极强：两阶段数据集优化框架（<100M 初筛 → 1B 精排）具有直接的工业应用价值

局限性 / 可改进方向¶

Frontier 模型并非 100% 准确，少量错误的推理 trace 可能引入噪声（但实验显示过滤掉错误 trace 改善甚微）
Frontier 模型偶尔无法按要求格式生成（当前仅重试一次后放弃）
零样本迁移仅在 1B→7B 上验证了一个数据集对，规模受限于计算预算
未验证在非推理任务上的效果（虽然非推理任务已有成熟方案）
两阶段优化框架仅作为讨论提出，未完整实验验证

评分¶

新颖性: ⭐⭐⭐⭐ 核心 insight（NLL + frontier trace + token 加权）并非全新，但组合巧妙且效果显著
实验充分度: ⭐⭐⭐⭐⭐ 三阶段实验设计严谨，6个 benchmark × 多模型规模 × 消融 × 跨数据集迁移
写作质量: ⭐⭐⭐⭐ 结构清晰，问题分析循序渐进，但符号和表格较密集
价值: ⭐⭐⭐⭐⭐ 直接降低预训练探索成本 100×+，工业落地价值极高