Predicting LLM Reasoning Performance with Small Proxy Models¶

会议: ICLR 2026
arXiv: 2509.21013
代码: 未开源
领域: llm_nlp
关键词: 小模型代理, 推理能力预测, 预训练数据, scaling law, NLL

一句话总结¶

提出 rBridge 方法，通过结合前沿模型推理轨迹 (reasoning trace) 的 NLL 评估与 token 级任务对齐权重，使 ≤1B 的小模型能有效预测 13B-32B 大模型的推理性能，数据排序计算成本降低 100 倍以上。

研究背景与动机¶

预训练中的代理模型需求¶

预训练大语言模型的成本极高（7B 模型 500B tokens 训练成本超 5 万美元），因此用小模型作为代理 (proxy) 来优化数据集和预测大模型表现是关键研究方向。现有方法（scaling law、数据排名不变性）在非推理任务上有效，但推理能力的涌现特性使小模型代理面临根本挑战。

核心挑战：推理的涌现性¶

推理能力展现出明显的涌现行为——仅在 7B+ 模型中可靠出现：

1B 模型在 MATH500 上噪声大且斜率方向错误（$R^2$ 极低）
相比之下，TriviaQA、HellaSwag 等非推理任务在小规模即有平滑改善
这使得从业者被迫使用 7-15B 的 "代理模型"，成本高昂

问题定义¶

设 $\pi^{\text{p}}, \pi^{\text{t}}$ 分别为小代理和大目标模型。目标是设计代理评估指标 $\text{metric}^{\text{p}}$ 使得：

\[\text{metric}^{\text{p}} := \max_{\text{metric}} \text{corr}(\text{metric}(\pi^{\text{p}}), \text{metric}^{\text{t}}(\pi^{\text{t}}))\]

即小模型指标的改善应可靠地预测大模型指标的改善。

方法详解¶

整体框架¶

rBridge 的核心洞察是现有方法在两个轴上失败：评估目标对齐和目标任务对齐。

先导分析：现有方法的局限¶

(1) 评估目标不对齐

Acc./Pass@K 与预训练目标不匹配：小预训练模型缺乏强泛化能力，Accuracy 在 1B 模型上噪声极大
NLL 的分布对齐问题：不是所有 NLL 都等价。若 gold label $Y^*$ 是 OOD 的，NLL 信号也会噪声化。ScalingBench 的 $Y^*$ 包含 "\n"、"Final Answer:" 等格式文本，对小模型是 OOD 的

(2) 目标任务不对齐

标准 NLL 对所有 token 等权处理，无法区分任务关键 token（如 "sum modulo 9"）和格式 token（如换行、编号）。

关键设计：rBridge NLL¶

步骤 1：使用前沿模型推理轨迹 $R^\phi$ 作为 gold label

仅使用前沿模型 $\pi^\phi$ 的推理轨迹（不含最终答案格式），因为： - $R^\phi$ 更接近预训练分布（ID），平均 NLL 下降 74.7% - $R^\phi$ 是通向正确答案的推理过程，天然任务对齐

步骤 2：token 级任务对齐权重

\[\text{rBridge NLL}(\text{token}_i) := \underbrace{-\text{log}(p^{\text{p}}(\text{token}_i))}_{\text{标准 NLL}} \cdot \underbrace{\frac{1}{|\text{token}_i|} \sum_{\text{letter} \in \text{token}_i} p^\phi(\text{letter})}_{\text{自动 tokenizer 无关任务对齐权重}}\]

每个 token 的 NLL 按前沿模型对该 token 的置信度加权。为处理不同 tokenizer，在字母级别计算权重后在 token 内取平均。最后对权重因子做 MinMax 归一化以放大效果。

损失函数¶

rBridge 不训练新模型，而是一个评估指标。其计算流程：

用前沿模型生成推理轨迹 $R^\phi$
用小代理模型计算每个 token 的 NLL
用前沿模型的 token 概率计算任务对齐权重
加权求和得到 rBridge score

实验关键数据¶

主实验 1：数据集排名（<100M → 1.2B）¶

在 DataDecide 协议下，用代理模型排列 25 个预训练数据集：

方法	最佳 DAcc.	计算节省
CF Accuracy（最大代理）	~基线	1×
Norm Correct Prob	~50%（随机水平）	-
rBridge (3.7M 模型)	比基线高 27%	100.2×-733.4×

rBridge 在最小代理规模（3.7M，训练 87.3M tokens）即达到远超基线的排名准确率。

主实验 2：代理-目标关系（1B → 13B/32B）¶

6 个推理基准上的 5-fold 交叉验证结果：

方法	1B→13B Avg Train $R^2$ ↑	1B→13B Avg Test MAE ↓	1B→32B Avg $R^2$ ↑
Acc./p@1	0.304	3.709	0.312
iSFT	0.290	5.123	0.349
TED	0.375	3.377	0.352
MPCA	0.194	302.642	0.205
NLL	0.485	5.173	0.488
$R^\phi$	0.867	1.455	0.820
rBridge	0.874	1.384	0.826

rBridge 在 10/12 个指标上取得最优，平均 $R^2$ 从基线 0.304 提升到 0.874。

消融实验¶

设置	1B→13B $R^2$	1B→13B+SFT $R^2$	1B→32B $R^2$
标准 NLL	0.485	0.413	0.488
NLL on $R^\phi$	0.867	0.820	0.820
rBridge (+ 权重)	0.874	0.846	0.826

每个组件（推理轨迹、权重、归一化）都带来一致提升。

零样本迁移（1B → 7B 跨数据集）¶

在一个数据集上拟合的 rBridge-目标函数可零样本迁移到另一数据集：

方法	数据集排名正确率	平均 MAE
$R^\phi$	4/5	3.425
rBridge	5/5	2.490

关键发现¶

rBridge 性能超越 7-13 倍大的代理模型：1B rBridge 优于 7B/13B 模型直接用 Acc. 评估
计算节省巨大：数据排名任务中节省 100-733 倍 FLOPs
跨数据集零样本迁移有效：一次拟合可复用
非连续指标（Acc./p@k、iSFT）表现最差：验证了评估目标对齐的重要性

亮点与洞察¶

深刻的方法论洞察：问题不在于小模型 "不够大"，而在于评估方式与预训练目标和任务不对齐
优雅的解决方案：不训练新模型，仅改变评估指标即可达到数量级的改善
前沿模型概率的巧妙使用：将前沿模型的 token 概率作为任务重要性的自动度量
处理 tokenizer 不匹配：字母级概率平均的设计简洁实用
理论动机清晰：从预训练目标对齐和 ID/OOD 分析出发，每一步设计都有理论支撑

局限性¶

需要前沿模型生成推理轨迹，虽然成本低（每基准 <$10）但引入了对前沿模型的依赖
实验中最大目标规模为 32B，更大模型（70B+）是否成立未验证
零样本迁移仅在 2 个数据集间验证，泛化性有待进一步确认
方法专注推理任务，对非推理任务（知识、理解）的应用未探索

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统解决小模型预测大模型推理性能的问题
理论深度: ⭐⭐⭐⭐ — ID/OOD 分析和评估对齐框架完整
实验充分度: ⭐⭐⭐⭐⭐ — 三类实验（排名/关系/迁移）覆盖 6 个基准，对比 6+ 基线
实用价值: ⭐⭐⭐⭐⭐ — 100× 计算节省的实际意义巨大
总评: ⭐⭐⭐⭐☆ — 问题重要、方法优雅、实验全面，对预训练数据优化有直接价值