Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning¶
会议: ACL 2025
arXiv: 2502.17407
代码: https://github.com/gauss5930/MCLM
领域: LLM推理
关键词: Test-Time Scaling, 多语言推理, 数学推理, Budget Forcing, Reward Model
一句话总结¶
提出 MCLM(55 语言的竞赛级数学基准),发现三种 test-time scaling 方法(ORM/PRM/Budget Forcing)在英语上提升显著(如 AIME +20 分),但在其他语言上平均仅提升 1.94 分,表明 test-time scaling 的多语言泛化能力严重不足。
研究背景与动机¶
- 领域现状:预训练阶段的 compute scaling 已被证明能自然带来多语言能力——只要模型足够大,"多语言诅咒"(curse of multilinguality)就会消失。Test-time scaling(如 Self-Consistency、PRM、Budget Forcing/R1风格思考)是近期提升推理能力的主流方向。
- 现有痛点:现有多语言数学基准(MGSM)已被饱和(多个模型达到 87-89%),无法有效评估前沿模型。而 test-time scaling 的多语言泛化效果几乎未被研究过。
- 核心矛盾:预训练 scaling 能带来多语言能力,但 test-time scaling 是否也有同样的语言泛化效果?直觉上,更长的推理链可能放大误差传播,使模型对语言变化更敏感。
- 本文要解决什么? (1) 构建一个高难度的多语言数学推理基准;(2) 系统评估三种 test-time scaling 方法的多语言泛化能力。
- 切入角度:在控制相同推理 FLOPs 的前提下,横向对比 ORM、PRM、Budget Forcing 在 55 种语言上的表现。
- 核心idea一句话:Test-time scaling 在英语数学推理上非常有效,但这种收益几乎无法迁移到其他语言——多语言泛化需要在预训练或微调阶段解决,而非推理阶段。
方法详解¶
整体框架¶
本文构建了 MCLM 基准 + 对比三种 test-time scaling 方法 + 训练 MR1-1.5B 模型: - 输入:55 种语言的竞赛级数学题 - 评估:准确率 + 跨语言一致性(Fleiss' kappa) - 方法对比:在相同推理 FLOPs 下比较三种策略
关键设计¶
- MCLM 基准(55 语言竞赛级数学):
- 做什么:包含 4 个子集——MT-MATH100(MATH-500 的 100 题翻译至 55 语言)、MT-AIME2024(AIME 30 题翻译至 55 语言)、M-IMO(人工翻译的 IMO 题,38 语言)、M-MO(各国/地区数学奥赛原始题,11 语言)
- 核心思路:机器翻译+人工翻译混合,覆盖从中等到极难的不同难度级别。数值答案用 rule-based verifier 评估,复杂答案用 LLM-as-a-Judge
-
设计动机:MGSM 已饱和,需要更难的benchmark;且仅有机器翻译可能有 artifacts,因此加入 IMO/MO 的人工翻译数据
-
推理 FLOPs 统一对比:
- 做什么:将三种方法的推理成本统一为 FLOPs 进行公平对比
- 核心思路:生成器成本 \(\approx 2N_G D\)(\(N_G\) 为参数量,\(D\) 为生成token数),验证器成本 \(\approx 4N_V\)(考虑推理开销翻倍)。ORM 的 \(k=2\) 对应 PRM 的 \((S=3, c=3)\) 和 BF 的 2048 tokens
-
设计动机:不同方法的计算代价差异很大,不统一就无法公平比较
-
MR1-1.5B:多语言思考模型:
- 做什么:在 Deepseek-R1-1.5B 上用翻译的思考轨迹数据做 SFT
- 核心思路:将R1的100K思考轨迹翻译到14种语言,保持推理过程为英语(作为pivot语言),仅翻译问题和答案部分。仅训练0.5 epoch避免过拟合
-
设计动机:利用 R1 已有的扩展推理能力,通过多语言微调提升跨语言泛化
-
跨语言一致性度量(Fleiss' kappa):
- 做什么:将每种语言视为一个"标注者",用 Fleiss' kappa 衡量模型是否在不同语言上解对/解错同一道题
- 设计动机:仅看平均准确率不够——可能模型在不同语言上解对的是不同题目,而非一致地解对同一批题
训练策略¶
- 基座模型:Qwen2.5-Math-1.5B/7B-Instruct 和 Deepseek-R1-1.5B
- 外部验证器:Qwen2.5-Math-72B-RM(ORM/PRM)
- MR1 训练:0.5 epoch SFT on 翻译的 R1 思考轨迹
实验关键数据¶
主实验:MCLM 基准表现¶
| 模型 | MT-MATH100 | MT-AIME2024 | M-IMO | M-MO | 平均 |
|---|---|---|---|---|---|
| Qwen2.5-Math-1.5B | 42.32±8.61 | 16.36±6.89 | 12.23±6.02 | 25.00±19.10 | 23.98 |
| Deepseek-R1-1.5B | 49.40±8.84 | 17.21±6.69 | 21.94±6.75 | 26.77±19.83 | 28.83 |
| GPT-4o-Mini | 70.30±3.68 | 20.18±6.83 | 13.33±5.36 | 30.81±15.80 | 33.66 |
| MR1-1.5B | 55.61±10.93 | 19.94±8.10 | 19.20±6.24 | 28.97±16.64 | 30.93 |
| o3-Mini | 84.89±2.80 | 45.33±5.35 | 29.75±6.86 | 51.42±16.94 | 52.85 |
Test-Time Scaling 的多语言泛化¶
| 方法 | 英语 AIME 提升 | 其他语言平均提升 | 说明 |
|---|---|---|---|
| ORM (k=8) | +20 pts (1.5B) | 有限/不稳定 | 在 AIME 上非英语无明显提升 |
| PRM (72B RM) | 准确率随FLOPs提升 | 一致性无改善 | Fleiss' kappa 无单调趋势 |
| Budget Forcing | +20 pts (英语 AIME) | +1.94 pts 平均 | 英语几乎线性提升,其他语言接近无效 |
关键发现¶
- Test-time scaling 的英语偏差极其严重:Budget Forcing 在 AIME 英语上提升 20 分,但 54 种其他语言平均仅提升 1.94 分
- 三种方法在相同 FLOPs 下表现相当:控制推理计算量后,ORM、PRM、BF 并无本质差别,"thinking LLM"并没有明显优势
- ORM 优于 PRM:在相同 FLOPs 预算下 ORM 一般优于 PRM,且 PRM 需要反复调用验证器导致更高延迟
- 增加推理预算可能降低跨语言一致性:Fleiss' kappa 和标准差在扩展推理后并未改善甚至恶化
- 多语言翻译数据微调有效但有限:MR1-1.5B 通过翻译 SFT 平均提升 2.1%,但远不足以解决多语言差距
亮点与洞察¶
- 系统性否定了一个普遍假设:很多人认为 test-time scaling 的收益像 pre-training scaling 一样会自然泛化到多语言,本文用 55 语言的实验证明了这一点并不成立
- FLOPs 归一化方法论:统一 ORM/PRM/BF 推理成本的方法很有参考价值,为 test-time scaling 的公平对比提供了标准框架
- Fleiss' kappa 用于跨语言一致性评估是一个巧妙的借用——原本用于标注者间一致性度量,这里把语言当作"标注者"
局限性 / 可改进方向¶
- 实验主要在 1.5B 和 7B 模型上进行,更大模型(70B+)可能表现不同——预训练 scaling 的多语言诅咒在大模型消失,test-time scaling 或许也一样
- 仅评估数学任务,其他需要文化/领域知识的任务差距可能更大
- 翻译数据仅覆盖 14 种语言,且推理过程保持英语,未探索用目标语言推理
相关工作与启发¶
- vs MGSM (Shi et al. 2022): MGSM 是简单数学,已饱和;MCLM 是竞赛级,能区分前沿模型
- vs s1 (Muennighoff et al. 2025): s1 证明 Budget Forcing 在英语上有效,本文证明其多语言泛化不足
- vs DeepSeek-R1: R1 的"aha moment"式自我修正在英语效果好,但本文表明这种能力难以跨语言迁移
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统研究 test-time scaling 的多语言泛化,发现重要且反直觉
- 实验充分度: ⭐⭐⭐⭐⭐ 55 语言、4 个子集、3 种方法、FLOPs 统一对比,实验设计非常严谨
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富,结论明确
- 价值: ⭐⭐⭐⭐ 对多语言推理和 test-time scaling 研究都有重要启示