Linguistic Generalizability of Test-Time Scaling in Mathematical Reasoning¶

会议: ACL 2025
arXiv: 2502.17407
代码: https://github.com/gauss5930/MCLM
领域: LLM推理
关键词: Test-Time Scaling, 多语言推理, 数学推理, Budget Forcing, Reward Model

一句话总结¶

提出 MCLM（55 语言的竞赛级数学基准），发现三种 test-time scaling 方法（ORM/PRM/Budget Forcing）在英语上提升显著（如 AIME +20 分），但在其他语言上平均仅提升 1.94 分，表明 test-time scaling 的多语言泛化能力严重不足。

研究背景与动机¶

领域现状：预训练阶段的 compute scaling 已被证明能自然带来多语言能力——只要模型足够大，"多语言诅咒"（curse of multilinguality）就会消失。Test-time scaling（如 Self-Consistency、PRM、Budget Forcing/R1风格思考）是近期提升推理能力的主流方向。
现有痛点：现有多语言数学基准（MGSM）已被饱和（多个模型达到 87-89%），无法有效评估前沿模型。而 test-time scaling 的多语言泛化效果几乎未被研究过。
核心矛盾：预训练 scaling 能带来多语言能力，但 test-time scaling 是否也有同样的语言泛化效果？直觉上，更长的推理链可能放大误差传播，使模型对语言变化更敏感。
本文要解决什么？ (1) 构建一个高难度的多语言数学推理基准；(2) 系统评估三种 test-time scaling 方法的多语言泛化能力。
切入角度：在控制相同推理 FLOPs 的前提下，横向对比 ORM、PRM、Budget Forcing 在 55 种语言上的表现。
核心idea一句话：Test-time scaling 在英语数学推理上非常有效，但这种收益几乎无法迁移到其他语言——多语言泛化需要在预训练或微调阶段解决，而非推理阶段。

方法详解¶

整体框架¶

本文构建了 MCLM 基准 + 对比三种 test-time scaling 方法 + 训练 MR1-1.5B 模型： - 输入：55 种语言的竞赛级数学题 - 评估：准确率 + 跨语言一致性（Fleiss' kappa） - 方法对比：在相同推理 FLOPs 下比较三种策略

关键设计¶

MCLM 基准（55 语言竞赛级数学）:
做什么：包含 4 个子集——MT-MATH100（MATH-500 的 100 题翻译至 55 语言）、MT-AIME2024（AIME 30 题翻译至 55 语言）、M-IMO（人工翻译的 IMO 题，38 语言）、M-MO（各国/地区数学奥赛原始题，11 语言）
核心思路：机器翻译+人工翻译混合，覆盖从中等到极难的不同难度级别。数值答案用 rule-based verifier 评估，复杂答案用 LLM-as-a-Judge
设计动机：MGSM 已饱和，需要更难的benchmark；且仅有机器翻译可能有 artifacts，因此加入 IMO/MO 的人工翻译数据
推理 FLOPs 统一对比:
做什么：将三种方法的推理成本统一为 FLOPs 进行公平对比
核心思路：生成器成本 \(\approx 2N_G D\)（\(N_G\) 为参数量，\(D\) 为生成token数），验证器成本 \(\approx 4N_V\)（考虑推理开销翻倍）。ORM 的 \(k=2\) 对应 PRM 的 \((S=3, c=3)\) 和 BF 的 2048 tokens
设计动机：不同方法的计算代价差异很大，不统一就无法公平比较
MR1-1.5B：多语言思考模型:
做什么：在 Deepseek-R1-1.5B 上用翻译的思考轨迹数据做 SFT
核心思路：将R1的100K思考轨迹翻译到14种语言，保持推理过程为英语（作为pivot语言），仅翻译问题和答案部分。仅训练0.5 epoch避免过拟合
设计动机：利用 R1 已有的扩展推理能力，通过多语言微调提升跨语言泛化
跨语言一致性度量（Fleiss' kappa）:
做什么：将每种语言视为一个"标注者"，用 Fleiss' kappa 衡量模型是否在不同语言上解对/解错同一道题
设计动机：仅看平均准确率不够——可能模型在不同语言上解对的是不同题目，而非一致地解对同一批题

训练策略¶

基座模型：Qwen2.5-Math-1.5B/7B-Instruct 和 Deepseek-R1-1.5B
外部验证器：Qwen2.5-Math-72B-RM（ORM/PRM）
MR1 训练：0.5 epoch SFT on 翻译的 R1 思考轨迹

实验关键数据¶

主实验：MCLM 基准表现¶

模型	MT-MATH100	MT-AIME2024	M-IMO	M-MO	平均
Qwen2.5-Math-1.5B	42.32±8.61	16.36±6.89	12.23±6.02	25.00±19.10	23.98
Deepseek-R1-1.5B	49.40±8.84	17.21±6.69	21.94±6.75	26.77±19.83	28.83
GPT-4o-Mini	70.30±3.68	20.18±6.83	13.33±5.36	30.81±15.80	33.66
MR1-1.5B	55.61±10.93	19.94±8.10	19.20±6.24	28.97±16.64	30.93
o3-Mini	84.89±2.80	45.33±5.35	29.75±6.86	51.42±16.94	52.85

Test-Time Scaling 的多语言泛化¶

方法	英语 AIME 提升	其他语言平均提升	说明
ORM (k=8)	+20 pts (1.5B)	有限/不稳定	在 AIME 上非英语无明显提升
PRM (72B RM)	准确率随FLOPs提升	一致性无改善	Fleiss' kappa 无单调趋势
Budget Forcing	+20 pts (英语 AIME)	+1.94 pts 平均	英语几乎线性提升，其他语言接近无效

关键发现¶

Test-time scaling 的英语偏差极其严重：Budget Forcing 在 AIME 英语上提升 20 分，但 54 种其他语言平均仅提升 1.94 分
三种方法在相同 FLOPs 下表现相当：控制推理计算量后，ORM、PRM、BF 并无本质差别，"thinking LLM"并没有明显优势
ORM 优于 PRM：在相同 FLOPs 预算下 ORM 一般优于 PRM，且 PRM 需要反复调用验证器导致更高延迟
增加推理预算可能降低跨语言一致性：Fleiss' kappa 和标准差在扩展推理后并未改善甚至恶化
多语言翻译数据微调有效但有限：MR1-1.5B 通过翻译 SFT 平均提升 2.1%，但远不足以解决多语言差距

亮点与洞察¶

系统性否定了一个普遍假设：很多人认为 test-time scaling 的收益像 pre-training scaling 一样会自然泛化到多语言，本文用 55 语言的实验证明了这一点并不成立
FLOPs 归一化方法论：统一 ORM/PRM/BF 推理成本的方法很有参考价值，为 test-time scaling 的公平对比提供了标准框架
Fleiss' kappa 用于跨语言一致性评估是一个巧妙的借用——原本用于标注者间一致性度量，这里把语言当作"标注者"

局限性 / 可改进方向¶

实验主要在 1.5B 和 7B 模型上进行，更大模型（70B+）可能表现不同——预训练 scaling 的多语言诅咒在大模型消失，test-time scaling 或许也一样
仅评估数学任务，其他需要文化/领域知识的任务差距可能更大
翻译数据仅覆盖 14 种语言，且推理过程保持英语，未探索用目标语言推理

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究 test-time scaling 的多语言泛化，发现重要且反直觉
实验充分度: ⭐⭐⭐⭐⭐ 55 语言、4 个子集、3 种方法、FLOPs 统一对比，实验设计非常严谨
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，结论明确
价值: ⭐⭐⭐⭐ 对多语言推理和 test-time scaling 研究都有重要启示