GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO¶
会议: ACL 2026
arXiv: 2601.06767
代码: 网站
领域: 低资源语言推理 / 数学推理
关键词: 孟加拉语数学推理, 课程学习, GRPO冷启动, 难度感知, 低资源语言
一句话总结¶
本文提出 GanitLLM,首个真正用孟加拉语进行推理(而非翻译或用英语推理)的数学推理模型,构建了难度标注的孟加拉语数学数据集 Ganit,并提出 Curriculum-GRPO 解决低资源语言 GRPO 训练中的冷启动问题,4B 模型在 Bn-MGSM 上提升 8 个准确率百分点,孟加拉语推理 token 从 14% 提升至 88%。
研究背景与动机¶
领域现状:LLM 在高资源语言(英语)的数学推理上取得显著进展(DeepSeek-R1、OpenAI o1),GRPO 等 RL 方法已被证明可有效提升数学推理能力。然而,低资源语言的推理进展严重滞后——孟加拉语是全球第七大语言,但现有 LLM 对孟加拉语数学问题要么用英语推理再翻译答案,要么直接失败。
现有痛点:(1) 现有 LLM 即使被显式要求用孟加拉语推理,仍倾向于用英语推理再输出孟加拉语答案——这对母语用户的可理解性极差;(2) 标准 GRPO 训练在低资源语言上遭遇"冷启动问题"——策略模型因目标语言能力不足无法在 rollout 组中生成任何正确解,导致零奖励、零梯度、无效训练;(3) 孟加拉语数学数据集质量参差不齐,缺乏难度标注和系统的质量过滤。
核心矛盾:GRPO 需要在 rollout 组中至少有部分正确答案来计算有效的优势值,但低资源语言模型在困难问题上完全无法生成正确答案——"需要先会才能学会"的鸡生蛋问题。
本文目标:构建高质量难度标注的孟加拉语数学数据集,设计解决冷启动问题的训练策略,使模型真正用孟加拉语推理而非英语。
切入角度:将问题分解为三步——(1) 数据:构建质量过滤+难度标注的数据集;(2) SFT:先教模型用孟加拉语推理(而非追求正确性);(3) GRPO:用课程学习策略从易到难逐步训练。
核心 idea:通过 Curriculum-GRPO 按难度从易到难排列训练数据,确保模型在每个阶段都能生成部分正确答案以获得有效梯度,避免冷启动。
方法详解¶
整体框架¶
两阶段训练:(1) SFT 阶段——在 CoT-SFT 数据上教模型用孟加拉语逐步推理,关注语言而非正确性;(2) Curriculum-GRPO 阶段——在难度排序的 RL 数据上用 GRPO 训练,从简单问题开始逐步增加难度。数据集 Ganit 从 ~1.5M 原始样本经多阶段过滤和难度标注得到。
关键设计¶
-
难度感知数据集 Ganit:
- 功能:提供高质量、难度标注的孟加拉语数学训练和评估数据
- 核心思路:(a) 从 9 个公开数据集收集 ~1.5M 样本;(b) 人工评估过滤保留准确率 >95% 的数据集(降至 ~1.1M);(c) 规则过滤(仅保留数值解、>99% 孟加拉字符、排除选择题);(d) 模糊去重+MinHash 去重;(e) 用 Qwen3-32B 生成 32 次独立解,基于 pass@k 分为 Easy/Medium/Hard/Olympiad 四级;(f) 对评估基准去污染
- 设计动机:现有孟加拉语数学数据集质量不一,且标准评估集(Bn-MGSM/Bn-MSVAMP)对现代 LLM 来说过于简单(77-86% 是 Easy 级别)
-
Curriculum-GRPO 训练策略:
- 功能:解决低资源语言 GRPO 的冷启动问题
- 核心思路:使用 1-32 的细粒度难度信号(正确生成次数),对每个难度桶(bucket),采样 60% 来自当前桶 + 40% 来自其他 31 个桶(每桶 3 个),然后按主桶难度从易到难排序。这确保了:(a) 模型先在简单问题上获得正确经验;(b) 每个阶段有足够的混合样本防止遗忘;(c) 60/40 的比例平衡了课程信号强度和多样性
- 设计动机:朴素的全排序(100% 按难度)会导致早期在简单问题上过拟合;随机打乱则导致困难问题过早出现引发冷启动
-
三维奖励函数:
- 功能:同时优化格式正确性、答案准确性和孟加拉语推理比例
- 核心思路:\(R = R_{format} + R_{correctness} + R_{bengali}\),其中 \(R_{format} \in \{0,1\}\) 检查输出格式,\(R_{correctness} \in \{0,1,2\}\) 奖励正确答案(用孟加拉语回答额外加分),\(R_{bengali} \in \{0,1\}\) 当推理中孟加拉语 token 比例 ≥80% 时给予奖励
- 设计动机:传统 GRPO 仅奖励最终答案正确性,不激励模型用目标语言推理
损失函数 / 训练策略¶
SFT 阶段使用标准交叉熵损失。GRPO 阶段使用标准 GRPO 损失 + 超长过滤器 + token 级损失。基座模型 Qwen3-4B。
实验关键数据¶
主实验¶
| 模型 | Bn-MGSM | Bn-MSVAMP | 孟加拉语% | 平均长度(词) |
|---|---|---|---|---|
| Qwen3-4B (基座) | 69 | 78 | 14% | 943 |
| + SFT only | 73 | 81 | 82% | 210 |
| + Curriculum-GRPO | 77 | 84 | 88% | 193 |
| Qwen3-8B | 76 | 83 | 18% | 876 |
| GPT-5-mini | 82 | 88 | 45% | 520 |
消融实验¶
| 训练策略 | Bn-MGSM | 冷启动率 |
|---|---|---|
| 随机打乱 GRPO | 72 | 35% |
| 全排序(易→难) | 74 | 12% |
| Curriculum-GRPO (60/40) | 77 | 5% |
关键发现¶
- Curriculum-GRPO 将冷启动率从 35% 降至 5%,是解决低资源语言 GRPO 训练的关键
- SFT 阶段对语言切换至关重要——仅靠 GRPO 的孟加拉语奖励无法将推理语言从英语转为孟加拉语
- 4B 模型通过 Curriculum-GRPO 达到了 8B 基座模型的准确率水平,同时推理 token 减少 79.5%
- Ganit-Dev 的难度分布远比标准评估集均衡(各级约 21-29% vs 标准集 77-86% 是 Easy),提供了更有区分度的评估
亮点与洞察¶
- "冷启动问题"的识别和解决对所有低资源语言的 RL 训练都有参考价值
- 三维奖励函数的设计优雅——不仅优化正确性,还显式激励目标语言推理
- 80% 的孟加拉语阈值设计考虑了数学符号的语言无关性,体现了领域理解
局限与展望¶
- 仅在 4B 模型上验证,更大模型上冷启动问题可能不同
- Curriculum 的 60/40 比例是经验调优的,缺乏理论指导
- 难度标签依赖于 Qwen3-32B 的能力,随评估模型能力变化可能需要更新
- 仅在数学推理上验证,对逻辑推理、常识推理等其他推理任务的适用性未知
相关工作与启发¶
- vs Confucius3-Math: 中文 K-12 数学模型使用标准 RL;GanitLLM 需要解决孟加拉语训练数据量级更小的冷启动问题
- vs mCoT: mCoT 多语言 CoT 调优但不强制目标语言推理;GanitLLM 通过专门的孟加拉语奖励实现 88% 的母语推理
- vs MathOctopus: 使用平行语料但推理仍在英语;GanitLLM 实现真正的母语推理
评分¶
- 新颖性: ⭐⭐⭐⭐ Curriculum-GRPO 和冷启动问题的识别是新颖的贡献
- 实验充分度: ⭐⭐⭐⭐ 详细的消融+数据集质量分析+语言比例统计
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,数据构建过程详尽
- 价值: ⭐⭐⭐⭐ 对低资源语言 RL 训练提供了实用的解决方案
相关论文¶
- [ICLR 2026] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
- [ACL 2026] Semantic-Aware Logical Reasoning via a Semiotic Framework
- [ACL 2026] Budget-Aware Anytime Reasoning with LLM-Synthesized Preference Data
- [ACL 2026] Logical Phase Transitions: Understanding Collapse in LLM Logical Reasoning
- [NeurIPS 2025] Curriculum Abductive Learning