GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO¶

会议: ACL 2026
arXiv: 2601.06767
代码: 网站
领域: 低资源语言推理 / 数学推理
关键词: 孟加拉语数学推理, 课程学习, GRPO冷启动, 难度感知, 低资源语言

一句话总结¶

本文提出 GanitLLM，首个真正用孟加拉语进行推理（而非翻译或用英语推理）的数学推理模型，构建了难度标注的孟加拉语数学数据集 Ganit，并提出 Curriculum-GRPO 解决低资源语言 GRPO 训练中的冷启动问题，4B 模型在 Bn-MGSM 上提升 8 个准确率百分点，孟加拉语推理 token 从 14% 提升至 88%。

研究背景与动机¶

领域现状：LLM 在高资源语言（英语）的数学推理上取得显著进展（DeepSeek-R1、OpenAI o1），GRPO 等 RL 方法已被证明可有效提升数学推理能力。然而，低资源语言的推理进展严重滞后——孟加拉语是全球第七大语言，但现有 LLM 对孟加拉语数学问题要么用英语推理再翻译答案，要么直接失败。

现有痛点：(1) 现有 LLM 即使被显式要求用孟加拉语推理，仍倾向于用英语推理再输出孟加拉语答案——这对母语用户的可理解性极差；(2) 标准 GRPO 训练在低资源语言上遭遇"冷启动问题"——策略模型因目标语言能力不足无法在 rollout 组中生成任何正确解，导致零奖励、零梯度、无效训练；(3) 孟加拉语数学数据集质量参差不齐，缺乏难度标注和系统的质量过滤。

核心矛盾：GRPO 需要在 rollout 组中至少有部分正确答案来计算有效的优势值，但低资源语言模型在困难问题上完全无法生成正确答案——"需要先会才能学会"的鸡生蛋问题。

本文目标：构建高质量难度标注的孟加拉语数学数据集，设计解决冷启动问题的训练策略，使模型真正用孟加拉语推理而非英语。

切入角度：将问题分解为三步——(1) 数据：构建质量过滤+难度标注的数据集；(2) SFT：先教模型用孟加拉语推理（而非追求正确性）；(3) GRPO：用课程学习策略从易到难逐步训练。

核心 idea：通过 Curriculum-GRPO 按难度从易到难排列训练数据，确保模型在每个阶段都能生成部分正确答案以获得有效梯度，避免冷启动。

方法详解¶

整体框架¶

两阶段训练：(1) SFT 阶段——在 CoT-SFT 数据上教模型用孟加拉语逐步推理，关注语言而非正确性；(2) Curriculum-GRPO 阶段——在难度排序的 RL 数据上用 GRPO 训练，从简单问题开始逐步增加难度。数据集 Ganit 从 ~1.5M 原始样本经多阶段过滤和难度标注得到。

关键设计¶

难度感知数据集 Ganit:
- 功能：提供高质量、难度标注的孟加拉语数学训练和评估数据
- 核心思路：(a) 从 9 个公开数据集收集 ~1.5M 样本；(b) 人工评估过滤保留准确率 >95% 的数据集（降至 ~1.1M）；(c) 规则过滤（仅保留数值解、>99% 孟加拉字符、排除选择题）；(d) 模糊去重+MinHash 去重；(e) 用 Qwen3-32B 生成 32 次独立解，基于 pass@k 分为 Easy/Medium/Hard/Olympiad 四级；(f) 对评估基准去污染
- 设计动机：现有孟加拉语数学数据集质量不一，且标准评估集（Bn-MGSM/Bn-MSVAMP）对现代 LLM 来说过于简单（77-86% 是 Easy 级别）
Curriculum-GRPO 训练策略:
- 功能：解决低资源语言 GRPO 的冷启动问题
- 核心思路：使用 1-32 的细粒度难度信号（正确生成次数），对每个难度桶（bucket），采样 60% 来自当前桶 + 40% 来自其他 31 个桶（每桶 3 个），然后按主桶难度从易到难排序。这确保了：(a) 模型先在简单问题上获得正确经验；(b) 每个阶段有足够的混合样本防止遗忘；(c) 60/40 的比例平衡了课程信号强度和多样性
- 设计动机：朴素的全排序（100% 按难度）会导致早期在简单问题上过拟合；随机打乱则导致困难问题过早出现引发冷启动
三维奖励函数:
- 功能：同时优化格式正确性、答案准确性和孟加拉语推理比例
- 核心思路：\(R = R_{format} + R_{correctness} + R_{bengali}\)，其中 \(R_{format} \in \{0,1\}\) 检查输出格式，\(R_{correctness} \in \{0,1,2\}\) 奖励正确答案（用孟加拉语回答额外加分），\(R_{bengali} \in \{0,1\}\) 当推理中孟加拉语 token 比例 ≥80% 时给予奖励
- 设计动机：传统 GRPO 仅奖励最终答案正确性，不激励模型用目标语言推理

损失函数 / 训练策略¶

SFT 阶段使用标准交叉熵损失。GRPO 阶段使用标准 GRPO 损失 + 超长过滤器 + token 级损失。基座模型 Qwen3-4B。

实验关键数据¶

主实验¶

模型	Bn-MGSM	Bn-MSVAMP	孟加拉语%	平均长度(词)
Qwen3-4B (基座)	69	78	14%	943
+ SFT only	73	81	82%	210
+ Curriculum-GRPO	77	84	88%	193
Qwen3-8B	76	83	18%	876
GPT-5-mini	82	88	45%	520

消融实验¶

训练策略	Bn-MGSM	冷启动率
随机打乱 GRPO	72	35%
全排序（易→难）	74	12%
Curriculum-GRPO (60/40)	77	5%

关键发现¶

Curriculum-GRPO 将冷启动率从 35% 降至 5%，是解决低资源语言 GRPO 训练的关键
SFT 阶段对语言切换至关重要——仅靠 GRPO 的孟加拉语奖励无法将推理语言从英语转为孟加拉语
4B 模型通过 Curriculum-GRPO 达到了 8B 基座模型的准确率水平，同时推理 token 减少 79.5%
Ganit-Dev 的难度分布远比标准评估集均衡（各级约 21-29% vs 标准集 77-86% 是 Easy），提供了更有区分度的评估

亮点与洞察¶

"冷启动问题"的识别和解决对所有低资源语言的 RL 训练都有参考价值
三维奖励函数的设计优雅——不仅优化正确性，还显式激励目标语言推理
80% 的孟加拉语阈值设计考虑了数学符号的语言无关性，体现了领域理解

局限与展望¶

仅在 4B 模型上验证，更大模型上冷启动问题可能不同
Curriculum 的 60/40 比例是经验调优的，缺乏理论指导
难度标签依赖于 Qwen3-32B 的能力，随评估模型能力变化可能需要更新
仅在数学推理上验证，对逻辑推理、常识推理等其他推理任务的适用性未知

评分¶

新颖性: ⭐⭐⭐⭐ Curriculum-GRPO 和冷启动问题的识别是新颖的贡献
实验充分度: ⭐⭐⭐⭐ 详细的消融+数据集质量分析+语言比例统计
写作质量: ⭐⭐⭐⭐ 问题定义清晰，数据构建过程详尽
价值: ⭐⭐⭐⭐ 对低资源语言 RL 训练提供了实用的解决方案