TigerLLM - A Family of Bangla Large Language Models¶

会议: ACL 2025
arXiv: 2503.10995
代码: github.com/mraihan-gmu/TigerLLM
领域: LLM/NLP
关键词: 低资源语言, 孟加拉语LLM, 高质量数据, 持续预训练, 模型蒸馏

一句话总结¶

针对孟加拉语（全球第5大语言）的 LLM 严重不足问题，构建高质量教科书语料 Bangla-TextBook（10M token）和原生指令数据 Bangla-Instruct（100K），训练的 TigerLLM 家族在六项基准上超越所有开源替代方案并胜过 GPT-3.5。

研究背景与动机¶

孟加拉语拥有约2.37亿母语使用者，是全球第5大语言，但在 NLP 领域严重被低估：

现有孟加拉语 LLM 的问题¶

训练过程不规范： - titu-Gemma、Bong-LLaMA 等模型缺乏技术文档和学术论文 - 微调后性能反而低于基座模型（如 titu-LLM 在 MMLU-bn 上仅 0.06，远低于 Gemma-2 基座的 0.35） - 结果不可复现

数据质量低下： - 多数项目依赖翻译版的 Alpaca-Instruct 和 OpenOrca - 这些数据集由早期 GPT-3.5 生成，其孟加拉语支持能力有限 - 使用 Google Translate 翻译后质量进一步下降

训练语料问题： - 主要依赖 OSCAR 和 Common Crawl，质量控制不足 - 缺乏高质量的教育类孟加拉语内容

方法详解¶

整体框架¶

TigerLLM 的开发包含三个核心贡献：

Bangla-TextBook 语料：来自孟加拉国国家课程与教科书委员会的6-12年级教科书
Bangla-Instruct 数据集：使用 GPT-4o 和 Claude-3.5-Sonnet 生成的原生孟加拉语指令数据
TigerLLM 模型家族：基于 LLaMA 3.2 (1B) 和 Gemma 2 (9B) 持续预训练并微调

关键设计¶

Bangla-TextBook 语料构建： - 来源：孟加拉国国家课程与教科书委员会出版的163本开源教科书 - 年级范围：6-12年级，覆盖多个学科领域 - 规模：9,897,623 token，697,903 句子 - 核心理念：数据质量优于数量（Gunasekar et al., 2023 "Textbooks Are All You Need" 的启发）

Bangla-Instruct 生成流水线（四阶段）：

种子与指令生成：
- 500个种子任务由50名来自孟加拉国主要大学的本科/研究生志愿者创建
- 覆盖5个学科方向和10个类别
- 每轮采样 k=8 个种子，用 Claude 生成新指令候选
任务类型分类：
- GPT-4o 将每条指令分为开放式、分类、生成三类
- 确定最低回答长度阈值
回答起草：
- Claude 根据指令和类型生成全面回答
- 保留内部一致性评分最高的版本
多阶段过滤：
- GPT-4o 应用四维过滤：语言（ℒ）、文化（𝒞）、质量（𝒬）、新颖性（𝒩）
- 约63%的 (指令, 回答) 对通过过滤
- 复杂度分布：40%基础、40%中级、20%高级
- 通过验证的对加入种子池，循环直到达到100K高质量对

模型选择与演化： - 候选基座模型：LLaMA 3.2 (1B, 3B)、Gemma 2 (2B, 9B)、Pangea (7B) - 经选择后确定 LLaMA 3.2 (1B) 和 Gemma 2 (9B) 作为最终基座 - Pangea 因孟加拉语性能过低被淘汰

损失函数 / 训练策略¶

持续预训练： - 硬件：8 × NVIDIA A100 (40GB)，512GB RAM - 使用 Bangla-TextBook 语料 - 训练约120小时（梯度检查点启用） - 多次试验以经验性确定超参数

微调： - 硬件：单块 NVIDIA A100 (40GB)，Google Colab - 不使用 LoRA，采用全参微调以获得更好学习效果 - 使用 Flash Attention 加速 - 关键参数：最大序列长度 2048，batch size 8，梯度累积步数 4，训练 3 epoch - 学习率 5×10⁻⁵，权重衰减 0.02，10%预热步数 - 训练约96小时

实验关键数据¶

主实验¶

六项孟加拉语基准上的表现（Pass@1）：

模型	MMLU-bn	PangBench	BanglaQuaD	mHumanEval	BEnQA	BanglaRQA
GPT-3.5	0.55	0.55	0.50	0.56	0.50	0.49
GPT-4o-mini	0.67	0.62	0.65	0.56	0.60	0.60
Gemma 2 (27B)	0.35	0.51	0.43	0.64	0.50	0.56
LLaMA 3.2 (11B)	0.22	0.19	0.21	0.15	0.18	0.20
Titu-LLM	0.06	0.19	0.08	0.02	0.17	0.21
Bong-LLaMA	0.05	0.12	0.08	0.02	0.15	0.13
TigerLLM (1B)	0.61	0.55	0.68	0.61	0.59	0.62
TigerLLM (9B)	0.72	0.68	0.70	0.63	0.65	0.68

核心发现： - TigerLLM (9B) 在所有指标上超越 GPT-3.5 和 GPT-4o-mini（除编码外） - TigerLLM (1B)（仅1B参数！）在多数任务上超越 GPT-3.5 和所有开源替代方案 - 现有微调模型（Titu-LLM、Bong-LLaMA）的结果不可复现，性能远低于基座模型

消融实验¶

数据质量 vs. 数量的验证： - TigerLLM 仅使用 10M token 预训练 + 100K 指令微调 - 相比之下 titu-Gemma 使用 4.4B token、titu-LLaMA 使用 37B token - TigerLLM 以极小数据量实现远超大规模方案的效果 - 验证了"高质量数据优于海量低质数据"的假说

预训练与微调的损失曲线： - 持续预训练：损失稳定下降，模型有效吸收孟加拉语知识 - 微调：损失快速收敛，3 epoch 内达到良好效果

关键发现¶

数据质量压倒性地重要于数据量：10M token 的教科书语料 > 37B token 的网络数据
原生语言指令优于翻译指令：Bangla-Instruct（原生生成）远优于翻译 Alpaca/OpenOrca
全参微调优于 LoRA：在资源允许的情况下，全参微调带来更好效果
小模型的潜力：1B 模型通过高质量数据可超越 11B-27B 基座模型
既有孟加拉语 LLM 的系统性问题：训练不当导致微调后反而退化

亮点与洞察¶

"教科书就是你所需要的"在低资源语言中的验证：将 Phi-1 的理念成功应用于孟加拉语，证明了高质量策划数据的普适价值
自指令生成的多文化扩展：500个人工种子任务确保了文化真实性，避免了翻译数据的文化失真
完整开源：语料、指令数据、模型全部开源，具有极高的可复现性和社区价值
务实的算力方案：整个训练流程仅需 8×A100（预训练）+ 1×A100（微调），适合资源有限的团队
系统性诊断现有问题：深入分析了其他孟加拉语 LLM 失败的根本原因

局限与展望¶

语料领域偏窄：仅来自6-12年级教科书，缺少新闻、文学、技术文档等领域
模型规模受限：仅1B和9B，未探索更大规模是否能进一步提升
指令类型有限：100K 指令仅覆盖部分任务类型，可能无法涵盖真实使用场景的复杂性
缺乏深度定性分析：未展示模型的错误模式和失败案例
评估基准有限：孟加拉语评估基准本身不够全面，可能低估或高估某些能力

评分¶

创新性：⭐⭐⭐ — 方法层面是已有技术的组合应用，但问题定义和数据工程有价值
实用性：⭐⭐⭐⭐⭐ — 为2.37亿孟加拉语使用者提供了首个高质量开源 LLM
实验充分性：⭐⭐⭐ — 覆盖6项基准但缺少消融和深度分析
写作质量：⭐⭐⭐⭐ — 问题动机清晰，数据工程流程描述详细