Tucano 2 Cool: Better Open Source LLMs for Portuguese¶
日期: 2026-03-03
arXiv: 2603.03543
代码: huggingface.co/Polygl0t
领域: LLM推理
关键词: 葡萄牙语LLM, 开源, 数据策划, 合成数据, 低资源语言
一句话总结¶
Tucano 2 是一套完全开源的葡萄牙语 LLM(0.5B-3.7B),基于 320B token 高质量语料 GigaVerbo-v2 + 9.3B 合成数据训练,在多个葡萄牙语基准上达到 SOTA,并开放全部数据集、训练配方和评估代码。
研究背景与动机¶
- 领域现状:LLM 在英语上取得巨大成功,但低资源语言(如葡萄牙语)严重落后。多语言模型在非英语上性能差距大。
- 现有痛点:(1) 现有葡萄牙语模型大多不完全开源(不公开训练数据、超参数或训练日志);(2) 闭源多语言模型难以复现和改进;(3) 商业语料(如 Jabuticaba)不公开,限制社区贡献。
- 核心矛盾:高质量葡萄牙语文本有限,且现有开源语料缺乏教育质量和毒性标注,难以做精细化数据筛选。
- 切入角度:全栈开源——从数据采集、质量标注、合成增强、tokenizer 训练到模型训练和评估,全部公开。
- 核心 idea 一句话:通过 LLM-as-Judge 质量标注+合成数据填补领域空白+全栈开源,构建高质量葡萄牙语 LLM。
方法详解¶
整体框架¶
三层数据建设 + 三阶段模型训练:(1) GigaVerbo-v2 语料(320B token)→ (2) GigaVerbo-v2 Synth 合成数据(9.3B token)→ (3) SFT + 偏好数据 → 预训练/继续预训练/后训练。
关键设计¶
-
GigaVerbo-v2 语料构建:
- 做什么:构建 320B token 的高质量葡萄牙语语料
- 核心流程:文本提取(Trafilatura)→ 语言识别(FastText + GlotLID 双重过滤)→ 质量过滤(FineWeb 2 风格启发式规则)→ MinHash 去重 → LLM-as-Judge 质量标注
- 教育质量标注:用 Qwen2.5-32B-Instruct 对 70 万样本做 5 级教育质量+毒性评分,蒸馏为轻量 BERTimbau 分类器(教育 F1=0.57,毒性 F1=0.60)
- 最终:372M 文档,834GB,其中 37%(119B token)为教育内容
-
合成数据增强(GigaVerbo-v2 Synth):
- 做什么:生成 9.3B token 合成数据填补 web 数据盲区
- 用 Qwen2.5 系列(7B/14B/32B)基于 15 个种子数据集生成多样化内容:教育文本、学术文章、编程教程、数学推理、法律摘要、多选题等
- 去污染:token 级 k-gram 匹配确保与评估基准无重叠
- 4 个月 × 16 块 A40 GPU ≈ 48000 GPU 小时
-
数据消融验证:
- Edu+Synth 在 ARC Challenge 达 34.4%(Non-Edu 只有 25.6%)
- HellaSwag: Edu+Synth 46.0% vs Non-Edu 38.3%
- 以远小于竞品的计算量(46B token vs Curió 1T+150B)达到可比性能
模型家族¶
- Tucano2-0.6B-Base(自有 tokenizer)
- Tucano2-qwen-{0.5B, 1.5B, 3.7B}-{Base, Instruct, Think}
- 继续预训练基于 Qwen3 系列
- 全部 Apache 2.0 开源
训练策略¶
- 自定义 SentencePiece tokenizer:40-40-20 葡英代码混合(49152 词表)
- 预训练 + 继续预训练双策略
- SFT 覆盖编码、工具调用、结构化输出、数学推理、CoT
- 双推理偏好数据集支持 DPO 对齐
实验关键数据¶
数据消融(1.5B 模型)¶
| 数据混合 | ARC-C | HellaSwag | Global PIQA | Lambada |
|---|---|---|---|---|
| Edu+Synth | 34.4 | 46.0 | 81.6 | 39.0 |
| Edu only | 32.8 | 44.5 | 82.0 | 37.7 |
| Synth only | 32.6 | 43.8 | 80.2 | 36.5 |
| Non-Edu | 25.6 | 38.3 | 77.8 | 33.2 |
与其他模型对比¶
| 模型 | 参数 | 训练数据 | 完全开源 |
|---|---|---|---|
| Tucano 2 | 0.5-3.7B | 320B+9.3B | ✅ |
| Curió | 1-7B | 1T+150B | 部分 |
| GAIA | 4B | ~13B | 部分 |
| Amadeus-Verbo | 0.5-72B | 未公开 | 部分 |
关键发现¶
- 教育质量筛选是最重要的单一因素:Edu vs Non-Edu 在 ARC-C 上差 8.8%
- 合成数据与教育数据互补:Edu+Synth > Edu only,说明合成数据有效填补领域盲区
- 以 46B token 训练量达到与 1T+ token 模型可比的性能,证明数据质量 >> 数据规模
- 葡萄牙语专用 tokenizer 比通用多语言 tokenizer 压缩效率高约 2 倍
亮点与洞察¶
- 全栈开源是最大亮点:从原始数据到评估基准,每个组件都完全公开和可复现,为低资源语言 LLM 开发树立标杆
- LLM-as-Judge → 轻量分类器 的蒸馏管线可直接复用到其他低资源语言的数据策划
- 去污染方法(token 级 k-gram 匹配)比常见的 n-gram 去污染更精确
局限性 / 可改进方向¶
- 模型最大只有 3.7B 参数,与 Qwen3-4B 等匹敌但无法与 7B+ 模型竞争
- 教育质量分类器 F1 只有 0.57(5 类),可能引入较多噪声
- 合成数据生成耗时长(4 个月),碳足迹高(5.3 吨 CO2e)
- 未与最新商业葡萄牙语模型做全面对比
相关工作与启发¶
- vs Curió:Curió 从英语 LLaMA 继续预训练,Tucano 2 从头训练或从多语言 Qwen3 继续预训练,数据全开源
- vs SmolLM3/OLMo3:同属"全栈开源"阵营,但 Tucano 2 专注葡萄牙语
- vs Falcon 3:Falcon 3 含葡萄牙语但以英语为主,Tucano 2 以葡萄牙语为核心
评分¶
- 新颖性: ⭐⭐⭐ 技术上无突破,核心贡献在于数据和全栈开源
- 实验充分度: ⭐⭐⭐⭐ 数据消融、多模型对比、碳排放计算完整
- 写作质量: ⭐⭐⭐⭐ 结构清晰,可复现性极强
- 价值: ⭐⭐⭐⭐ 为低资源语言 LLM 开发提供了完整的可复现模板