Tucano 2 Cool: Better Open Source LLMs for Portuguese¶

日期: 2026-03-03
arXiv: 2603.03543
代码: huggingface.co/Polygl0t
领域: LLM推理
关键词: 葡萄牙语LLM, 开源, 数据策划, 合成数据, 低资源语言

一句话总结¶

Tucano 2 是一套完全开源的葡萄牙语 LLM（0.5B-3.7B），基于 320B token 高质量语料 GigaVerbo-v2 + 9.3B 合成数据训练，在多个葡萄牙语基准上达到 SOTA，并开放全部数据集、训练配方和评估代码。

领域现状：LLM 在英语上取得巨大成功，但低资源语言（如葡萄牙语）严重落后。多语言模型在非英语上性能差距大。
现有痛点：(1) 现有葡萄牙语模型大多不完全开源（不公开训练数据、超参数或训练日志）；(2) 闭源多语言模型难以复现和改进；(3) 商业语料（如 Jabuticaba）不公开，限制社区贡献。
核心矛盾：高质量葡萄牙语文本有限，且现有开源语料缺乏教育质量和毒性标注，难以做精细化数据筛选。
切入角度：全栈开源——从数据采集、质量标注、合成增强、tokenizer 训练到模型训练和评估，全部公开。
核心 idea 一句话：通过 LLM-as-Judge 质量标注+合成数据填补领域空白+全栈开源，构建高质量葡萄牙语 LLM。

三层数据建设 + 三阶段模型训练：(1) GigaVerbo-v2 语料（320B token）→ (2) GigaVerbo-v2 Synth 合成数据（9.3B token）→ (3) SFT + 偏好数据 → 预训练/继续预训练/后训练。

GigaVerbo-v2 语料构建：
- 做什么：构建 320B token 的高质量葡萄牙语语料
- 核心流程：文本提取（Trafilatura）→ 语言识别（FastText + GlotLID 双重过滤）→ 质量过滤（FineWeb 2 风格启发式规则）→ MinHash 去重 → LLM-as-Judge 质量标注
- 教育质量标注：用 Qwen2.5-32B-Instruct 对 70 万样本做 5 级教育质量+毒性评分，蒸馏为轻量 BERTimbau 分类器（教育 F1=0.57，毒性 F1=0.60）
- 最终：372M 文档，834GB，其中 37%（119B token）为教育内容
合成数据增强（GigaVerbo-v2 Synth）：
- 做什么：生成 9.3B token 合成数据填补 web 数据盲区
- 用 Qwen2.5 系列（7B/14B/32B）基于 15 个种子数据集生成多样化内容：教育文本、学术文章、编程教程、数学推理、法律摘要、多选题等
- 去污染：token 级 k-gram 匹配确保与评估基准无重叠
- 4 个月 × 16 块 A40 GPU ≈ 48000 GPU 小时
数据消融验证：
- Edu+Synth 在 ARC Challenge 达 34.4%（Non-Edu 只有 25.6%）
- HellaSwag: Edu+Synth 46.0% vs Non-Edu 38.3%
- 以远小于竞品的计算量（46B token vs Curió 1T+150B）达到可比性能

数据混合	ARC-C	HellaSwag	Global PIQA	Lambada
Edu+Synth	34.4	46.0	81.6	39.0
Edu only	32.8	44.5	82.0	37.7
Synth only	32.6	43.8	80.2	36.5
Non-Edu	25.6	38.3	77.8	33.2