跳转至

Tucano 2 Cool: Better Open Source LLMs for Portuguese

日期: 2026-03-03
arXiv: 2603.03543
代码: huggingface.co/Polygl0t
领域: LLM推理
关键词: 葡萄牙语LLM, 开源, 数据策划, 合成数据, 低资源语言

一句话总结

Tucano 2 是一套完全开源的葡萄牙语 LLM(0.5B-3.7B),基于 320B token 高质量语料 GigaVerbo-v2 + 9.3B 合成数据训练,在多个葡萄牙语基准上达到 SOTA,并开放全部数据集、训练配方和评估代码。

研究背景与动机

  1. 领域现状:LLM 在英语上取得巨大成功,但低资源语言(如葡萄牙语)严重落后。多语言模型在非英语上性能差距大。
  2. 现有痛点:(1) 现有葡萄牙语模型大多不完全开源(不公开训练数据、超参数或训练日志);(2) 闭源多语言模型难以复现和改进;(3) 商业语料(如 Jabuticaba)不公开,限制社区贡献。
  3. 核心矛盾:高质量葡萄牙语文本有限,且现有开源语料缺乏教育质量和毒性标注,难以做精细化数据筛选。
  4. 切入角度:全栈开源——从数据采集、质量标注、合成增强、tokenizer 训练到模型训练和评估,全部公开。
  5. 核心 idea 一句话:通过 LLM-as-Judge 质量标注+合成数据填补领域空白+全栈开源,构建高质量葡萄牙语 LLM。

方法详解

整体框架

三层数据建设 + 三阶段模型训练:(1) GigaVerbo-v2 语料(320B token)→ (2) GigaVerbo-v2 Synth 合成数据(9.3B token)→ (3) SFT + 偏好数据 → 预训练/继续预训练/后训练。

关键设计

  1. GigaVerbo-v2 语料构建

    • 做什么:构建 320B token 的高质量葡萄牙语语料
    • 核心流程:文本提取(Trafilatura)→ 语言识别(FastText + GlotLID 双重过滤)→ 质量过滤(FineWeb 2 风格启发式规则)→ MinHash 去重 → LLM-as-Judge 质量标注
    • 教育质量标注:用 Qwen2.5-32B-Instruct 对 70 万样本做 5 级教育质量+毒性评分,蒸馏为轻量 BERTimbau 分类器(教育 F1=0.57,毒性 F1=0.60)
    • 最终:372M 文档,834GB,其中 37%(119B token)为教育内容
  2. 合成数据增强(GigaVerbo-v2 Synth)

    • 做什么:生成 9.3B token 合成数据填补 web 数据盲区
    • 用 Qwen2.5 系列(7B/14B/32B)基于 15 个种子数据集生成多样化内容:教育文本、学术文章、编程教程、数学推理、法律摘要、多选题等
    • 去污染:token 级 k-gram 匹配确保与评估基准无重叠
    • 4 个月 × 16 块 A40 GPU ≈ 48000 GPU 小时
  3. 数据消融验证

    • Edu+Synth 在 ARC Challenge 达 34.4%(Non-Edu 只有 25.6%)
    • HellaSwag: Edu+Synth 46.0% vs Non-Edu 38.3%
    • 以远小于竞品的计算量(46B token vs Curió 1T+150B)达到可比性能

模型家族

  • Tucano2-0.6B-Base(自有 tokenizer)
  • Tucano2-qwen-{0.5B, 1.5B, 3.7B}-{Base, Instruct, Think}
  • 继续预训练基于 Qwen3 系列
  • 全部 Apache 2.0 开源

训练策略

  • 自定义 SentencePiece tokenizer:40-40-20 葡英代码混合(49152 词表)
  • 预训练 + 继续预训练双策略
  • SFT 覆盖编码、工具调用、结构化输出、数学推理、CoT
  • 双推理偏好数据集支持 DPO 对齐

实验关键数据

数据消融(1.5B 模型)

数据混合 ARC-C HellaSwag Global PIQA Lambada
Edu+Synth 34.4 46.0 81.6 39.0
Edu only 32.8 44.5 82.0 37.7
Synth only 32.6 43.8 80.2 36.5
Non-Edu 25.6 38.3 77.8 33.2

与其他模型对比

模型 参数 训练数据 完全开源
Tucano 2 0.5-3.7B 320B+9.3B
Curió 1-7B 1T+150B 部分
GAIA 4B ~13B 部分
Amadeus-Verbo 0.5-72B 未公开 部分

关键发现

  • 教育质量筛选是最重要的单一因素:Edu vs Non-Edu 在 ARC-C 上差 8.8%
  • 合成数据与教育数据互补:Edu+Synth > Edu only,说明合成数据有效填补领域盲区
  • 以 46B token 训练量达到与 1T+ token 模型可比的性能,证明数据质量 >> 数据规模
  • 葡萄牙语专用 tokenizer 比通用多语言 tokenizer 压缩效率高约 2 倍

亮点与洞察

  • 全栈开源是最大亮点:从原始数据到评估基准,每个组件都完全公开和可复现,为低资源语言 LLM 开发树立标杆
  • LLM-as-Judge → 轻量分类器 的蒸馏管线可直接复用到其他低资源语言的数据策划
  • 去污染方法(token 级 k-gram 匹配)比常见的 n-gram 去污染更精确

局限性 / 可改进方向

  • 模型最大只有 3.7B 参数,与 Qwen3-4B 等匹敌但无法与 7B+ 模型竞争
  • 教育质量分类器 F1 只有 0.57(5 类),可能引入较多噪声
  • 合成数据生成耗时长(4 个月),碳足迹高(5.3 吨 CO2e)
  • 未与最新商业葡萄牙语模型做全面对比

相关工作与启发

  • vs Curió:Curió 从英语 LLaMA 继续预训练,Tucano 2 从头训练或从多语言 Qwen3 继续预训练,数据全开源
  • vs SmolLM3/OLMo3:同属"全栈开源"阵营,但 Tucano 2 专注葡萄牙语
  • vs Falcon 3:Falcon 3 含葡萄牙语但以英语为主,Tucano 2 以葡萄牙语为核心

评分

  • 新颖性: ⭐⭐⭐ 技术上无突破,核心贡献在于数据和全栈开源
  • 实验充分度: ⭐⭐⭐⭐ 数据消融、多模型对比、碳排放计算完整
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,可复现性极强
  • 价值: ⭐⭐⭐⭐ 为低资源语言 LLM 开发提供了完整的可复现模板