AutoDS: Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts¶
会议: ACL 2025
arXiv: 2402.07625
代码: GitHub
领域: 数据筛选 / 数学推理
关键词: 自主数据选择, 零样本生成分类器, 数学文本, 持续预训练, LM-Score, token效率
一句话总结¶
提出 AutoDS——用基座 LLM 自身作为零样本"生成分类器"自动评估数学文本质量。通过两个 yes/no 问题的 logits 计算连续 LM-Score(而非二分类),筛选高质量数学文本做持续预训练,在 MATH/GSM8K/BBH 上大幅提升并实现约 2 倍 token 效率提升。发布 AutoMathText 数据集。
背景与动机¶
LLM 数学推理需要高质量领域特定预训练数据,但数学语料稀缺且质量参差。现有筛选方法的不足:
- GPT-4 + 传统分类器(如 Phi-1 方法):需要人工标注或 GPT-4 标注训练分类器,且仅给离散标签
- 二分类过滤:丢弃了质量的细粒度信息——0.95 和 0.001 的"教育价值"被同样对待
- 关键词启发式:计算 LaTeX 符号数量等无法捕获深层数学推理
核心问题¶
如何无需人工标注或外部模型,仅用基座 LLM 自身自动筛选高质量数学文本用于持续预训练?
方法详解¶
零样本生成分类器¶
- 用 meta-prompt 向基座 LLM 提两个 yes/no 问题:
- "这段文本是否具有数学智能?"
- "它是否对未来的数学学习有用?"
- 从 logits 提取
LM-Score = softmax("YES") / (softmax("YES") + softmax("NO")) - 两个问题的分数相乘得到最终评分——必须两个维度都高分才入选
- 连续值评分而非二分类——保留质量细粒度
自主持续预训练¶
- 基座模型自身选择训练数据——无需 SFT/RLHF/额外分类器
- 类似 Bradley-Terry 模型但零监督
- 动态筛选:随着新数据到来可持续评估
AutoMathText 数据集¶
从 OpenWebMath、arXiv、Algebraic Stack 等来源筛选,已发布到 HuggingFace
实验关键数据¶
| 对比 | 结果 |
|---|---|
| Mistral-7B + AutoDS vs 随机持续预训练 | MATH/GSM8K/BBH 大幅提升 |
| vs 二分类过滤(Phi方法) | 一致超越 |
| Token 效率 | ~2× 提升(用更少 token 达到更好效果) |
| 无需人工标注 | ✓ |
亮点¶
- 模型自己选数据——无需任何外部标注或模型,真正自主
- 连续评分 > 二分类——保留质量细粒度,提升 token 效率
- 2× token 效率——用一半的数据达到更好效果
- 开源数据集 AutoMathText——降低社区数学预训练门槛
- 与 DPO 中 Bradley-Terry 模型的联系——理论上统一
局限性 / 可改进方向¶
- 依赖基座模型质量:弱模型可能无法准确评估数学质量
- 仅数学领域:其他专业领域(如医学/法律)的 meta-prompt 需重新设计
- YES/NO 二值假设:更丰富的质量维度可能需要更复杂的评分
- 仅英语数学文本:多语言数学文本未验证
与相关工作的对比¶
- vs Phi-1/Phi-2 数据筛选:需要 GPT-4 标注+训练分类器;AutoDS 零样本零标注
- vs DSIR/QuRating:基于统计特征;AutoDS 基于 LLM 语义理解
- vs 人工策划数据集:不可扩展;AutoDS 全自动可扩展
启发与关联¶
- "让模型自己选择学什么"是自主AI学习的重要方向
- 连续质量评分比二分类更高效——这个原则适用于所有数据筛选场景
- LM-Score 的 Bradley-Terry 联系提示:数据选择和偏好优化可能在理论上统一
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 零样本生成分类器+连续评分+自主数据选择
- 实验充分度: ⭐⭐⭐⭐ MATH+GSM8K+BBH,2× 效率验证
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,方法优雅
- 价值: ⭐⭐⭐⭐⭐ 对数学LLM预训练数据筛选有直接实用价值+开源数据集