跳转至

AutoDS: Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts

会议: ACL 2025
arXiv: 2402.07625
代码: GitHub
领域: 数据筛选 / 数学推理
关键词: 自主数据选择, 零样本生成分类器, 数学文本, 持续预训练, LM-Score, token效率

一句话总结

提出 AutoDS——用基座 LLM 自身作为零样本"生成分类器"自动评估数学文本质量。通过两个 yes/no 问题的 logits 计算连续 LM-Score(而非二分类),筛选高质量数学文本做持续预训练,在 MATH/GSM8K/BBH 上大幅提升并实现约 2 倍 token 效率提升。发布 AutoMathText 数据集。

背景与动机

LLM 数学推理需要高质量领域特定预训练数据,但数学语料稀缺且质量参差。现有筛选方法的不足:

  1. GPT-4 + 传统分类器(如 Phi-1 方法):需要人工标注或 GPT-4 标注训练分类器,且仅给离散标签
  2. 二分类过滤:丢弃了质量的细粒度信息——0.95 和 0.001 的"教育价值"被同样对待
  3. 关键词启发式:计算 LaTeX 符号数量等无法捕获深层数学推理

核心问题

如何无需人工标注或外部模型,仅用基座 LLM 自身自动筛选高质量数学文本用于持续预训练?

方法详解

零样本生成分类器

  • 用 meta-prompt 向基座 LLM 提两个 yes/no 问题:
  • "这段文本是否具有数学智能?"
  • "它是否对未来的数学学习有用?"
  • 从 logits 提取 LM-Score = softmax("YES") / (softmax("YES") + softmax("NO"))
  • 两个问题的分数相乘得到最终评分——必须两个维度都高分才入选
  • 连续值评分而非二分类——保留质量细粒度

自主持续预训练

  • 基座模型自身选择训练数据——无需 SFT/RLHF/额外分类器
  • 类似 Bradley-Terry 模型但零监督
  • 动态筛选:随着新数据到来可持续评估

AutoMathText 数据集

从 OpenWebMath、arXiv、Algebraic Stack 等来源筛选,已发布到 HuggingFace

实验关键数据

对比 结果
Mistral-7B + AutoDS vs 随机持续预训练 MATH/GSM8K/BBH 大幅提升
vs 二分类过滤(Phi方法) 一致超越
Token 效率 ~2× 提升(用更少 token 达到更好效果)
无需人工标注

亮点

  • 模型自己选数据——无需任何外部标注或模型,真正自主
  • 连续评分 > 二分类——保留质量细粒度,提升 token 效率
  • 2× token 效率——用一半的数据达到更好效果
  • 开源数据集 AutoMathText——降低社区数学预训练门槛
  • 与 DPO 中 Bradley-Terry 模型的联系——理论上统一

局限性 / 可改进方向

  • 依赖基座模型质量:弱模型可能无法准确评估数学质量
  • 仅数学领域:其他专业领域(如医学/法律)的 meta-prompt 需重新设计
  • YES/NO 二值假设:更丰富的质量维度可能需要更复杂的评分
  • 仅英语数学文本:多语言数学文本未验证

与相关工作的对比

  • vs Phi-1/Phi-2 数据筛选:需要 GPT-4 标注+训练分类器;AutoDS 零样本零标注
  • vs DSIR/QuRating:基于统计特征;AutoDS 基于 LLM 语义理解
  • vs 人工策划数据集:不可扩展;AutoDS 全自动可扩展

启发与关联

  • "让模型自己选择学什么"是自主AI学习的重要方向
  • 连续质量评分比二分类更高效——这个原则适用于所有数据筛选场景
  • LM-Score 的 Bradley-Terry 联系提示:数据选择和偏好优化可能在理论上统一

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 零样本生成分类器+连续评分+自主数据选择
  • 实验充分度: ⭐⭐⭐⭐ MATH+GSM8K+BBH,2× 效率验证
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,方法优雅
  • 价值: ⭐⭐⭐⭐⭐ 对数学LLM预训练数据筛选有直接实用价值+开源数据集