AutoDS: Autonomous Data Selection with Zero-shot Generative Classifiers for Mathematical Texts¶

会议: ACL 2025
arXiv: 2402.07625
代码: GitHub
领域: 数据筛选 / 数学推理
关键词: 自主数据选择, 零样本生成分类器, 数学文本, 持续预训练, LM-Score, token效率

一句话总结¶

提出 AutoDS——用基座 LLM 自身作为零样本"生成分类器"自动评估数学文本质量。通过两个 yes/no 问题的 logits 计算连续 LM-Score（而非二分类），筛选高质量数学文本做持续预训练，在 MATH/GSM8K/BBH 上大幅提升并实现约 2 倍 token 效率提升。发布 AutoMathText 数据集。

背景与动机¶

LLM 数学推理需要高质量领域特定预训练数据，但数学语料稀缺且质量参差。现有筛选方法的不足：

GPT-4 + 传统分类器（如 Phi-1 方法）：需要人工标注或 GPT-4 标注训练分类器，且仅给离散标签
二分类过滤：丢弃了质量的细粒度信息——0.95 和 0.001 的"教育价值"被同样对待
关键词启发式：计算 LaTeX 符号数量等无法捕获深层数学推理

核心问题¶

如何无需人工标注或外部模型，仅用基座 LLM 自身自动筛选高质量数学文本用于持续预训练？

方法详解¶

零样本生成分类器¶

用 meta-prompt 向基座 LLM 提两个 yes/no 问题：
"这段文本是否具有数学智能？"
"它是否对未来的数学学习有用？"
从 logits 提取 LM-Score = softmax("YES") / (softmax("YES") + softmax("NO"))
两个问题的分数相乘得到最终评分——必须两个维度都高分才入选
连续值评分而非二分类——保留质量细粒度

自主持续预训练¶

基座模型自身选择训练数据——无需 SFT/RLHF/额外分类器
类似 Bradley-Terry 模型但零监督
动态筛选：随着新数据到来可持续评估

AutoMathText 数据集¶

从 OpenWebMath、arXiv、Algebraic Stack 等来源筛选，已发布到 HuggingFace

实验关键数据¶

对比	结果
Mistral-7B + AutoDS vs 随机持续预训练	MATH/GSM8K/BBH 大幅提升
vs 二分类过滤（Phi方法）	一致超越
Token 效率	~2× 提升（用更少 token 达到更好效果）
无需人工标注	✓

亮点¶

模型自己选数据——无需任何外部标注或模型，真正自主
连续评分 > 二分类——保留质量细粒度，提升 token 效率
2× token 效率——用一半的数据达到更好效果
开源数据集 AutoMathText——降低社区数学预训练门槛
与 DPO 中 Bradley-Terry 模型的联系——理论上统一

局限性 / 可改进方向¶

依赖基座模型质量：弱模型可能无法准确评估数学质量
仅数学领域：其他专业领域（如医学/法律）的 meta-prompt 需重新设计
YES/NO 二值假设：更丰富的质量维度可能需要更复杂的评分
仅英语数学文本：多语言数学文本未验证

与相关工作的对比¶

vs Phi-1/Phi-2 数据筛选：需要 GPT-4 标注+训练分类器；AutoDS 零样本零标注
vs DSIR/QuRating：基于统计特征；AutoDS 基于 LLM 语义理解
vs 人工策划数据集：不可扩展；AutoDS 全自动可扩展

启发与关联¶

"让模型自己选择学什么"是自主AI学习的重要方向
连续质量评分比二分类更高效——这个原则适用于所有数据筛选场景
LM-Score 的 Bradley-Terry 联系提示：数据选择和偏好优化可能在理论上统一

评分¶

新颖性: ⭐⭐⭐⭐⭐ 零样本生成分类器+连续评分+自主数据选择
实验充分度: ⭐⭐⭐⭐ MATH+GSM8K+BBH，2× 效率验证
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，方法优雅
价值: ⭐⭐⭐⭐⭐ 对数学LLM预训练数据筛选有直接实用价值+开源数据集