Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models¶

会议: ACL 2025
arXiv: 2504.14194
代码: https://github.com/opendatalab/Meta-rater
领域: LLM 预训练数据 / 数据质量
关键词: data selection, pre-training, multi-dimensional quality, proxy model, data curation

一句话总结¶

提出Meta-rater多维数据选择框架，定义PRRC四个质量维度（专业性/可读性/推理性/清洁度），通过proxy模型回归学习多个质量分数的最优加权组合，使1.3B模型训练收敛速度翻倍、下游任务提升3.23%。

研究背景与动机¶

领域现状: 预训练数据质量是LLM性能的关键驱动因素，数据选择已成为核心研究方向。
现有痛点: 现有方法局限于单一维度评估——自然语言质量方法关注表面特征，多样性方法侧重去重，分类器方法使用单维过滤器。
核心矛盾: 如何系统性地整合互补的质量维度以实现全局最优数据选择？
本文要解决什么: 提出多维数据质量评估体系及其最优融合方法。
切入角度: 通过训练proxy模型搜索多维质量分数的最优权重组合。
核心idea一句话: 训练多个proxy模型来拟合"质量权重→验证损失"的映射，找到最优的多维质量分数加权方案。

方法详解¶

整体框架¶

1) 为SlimPajama-627B语料标注25个质量分数（自然语言特征+数据重要性+模型评分）；2) 随机生成权重组合选数据训练proxy模型；3) 拟LightGBM合回归模型预测验证损失；4) 搜索最优权重组合。全流程可自动化执行，无需人工调参。

关键设计¶

PRRC四维评估: 专业性（专业知识密度）、可读性（文本理解难度）、推理性（逻辑推理深度）、清洁度（格式正确性最小噪声）。每个维度用Llama-3.3-70B-Instruct标注500K样本后微调ModernBERT评分模型，F1达87-92%。
Proxy模型训练: 随机生成N组权重→每组按加权分数选top-k数据→训练小模型→记录验证损失，得到(权重，损失)数据对。
回归模型预测: 用LightGBM拟合权重到损失的非线性映射，在更大权重空间中搜索最小损失对应的最优权重 \(\mathbf{w}^* = \arg\min_{\tilde{\mathbf{w}}} f(\tilde{\mathbf{w}})\)。

损失函数 / 训练策略¶

聚合质量分数：\(Q_{agg} = \sum_{j=1}^{m} w_j \cdot Q_j(x)\)
最优权重搜索：\(\mathbf{w}^* = \arg\min_{\mathbf{w}} J(\theta)\)，其中 \(J(\theta)\) 为验证集损失
使用Top-k平均增强鲁棒性
主实验用1.3B模型训练30B tokens，扩展到3.3B和7.2B验证scalability

实验关键数据¶

主实验（1.3B模型下游任务表现）¶

方法	General Know.	Commonsense	Reading Comp.	Average
Random (30B)	52.79	43.94	30.02	43.78
Random (60B)	56.01	44.87	31.47	45.70
QuRating-Edu	57.66	46.72	28.10	46.16
Fineweb-Edu	55.79	45.51	31.10	45.76
MATES	53.15	43.25	30.55	43.79
Meta-rater (All 25)	58.90	45.41	31.55	47.01

消融实验（不同维度组合）¶

Meta-rater配置	Average	相对Random提升
PRRC (4维)	46.35	+2.57
Model (11维)	46.60	+2.82
All (25维)	47.01	+3.23
单维-Professionalism	45.26	+1.48
单维-Readability	45.89	+2.11
单维-Reasoning	45.28	+1.50
单维-Cleanliness	45.68	+1.90

关键发现¶

PPL方法反而导致性能下降（-2.25% average），说明低困惑度不等于高质量
Semdedup同样略微降低性能（-0.81%），去重本身不足以提升质量
DSIR依赖目标域选择，Book域和Wikipedia域效果差异大
Meta-rater (30B tokens)性能超越Random (60B tokens)，收敛速度翻倍
多维融合显著优于任何单一维度选择
PRRC四个评分模型F1分数：Professionalism 91.57%、Readability 87.47%、Reasoning 89.59%、Cleanliness 87.88%
PPL和Semdedup等传统方法反而可能降低性能
优势可扩展至3.3B和7.2B模型

亮点与洞察¶

"Meta-rater"思想通用性强：用proxy模型搜索多维分数的最优组合，可扩展到其他数据选择场景
PRRC维度设计有针对性：推理维度呼应o1时代对reasoning数据的需求，清洁度用模型替代规则方法处理长尾异常
首次发布全标注的SlimPajama-627B（25个质量指标），是数据中心AI研究的重要资源
验证了多维集成远优于单维方法的核心假设——All(25)比任何单维方法提升0.85-1.75个百分点
30B tokens的Meta-rater选数超越60B tokens随机选数的表现，说明质量远比数量重要
四个PRRC评分模型均达到87%+的F1分数，保证了自动标注的可靠性

局限性 / 可改进方向¶

Proxy模型训练成本仍较高（需训练上百个小模型），虽比大模型便宜但总开销不小
LightGBM回归可能无法完全捕获权重空间的复杂非线性关系，可尝试更强的回归模型
仅在SlimPajama上验证，对其他语料（如多语言、代码数据）的泛化待确认
质量维度的最优集合可能随下游任务不同而变化，通用性有待验证
PRRC标注依赖Llama-3.3-70B-Instruct的判断，不同标注模型可能产生不同评分
未考虑数据之间的组合效应（如某些topic pair的互补性）

评分¶

新颖性: ⭐⭐⭐⭐ 多维融合框架设计巧妙，但单个组件（分类器评分/proxy模型）较成熟
实验充分度: ⭐⭐⭐⭐⭐ 对比充分，消融完整，多规模验证（1.3B/3.3B/7.2B）
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述详细，算法伪代码规范
价值: ⭐⭐⭐⭐⭐ 开源数据集和方法对社区有重要贡献
总评: data-centric AI方向的实用性强工作，“质量远重于数量”的结论具有重要指导意义
复现性: 代码、数据、模型全部开源，社区可直接使用
延伸性: 可探索与其他质量维度（如安全性、事实性）的融合