Predict Training Data Quality via Its Geometry in Metric Space¶
会议: NeurIPS 2025
arXiv: 2510.15970
代码: 无
领域: 数据质量 / 拓扑数据分析
关键词: 持久同调, 数据多样性, 训练数据质量, Hill数, 拓扑数据分析
一句话总结¶
提出基于持久同调(Persistent Homology)的训练数据多样性度量方法,证明数据的几何/拓扑结构特征能够有效预测模型性能,优于传统基于熵的Vendi Score等指标。
研究背景与动机¶
高质量训练数据是机器学习的基石。近期研究表明训练数据多样性与模型性能强相关,但现有多样性度量方法(如Vendi Score)基于熵/特征值谱,仅从分布角度衡量均匀程度,未能捕获数据的几何结构信息。
核心问题: - 除了类别平衡外,如果所有数据点同等重要,更多数据是否总是更好? - 增强数据集时,哪种类型的数据更有价值——收缩、扩展、维持还是偏移数据范围? - 数据的几何特性如何影响模型泛化能力?
这些问题促使作者从拓扑数据分析(TDA)的视角,利用持久同调来量化训练数据的结构多样性,并建立其与模型性能的联系。
方法详解¶
整体框架¶
- 在度量空间中构建数据集的Vietoris-Rips复形
- 通过持久同调提取拓扑特征(连通分量\(H_0\)和环\(H_1\))
- 基于持久生命周期定义多样性度量
- 通过迁移学习实验验证度量与模型性能的关联
关键设计¶
PH-based多样性度量:给定数据集 \(X = \{x_1, \dots, x_n\} \subset \mathbb{R}^d\) 及其两两距离矩阵 \(D\),构建Vietoris-Rips过滤复形,得到持久区间集合 \(\mathcal{B}_k = \{(b_i, d_i)\}_{i=1}^{m_k}\)。每个区间的生命周期 \(l_i = d_i - b_i\),归一化权重 \(p_i = l_i / L\)。
在此基础上定义:
- Rényi持久熵:\(\text{PE}_k^{(q)} = \frac{1}{1-q} \log(\sum_{i=1}^{m_k} p_i^q)\)
- Shannon持久熵(\(q \to 1\)时):\(\text{PE}_k^{(1)} = -\sum_{i=1}^{m_k} p_i \log p_i\)
- PH-based Hill数:\(\text{PEH}_k^q(X) = \exp(\text{PE}_k^{(q)})\)
\(H_0\)特征捕获连通分量(簇结构),\(H_1\)特征捕获环结构(更高阶几何信息)。
公理化验证:证明PH度量满足多样性的四个核心公理: - 有效大小:数据重合时多样性最小,分散时增大 - 双胞胎性质:添加重复数据点不改变多样性 - 多尺度:不同同调维度在多尺度上捕获特征 - 对称性:对数据排列顺序不变
子集构造策略:基于每个样本到其他所有点的最大距离排序,构建三类平衡子集: - Closest:从距离排名下半部选取(核心样本) - Farthest:从距离排名上半部选取(边缘样本) - Random:随机均匀采样
损失函数 / 训练策略¶
采用迁移学习方式验证:在BERTbase上添加dropout层和softmax分类器,训练8个epoch,学习率1e-6,dropout率10%。每个训练集固定为500个样本(每类250个),在多个文本分类数据集上评估。
实验关键数据¶
主实验 — PH多样性 vs 模型性能¶
| 子集类型 | 准确率 (avg ± std) | PEH₀¹ | PEH₀²⁰ | H₀ min | PEH₁¹ | PEH₁²⁰ | H₁ mean | Vendi Score |
|---|---|---|---|---|---|---|---|---|
| Closest | 0.836 ± 0.021 | 489 | 347 | 0.0215 | 376 | 126 | 0.0025 | 1.143 |
| Farthest | 0.832 ± 0.014 | 478 | 244 | 0.0191 | 291 | 86 | 0.0029 | 1.160 |
| Random | 0.845 ± 0.013 | 485 | 287 | 0.0234 | 331 | 123 | 0.0028 | 1.151 |
消融实验 — 不同数据集的一致性¶
| 特征 | 与模型准确率的相关性 | 说明 |
|---|---|---|
| PH-based (H₀) 度量 | 正相关 ✅ | 更高的连通分量多样性→更好性能 |
| PH-based (H₁) 度量 | 正相关 ✅ | 更高的环结构多样性→更好性能 |
| Vendi Score | 负相关 ❌ | 更高的分布熵→反而更低性能 |
| H₀ minimum | 与准确率标准差负相关 | 更大几何多样性→更稳定训练 |
实验覆盖五个数据集:Complaints (TC)、SUBJectivity (SUBJ)、SentEval (SE)、Arxiv-10、Medical。
关键发现¶
- PH度量vs Vendi Score:PH度量与模型准确率正相关,而Vendi Score反而呈负相关。基于熵的分布度量不能可靠预测数据质量。
- Random子集最优:在三种构造策略中,随机子集在准确率和稳定性上最优,因其在\(H_0\)(适中的簇分离)和\(H_1\)(稳定环结构)上达到平衡。
- 高阶拓扑特征的价值:\(H_1\)特征在捕获有意义结构模式方面起关键作用,不仅是\(H_0\)连通分量。
- 数据效率:仅6%–19%的原始数据即可达到全数据集微调性能的91%–98.6%,结构多样性比数据量更重要。
亮点与洞察¶
- 新视角:将持久同调从TDA引入数据质量评估,提供了超越分布度量的结构信息
- 反直觉发现:Vendi Score与性能负相关,挑战了"分布熵越高数据越好"的直觉
- 实用指导:高质量数据集应具备良好分离的簇(高\(H_0\) min)和适度稳定的环结构(适中\(H_1\) mean),避免极端冗余或稀疏
- 理论完备:严格证明PH度量满足多样性公理定义
局限与展望¶
- 实验仅限于BERT文本分类的迁移学习,其他模态(图像、多模态)和更大规模设置待验证
- 持久同调的计算复杂度随数据量增加(Vietoris-Rips的时间复杂度通常是指数级),大规模应用需要近似算法
- 仅考虑了\(H_0\)和\(H_1\),高维特征(\(H_2\)等空洞)的作用未探索
- 每类250个样本的实验规模较小,大规模验证的说服力待加强
相关工作与启发¶
- 与Vendi Score(基于特征值谱的熵度量)和MAGAREA/MAGDIFF(基于magnitude的度量)形成对比
- 利用持久同调与凝聚层次聚类的基本联系来定义多样性度量
- 启发方向:将拓扑特征直接整合到数据增强/选择/合成流程中,实现拓扑引导的数据工程
评分¶
- 新颖性:⭐⭐⭐⭐(PH度量数据质量是新视角)
- 技术深度:⭐⭐⭐⭐(公理化证明完整,方法论扎实)
- 实验充分度:⭐⭐⭐(规模较小,模态单一)
- 实用性:⭐⭐⭐(计算开销大,但方向有价值)
相关论文¶
- [ACL 2025] CritiQ: Mining Data Quality Criteria from Human Preferences
- [NeurIPS 2025] Enhancing Training Data Attribution with Representational Optimization
- [ICML 2025] The Double-Ellipsoid Geometry of CLIP
- [NeurIPS 2025] Language Model Behavioral Phases are Consistent Across Architecture, Training Data, and Scale
- [NeurIPS 2025] Nemotron-CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training