Predict Training Data Quality via Its Geometry in Metric Space¶

会议: NeurIPS 2025
arXiv: 2510.15970
代码: 无
领域: 数据质量 / 拓扑数据分析
关键词: 持久同调, 数据多样性, 训练数据质量, Hill数, 拓扑数据分析

一句话总结¶

提出基于持久同调（Persistent Homology）的训练数据多样性度量方法，证明数据的几何/拓扑结构特征能够有效预测模型性能，优于传统基于熵的Vendi Score等指标。

研究背景与动机¶

高质量训练数据是机器学习的基石。近期研究表明训练数据多样性与模型性能强相关，但现有多样性度量方法（如Vendi Score）基于熵/特征值谱，仅从分布角度衡量均匀程度，未能捕获数据的几何结构信息。

核心问题： - 除了类别平衡外，如果所有数据点同等重要，更多数据是否总是更好？ - 增强数据集时，哪种类型的数据更有价值——收缩、扩展、维持还是偏移数据范围？ - 数据的几何特性如何影响模型泛化能力？

这些问题促使作者从拓扑数据分析（TDA）的视角，利用持久同调来量化训练数据的结构多样性，并建立其与模型性能的联系。

方法详解¶

整体框架¶

在度量空间中构建数据集的Vietoris-Rips复形
通过持久同调提取拓扑特征（连通分量\(H_0\)和环\(H_1\)）
基于持久生命周期定义多样性度量
通过迁移学习实验验证度量与模型性能的关联

关键设计¶

PH-based多样性度量：给定数据集 \(X = \{x_1, \dots, x_n\} \subset \mathbb{R}^d\) 及其两两距离矩阵 \(D\)，构建Vietoris-Rips过滤复形，得到持久区间集合 \(\mathcal{B}_k = \{(b_i, d_i)\}_{i=1}^{m_k}\)。每个区间的生命周期 \(l_i = d_i - b_i\)，归一化权重 \(p_i = l_i / L\)。

在此基础上定义： - Rényi持久熵：\(\text{PE}_k^{(q)} = \frac{1}{1-q} \log(\sum_{i=1}^{m_k} p_i^q)\) - Shannon持久熵（\(q \to 1\)时）：\(\text{PE}_k^{(1)} = -\sum_{i=1}^{m_k} p_i \log p_i\)
- PH-based Hill数：\(\text{PEH}_k^q(X) = \exp(\text{PE}_k^{(q)})\)

\(H_0\)特征捕获连通分量（簇结构），\(H_1\)特征捕获环结构（更高阶几何信息）。

公理化验证：证明PH度量满足多样性的四个核心公理： - 有效大小：数据重合时多样性最小，分散时增大 - 双胞胎性质：添加重复数据点不改变多样性 - 多尺度：不同同调维度在多尺度上捕获特征 - 对称性：对数据排列顺序不变

子集构造策略：基于每个样本到其他所有点的最大距离排序，构建三类平衡子集： - Closest：从距离排名下半部选取（核心样本） - Farthest：从距离排名上半部选取（边缘样本） - Random：随机均匀采样

损失函数 / 训练策略¶

采用迁移学习方式验证：在BERTbase上添加dropout层和softmax分类器，训练8个epoch，学习率1e-6，dropout率10%。每个训练集固定为500个样本（每类250个），在多个文本分类数据集上评估。

实验关键数据¶

主实验 — PH多样性 vs 模型性能¶

子集类型	准确率 (avg ± std)	PEH₀¹	PEH₀²⁰	H₀ min	PEH₁¹	PEH₁²⁰	H₁ mean	Vendi Score
Closest	0.836 ± 0.021	489	347	0.0215	376	126	0.0025	1.143
Farthest	0.832 ± 0.014	478	244	0.0191	291	86	0.0029	1.160
Random	0.845 ± 0.013	485	287	0.0234	331	123	0.0028	1.151

消融实验 — 不同数据集的一致性¶

特征	与模型准确率的相关性	说明
PH-based (H₀) 度量	正相关 ✅	更高的连通分量多样性→更好性能
PH-based (H₁) 度量	正相关 ✅	更高的环结构多样性→更好性能
Vendi Score	负相关 ❌	更高的分布熵→反而更低性能
H₀ minimum	与准确率标准差负相关	更大几何多样性→更稳定训练

实验覆盖五个数据集：Complaints (TC)、SUBJectivity (SUBJ)、SentEval (SE)、Arxiv-10、Medical。

关键发现¶

PH度量vs Vendi Score：PH度量与模型准确率正相关，而Vendi Score反而呈负相关。基于熵的分布度量不能可靠预测数据质量。
Random子集最优：在三种构造策略中，随机子集在准确率和稳定性上最优，因其在\(H_0\)（适中的簇分离）和\(H_1\)（稳定环结构）上达到平衡。
高阶拓扑特征的价值：\(H_1\)特征在捕获有意义结构模式方面起关键作用，不仅是\(H_0\)连通分量。
数据效率：仅6%–19%的原始数据即可达到全数据集微调性能的91%–98.6%，结构多样性比数据量更重要。

亮点与洞察¶

新视角：将持久同调从TDA引入数据质量评估，提供了超越分布度量的结构信息
反直觉发现：Vendi Score与性能负相关，挑战了"分布熵越高数据越好"的直觉
实用指导：高质量数据集应具备良好分离的簇（高\(H_0\) min）和适度稳定的环结构（适中\(H_1\) mean），避免极端冗余或稀疏
理论完备：严格证明PH度量满足多样性公理定义

局限与展望¶

实验仅限于BERT文本分类的迁移学习，其他模态（图像、多模态）和更大规模设置待验证
持久同调的计算复杂度随数据量增加（Vietoris-Rips的时间复杂度通常是指数级），大规模应用需要近似算法
仅考虑了\(H_0\)和\(H_1\)，高维特征（\(H_2\)等空洞）的作用未探索
每类250个样本的实验规模较小，大规模验证的说服力待加强

评分¶

新颖性：⭐⭐⭐⭐（PH度量数据质量是新视角）
技术深度：⭐⭐⭐⭐（公理化证明完整，方法论扎实）
实验充分度：⭐⭐⭐（规模较小，模态单一）
实用性：⭐⭐⭐（计算开销大，但方向有价值）