跳转至

Predict Training Data Quality via Its Geometry in Metric Space

会议: NeurIPS 2025
arXiv: 2510.15970
代码: 无
领域: 数据质量 / 拓扑数据分析
关键词: 持久同调, 数据多样性, 训练数据质量, Hill数, 拓扑数据分析

一句话总结

提出基于持久同调(Persistent Homology)的训练数据多样性度量方法,证明数据的几何/拓扑结构特征能够有效预测模型性能,优于传统基于熵的Vendi Score等指标。

研究背景与动机

高质量训练数据是机器学习的基石。近期研究表明训练数据多样性与模型性能强相关,但现有多样性度量方法(如Vendi Score)基于熵/特征值谱,仅从分布角度衡量均匀程度,未能捕获数据的几何结构信息。

核心问题: - 除了类别平衡外,如果所有数据点同等重要,更多数据是否总是更好? - 增强数据集时,哪种类型的数据更有价值——收缩、扩展、维持还是偏移数据范围? - 数据的几何特性如何影响模型泛化能力?

这些问题促使作者从拓扑数据分析(TDA)的视角,利用持久同调来量化训练数据的结构多样性,并建立其与模型性能的联系。

方法详解

整体框架

  1. 在度量空间中构建数据集的Vietoris-Rips复形
  2. 通过持久同调提取拓扑特征(连通分量\(H_0\)和环\(H_1\)
  3. 基于持久生命周期定义多样性度量
  4. 通过迁移学习实验验证度量与模型性能的关联

关键设计

PH-based多样性度量:给定数据集 \(X = \{x_1, \dots, x_n\} \subset \mathbb{R}^d\) 及其两两距离矩阵 \(D\),构建Vietoris-Rips过滤复形,得到持久区间集合 \(\mathcal{B}_k = \{(b_i, d_i)\}_{i=1}^{m_k}\)。每个区间的生命周期 \(l_i = d_i - b_i\),归一化权重 \(p_i = l_i / L\)

在此基础上定义: - Rényi持久熵\(\text{PE}_k^{(q)} = \frac{1}{1-q} \log(\sum_{i=1}^{m_k} p_i^q)\) - Shannon持久熵\(q \to 1\)时):\(\text{PE}_k^{(1)} = -\sum_{i=1}^{m_k} p_i \log p_i\)
- PH-based Hill数\(\text{PEH}_k^q(X) = \exp(\text{PE}_k^{(q)})\)

\(H_0\)特征捕获连通分量(簇结构),\(H_1\)特征捕获环结构(更高阶几何信息)。

公理化验证:证明PH度量满足多样性的四个核心公理: - 有效大小:数据重合时多样性最小,分散时增大 - 双胞胎性质:添加重复数据点不改变多样性 - 多尺度:不同同调维度在多尺度上捕获特征 - 对称性:对数据排列顺序不变

子集构造策略:基于每个样本到其他所有点的最大距离排序,构建三类平衡子集: - Closest:从距离排名下半部选取(核心样本) - Farthest:从距离排名上半部选取(边缘样本) - Random:随机均匀采样

损失函数 / 训练策略

采用迁移学习方式验证:在BERTbase上添加dropout层和softmax分类器,训练8个epoch,学习率1e-6,dropout率10%。每个训练集固定为500个样本(每类250个),在多个文本分类数据集上评估。

实验关键数据

主实验 — PH多样性 vs 模型性能

子集类型 准确率 (avg ± std) PEH₀¹ PEH₀²⁰ H₀ min PEH₁¹ PEH₁²⁰ H₁ mean Vendi Score
Closest 0.836 ± 0.021 489 347 0.0215 376 126 0.0025 1.143
Farthest 0.832 ± 0.014 478 244 0.0191 291 86 0.0029 1.160
Random 0.845 ± 0.013 485 287 0.0234 331 123 0.0028 1.151

消融实验 — 不同数据集的一致性

特征 与模型准确率的相关性 说明
PH-based (H₀) 度量 正相关 ✅ 更高的连通分量多样性→更好性能
PH-based (H₁) 度量 正相关 ✅ 更高的环结构多样性→更好性能
Vendi Score 负相关 更高的分布熵→反而更低性能
H₀ minimum 与准确率标准差负相关 更大几何多样性→更稳定训练

实验覆盖五个数据集:Complaints (TC)、SUBJectivity (SUBJ)、SentEval (SE)、Arxiv-10、Medical。

关键发现

  1. PH度量vs Vendi Score:PH度量与模型准确率正相关,而Vendi Score反而呈负相关。基于熵的分布度量不能可靠预测数据质量。
  2. Random子集最优:在三种构造策略中,随机子集在准确率和稳定性上最优,因其在\(H_0\)(适中的簇分离)和\(H_1\)(稳定环结构)上达到平衡。
  3. 高阶拓扑特征的价值\(H_1\)特征在捕获有意义结构模式方面起关键作用,不仅是\(H_0\)连通分量。
  4. 数据效率:仅6%–19%的原始数据即可达到全数据集微调性能的91%–98.6%,结构多样性比数据量更重要。

亮点与洞察

  • 新视角:将持久同调从TDA引入数据质量评估,提供了超越分布度量的结构信息
  • 反直觉发现:Vendi Score与性能负相关,挑战了"分布熵越高数据越好"的直觉
  • 实用指导:高质量数据集应具备良好分离的簇(高\(H_0\) min)和适度稳定的环结构(适中\(H_1\) mean),避免极端冗余或稀疏
  • 理论完备:严格证明PH度量满足多样性公理定义

局限与展望

  • 实验仅限于BERT文本分类的迁移学习,其他模态(图像、多模态)和更大规模设置待验证
  • 持久同调的计算复杂度随数据量增加(Vietoris-Rips的时间复杂度通常是指数级),大规模应用需要近似算法
  • 仅考虑了\(H_0\)\(H_1\),高维特征(\(H_2\)等空洞)的作用未探索
  • 每类250个样本的实验规模较小,大规模验证的说服力待加强

相关工作与启发

  • 与Vendi Score(基于特征值谱的熵度量)和MAGAREA/MAGDIFF(基于magnitude的度量)形成对比
  • 利用持久同调与凝聚层次聚类的基本联系来定义多样性度量
  • 启发方向:将拓扑特征直接整合到数据增强/选择/合成流程中,实现拓扑引导的数据工程

评分

  • 新颖性:⭐⭐⭐⭐(PH度量数据质量是新视角)
  • 技术深度:⭐⭐⭐⭐(公理化证明完整,方法论扎实)
  • 实验充分度:⭐⭐⭐(规模较小,模态单一)
  • 实用性:⭐⭐⭐(计算开销大,但方向有价值)

相关论文