Geometric Data Valuation via Leverage Scores¶

会议: NeurIPS 2025
arXiv: 2511.02100
代码: GitHub
领域: 模型压缩 / LLM效率
关键词: 数据估值, Shapley值, 杠杆分数, 主动学习, 实验设计

一句话总结¶

提出基于统计杠杆分数（leverage scores）的几何数据估值方法，作为 Data Shapley 值的高效代理，满足对称性、效率性和虚拟玩家等公理，并通过 ridge leverage 扩展解决维度饱和问题，提供 \(O(\varepsilon)\) 近似最优的理论保证。

研究背景与动机¶

数据估值（Data Valuation）旨在量化训练集中每个数据点对模型性能的贡献，在数据清洗、子集选择、联邦学习激励分配和数据市场定价等场景中具有重要意义。Data Shapley 是理论上最严谨的方法，但其组合爆炸的计算复杂度（需要遍历所有子集的边际贡献）使其在大规模场景中不可行。

现有方法的痛点： - 计算昂贵，需要多次模型重训练 - 需要访问模型权重和梯度 - 主要聚焦于预训练阶段的数据质量控制，忽略了数据获取决策中的不确定性

本文从几何和数值线性代数的角度出发，提出一种模型无关的数据估值方法。

方法详解¶

整体框架¶

核心思想：leverage score 衡量每个数据点在特征空间中的结构重要性——高杠杆点跨越独特的方向因而有价值，低杠杆点往往是冗余的。

给定数据矩阵 \(X \in \mathbb{R}^{n \times d}\)，第 \(i\) 个数据点的杠杆分数定义为投影矩阵 \(H = X(X^TX)^{-1}X^T\) 的第 \(i\) 个对角元素：

\[\ell_i = x_i^T (X^TX)^{-1} x_i\]

归一化得到估值函数：

\[\pi_i = \frac{\ell_i}{\sum_{j=1}^n \ell_j}\]

关键设计¶

定理 1（Shapley 公理满足性）：当 \(\text{rank}(X) = d\) 时，归一化杠杆分数 \(\pi_i\) 在效用函数 \(U(S) = \text{span}\{x_i: i \in S\}\) 下满足： - 对称性：等价贡献的数据点获得相等估值 - 效率性：所有估值之和为 1（因为 \(\text{Tr}(H) = d\)，归一化后求和为 1） - 虚拟玩家：不增加子空间维度的数据点估值为 0

维度饱和问题：普通杠杆分数在子空间达到满秩 \(d\) 后，所有新数据点的边际价值为零。这在实际中是一个严重限制。

Ridge Leverage 扩展——引入正则化解决饱和：

\[\ell_i^{(\lambda)} = x_i^T (X^TX + \lambda I)^{-1} x_i\]

Ridge leverage 的关键性质： - 对任意 \(\lambda > 0\)，\(\ell_i^{(\lambda)} \in (0,1)\)，统计维度 \(k_\lambda = \sum_i \ell_i^{(\lambda)}\) 严格位于 \((0, d)\) 之间 - 即使 \(\text{rank}(X_S) = d\)，新增数据点仍保留正值（因为正则化收缩了逆矩阵但不消除边际增益）

与经典实验设计的联系： - D-最优性边际增益：\(\log\det(A + xx^T) - \log\det(A) = \log(1 + \ell^{(\lambda)}(x)) > 0\) - A-最优性边际增益：\(\text{Tr}((A+xx^T)^{-1}) - \text{Tr}(A^{-1}) = -\|A^{-1}x\|_2^2 / (1+\ell^{(\lambda)}(x)) < 0\)

两个经典准则的边际增益都是 ridge leverage 的单调函数。

定理 3（\(\varepsilon\)-近似保证）：按 ridge leverage 概率采样 \(m \geq C \frac{k_\lambda + \log(2d/\delta)}{\varepsilon^2}\) 个样本，以概率 \(\geq 1-\delta\) 有：

\[\|\hat{\theta} - \theta^\star\|_A \leq 4\varepsilon \|\theta_{\text{lin}}\|_A, \quad R(\hat{\theta}) - R(\theta^\star) \leq 8\varepsilon^2 \|\theta_{\text{lin}}\|_A^2\]

即采样子集训练的模型参数和预测风险与全数据模型 \(O(\varepsilon)\)-接近。

损失函数 / 训练策略¶

本文方法不涉及传统意义上的训练策略——估值通过闭式计算获得。在主动学习实验中，ridge leverage 用于选择最有信息量的样本进行标注，无需梯度或反向传播。

实验关键数据¶

主实验（主动学习实验）¶

MNIST 上的主动学习对比（3层 MLP，784→256→64→10）： - 初始 100 个标注样本，40 轮主动学习，每轮选 5 个样本

方法	最终测试准确率
Ridge Leverage（自适应 \(\lambda\)）	0.846 ± 0.006
K-center	~0.82
Margin	~0.83
Entropy	~0.83
EGL	~0.81
Random	~0.80

Ridge leverage 在预训练阶段结束后即展现明显优势，且跨试验变异性最低。

理论 vs 实验验证：

保证类型	具体结论
矩阵近似	\((1-\varepsilon)A \preceq A_S \preceq (1+\varepsilon)A\)
参数近似	\(\\|\hat{\theta} - \theta^\star\\|_A \leq 4\varepsilon\\|\theta_{\text{lin}}\\|_A\)
风险近似	\(R(\hat{\theta}) - R(\theta^\star) \leq 8\varepsilon^2\\|\theta_{\text{lin}}\\|_A^2\)

消融实验¶

论文为 workshop 论文，未包含系统消融。但通过理论分析了不同 \(\lambda\) 选择的影响： - \(\lambda = 0\)：退化为普通杠杆分数，存在维度饱和 - \(\lambda > 0\)：打破饱和，自适应设置 \(\lambda = 0.01 \times \text{Tr}(X^TX)/64\) 效果最好

关键发现¶

无需梯度的数据选择：Ridge leverage 不需要模型梯度或反向传播，仅依赖数据的几何结构
公理性保证：满足 Shapley 的对称性和效率性（ridge 版不满足虚拟玩家公理，但这是合理的——冗余数据仍有降低方差的价值）
与实验设计的深层联系：A/D-最优性准则的边际增益都由 leverage score 控制

亮点与洞察¶

视角新颖：将数值线性代数中的经典概念（leverage scores）重新解释为数据估值工具，桥接 NLA 和运筹学
计算高效：\(O(nd^2)\) 复杂度计算所有 leverage scores，远低于 Shapley 值的指数复杂度
理论优雅：\(\varepsilon\)-近似定理基于矩阵 Chernoff 集中不等式，证明紧凑
模型无关：估值仅依赖数据矩阵，不需要指定或训练任何模型

局限性 / 可改进方向¶

Workshop 论文：实验规模有限（仅 MNIST），未在大规模数据集或 LLM 场景验证
线性假设：理论保证基于 ridge 回归（线性模型），非线性场景需进一步研究
不满足线性公理：归一化杠杆分数不满足 Shapley 的线性公理，限制了多任务聚合
嵌入空间依赖：主动学习实验中需要预训练模型的倒数第二层嵌入，方法的有效性依赖于嵌入质量
未与更先进的主动学习方法（BALD、BatchBALD、LESS、TRAK）对比

评分¶

新颖性: ⭐⭐⭐⭐ — 几何视角独特，联系优雅
技术深度: ⭐⭐⭐⭐ — 理论证明严谨，公理验证完整
实验充分度: ⭐⭐ — Workshop 论文实验较少，仅 MNIST
实用性: ⭐⭐⭐ — 计算高效但适用场景待拓展
总体: ⭐⭐⭐⭐

Geometric Data Valuation via Leverage Scores¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（主动学习实验）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

背景与动机¶

核心问题¶

方法详解¶

实验关键数据¶

亮点¶

局限性 / 可改进方向¶

与相关工作的对比¶

启发与关联¶

评分¶