Differentially Private High-dimensional Variable Selection via Integer Programming¶

会议: NeurIPS 2025
arXiv: 2510.22062
代码: github.com/petrosprastakos/DP-variable-selection
领域: AI安全 / 差分隐私
关键词: 差分隐私, 稀疏变量选择, 混合整数规划, 指数机制, 最佳子集选择

一句话总结¶

本文提出两种纯差分隐私的稀疏变量选择方法 (top-R 和 mistakes)，利用现代混合整数规划 (MIP) 技术高效探索非凸目标景观，在高维设置（p 达 10000）下实现 SOTA 支撑集恢复率，同时提供理论恢复保证。

研究背景与动机¶

领域现状：高维稀疏变量选择 (Best Subset Selection, BSS) 是统计学经典问题，目标为最小化一个损失函数使得系数零范数不超过 s。近年来 MIP 技术使得非私有 BSS 可在百万变量规模下高效求解。
现有痛点：现有 DP 变量选择方法要么基于 Lasso（支撑恢复概率不趋于 0）、要么需枚举所有 C(p,s) 个可行支撑集（指数级复杂度不可扩展）、要么仅提供近似 DP 保证。
核心矛盾：指数机制在变量选择中需要遍历指数级大的输出空间，计算和采样都不可行。
本文要解决什么？ 设计可扩展的纯 DP 变量选择算法，利用 MIP 技术避免穷举所有支撑集。
切入角度：观察到远离最优支撑的候选集目标值很大，在指数机制中概率质量极小，因此只需精确计算前 R 个最优支撑集的目标值，其余用下界替代。
核心idea一句话：用 MIP 求解器高效找到前 R 个最优支撑集，对其余支撑集用第 R 个的目标值作为下界，构造截断版指数机制实现纯 DP。

方法详解¶

整体框架¶

输入为数据矩阵 X 和观测 y、隐私参数 epsilon。两种方法均基于指数机制的修改版本，输出一个大小为 s 的特征子集 S。

关键设计¶

Top-R 方法 (Algorithm 1):
做什么：从修改后的指数机制中采样支撑集
核心思路：先用 MIP 求解器找到目标值最小的前 R 个支撑集，对 k <= R 使用真实目标值，对 k > R 统一用第 R 个的目标值作下界
采样分布：P_0(k) 正比于 exp(-eps * R(S_k, D)/(2Delta)) 对 k <= R；P_0(R+1) 正比于 (C(p,s)-R)exp(-epsR(S_R, D)/(2Delta))
隐私保证：当 T -> inf 时为纯 eps-DP（Theorem 1），仅需标准数据有界假设
Mistakes 方法:
做什么：按与最优支撑集的"错误数"分组采样
核心思路：将支撑集按与最优支撑不同的特征数 t 分为 s+1 组，每组内只计算最优支撑集的目标值
隐私保证：在目标间隔条件下为纯 eps-DP
设计动机：只需 s+1 个 MIP 求解（vs top-R 的 R 个），且理论恢复条件更弱
MIP 求解 — 外近似算法 (Algorithm 2):
做什么：高效求解 top-R 支撑集
核心思路：对加了岭惩罚的目标构造切平面近似（利用 Danskin 定理计算梯度），通过外近似迭代求解 MIP
支持任意凸损失函数（最小二乘、Hinge loss、Huber loss 等），算法框架不变

损失函数 / 训练策略¶

全局灵敏度 Delta = 2b_y^2 + 2b_x^2r^2s（由数据有界假设推导）
实验中设置 R = 2 + (p-s)*s，b_x = b_y = 0.5，r = 1.1

实验关键数据¶

主实验：支撑集恢复率 (p=10000, s=5, SNR=5, rho=0.1, eps=1)¶

方法	n=200	n=400	n=600	n=800	DP 类型
Top-R (本文)	~15%	~55%	~85%	~95%	纯 eps-DP
Mistakes (本文)	~25%	~70%	~92%	~98%	纯 eps-DP
MCMC (Roy & Tewari)	~5%	~20%	~45%	~60%	近似 DP
Samp-Agg (Lasso)	<5%	~10%	~15%	~20%	纯 eps-DP

理论恢复条件对比¶

方法	tau 充分条件	额外假设
非私有 BSS	tau >> log(p)/n	无
指数机制 (枚举)	tau >> max(log(p)/n, slog(p)/(neps))	需枚举 C(p,s)
Top-R (本文)	tau >> max(log(p)/n, s^2log(p)/(neps))	仅需有界数据
Mistakes (本文)	tau >> max(slog(p)/n, slog(p)/(n*eps))	需目标间隔条件

关键发现¶

Mistakes 方法在所有参数设置下数值上优于 top-R，与理论一致
两种方法显著优于 MCMC 和 Samp-Agg 基线，尤其在 n 较大时几乎完美恢复
低隐私场景中 top-R 的 log(p)/n 项主导，匹配非私有最优率
扩展到 Hinge loss 做稀疏分类同样有效

亮点与洞察¶

将 MIP 求解器引入 DP 采样，巧妙地将指数级枚举问题转化为有限次 MIP 调用。这一思路可迁移到任何 DP 组合优化问题
Mistakes 方法将指数级支撑空间压缩为 s+1 个分区，每组只需一次 MIP 求解
外近似算法利用 Danskin 定理使得子问题梯度可解析计算，避免数值微分
R 的选择体现了隐私-精度-计算量的三方权衡，R 越大精度越高但计算成本增加且隐私损失也增大
纯 DP 保证比近似 DP 更强，在医疗、金融等高敏感领域更受信任

局限性 / 可改进方向¶

Mistakes 方法的隐私保证依赖额外的目标间隔假设
理论恢复保证仅限于 BSS (最小二乘)，尽管实验证明对 Hinge loss 也有效
Top-R 的恢复条件比完整指数机制多一个因子 s
MIP 求解器在超大规模 (p > 10^5) 时可能遇到扩展性瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ MIP + DP 的结合是全新方向，两种截断指数机制设计巧妙
实验充分度: ⭐⭐⭐⭐ 多参数消融、p 达 10000、包含 Hinge loss 扩展
写作质量: ⭐⭐⭐⭐ 理论结果陈述清晰，算法伪代码完整
价值: ⭐⭐⭐⭐ 为 DP 变量选择提供了首个实用且有理论保证的纯 DP 方案