Distributionally Robust Feature Selection¶

会议: NeurIPS 2025
arXiv: 2510.21113
代码: 有（论文中提供链接）
领域: others
关键词: 特征选择, 分布鲁棒优化, Group DRO, 噪声注入, 模型无关

一句话总结¶

本文提出一种模型无关的分布鲁棒特征选择方法，通过向协变量注入可控高斯噪声实现离散选择的连续松弛，并优化 Bayes 最优预测器的条件方差，使选出的特征子集能在多个子群体上同时训练出高质量下游模型。

研究背景与动机¶

领域现状：特征选择是机器学习中的基础问题。经典方法如 Lasso、前向/后向选择、XGBoost 特征重要性等都针对单一分布优化。在分布鲁棒优化（DRO）方面，Group DRO 等方法致力于找到一个在所有子群上表现良好的单一模型，但不涉及特征选择。
现有痛点：实际场景中常需在预算约束下选择少量特征（如医疗问卷只能问有限问题），且选出的特征要能为不同群体分别训练出好模型。现有特征选择方法不考虑跨分布鲁棒性，DRO 方法不做特征选择——两者的交集完全未被研究。
核心矛盾：特征选择是离散组合优化（NP-hard），DRO 需要 minimax 优化，而这两层优化的耦合使得直接求解极其困难——每换一组特征，所有子群体的模型都要重新训练。
本文要解决什么：选择 \(k\) 个特征，使得在这 \(k\) 个特征上为每个子群体 \(P_i\) 分别训练的模型，其最差群体性能最优。
切入角度：(a) 用噪声注入替代硬选择实现连续松弛；(b) 转向优化 Bayes 最优预测器的性能以消除对特定模型的依赖；(c) 利用高斯噪声模型推导闭式核权重表达式。
核心idea一句话：通过特征级噪声注入 + Bayes 最优预测器方差优化，将不可解的离散-minimax 问题转化为可微分的连续优化，实现模型无关的分布鲁棒特征选择。

方法详解¶

整体框架¶

输入是多个子群体的带标签数据 \(\{(X_i^j, Y_i^j)\}\)，输出是 \(k\) 个最优特征的索引。方法分三步：(1) 为每个群体拟合一次条件期望 \(\hat{\mu}_i(X)\)；(2) 用噪声注入参数 \(\alpha\) 控制每个特征的信息量，通过梯度下降优化 minimax 目标；(3) 选择 \(\alpha\) 最小的 \(k\) 个特征。

关键设计¶

噪声注入连续松弛:
做什么：将离散的二值掩码 \(\alpha \in \{0,1\}^m\) 松弛为连续噪声参数 \(\alpha \in \mathbb{R}_{\geq 0}^m\)
核心思路：不是直接缩放特征（\(\alpha \odot X\)，可被模型逆向补偿），而是注入高斯噪声 \(S_i(\alpha)|X \sim \mathcal{N}(X_i, \alpha_i)\)。\(\alpha_i=0\) 表示完全保留信息，\(\alpha_i \to \infty\) 表示丢弃该特征
设计动机：确定性缩放不改变信息量（模型可学 \(w_i/\alpha_i\) 补偿），随机噪声才真正降低信噪比
与 Lasso 的区别：Lasso 的 \(\ell_1\) 正则化只在线性模型中有效，且假设单一分布
Bayes 最优预测器方差优化:
做什么：用 Bayes 最优损失替代具体模型的损失，规避内层优化
核心思路（定理1）：在 MSE 损失下，问题等价于 \(\min_\alpha \max_{P_i} -\mathbb{E}_{S(\alpha)}[\mathbb{E}_X[\mu_i(X)|S(\alpha)]^2] + \lambda \text{Reg}(\alpha)\)，其中 \(\mu_i(X) = \mathbb{E}_{P_i}[Y|X]\)
设计动机：(a) 不需要对每个 \(\alpha\) 重新训练模型；(b) 与下游模型架构无关；(c) 只需在开始时对每个群体拟合一次 \(\mu_i\)
核形式闭式解（定理2）:
做什么：将条件期望的经验估计转化为高斯核加权和
闭式权重：\(w_i^j(S,\alpha) = \frac{\exp(-\frac{1}{2}(X_i^j - S)^T \text{diag}(\alpha)^{-1}(X_i^j - S))}{\sum_k \exp(-\frac{1}{2}(X_i^k - S)^T \text{diag}(\alpha)^{-1}(X_i^k - S))}\)
设计动机：\(\alpha\) 直接控制核带宽——\(\alpha_i\) 小则该维度核窄（保留信息），\(\alpha_i\) 大则该维度核宽（忽略信息）

损失函数 / 训练策略¶

最终优化：\(\min_\alpha \max_{P_i} -\frac{1}{b}\sum_{\ell=1}^b (\sum_j w_i^j(S^\ell, \alpha) \mu_i(X_i^j))^2\)，用 reparameterization trick \(S = X + \sqrt{\alpha} \odot \epsilon\) 保证梯度可传播。内层 max 用 softmax（温度 \(\beta\)）近似。\(\lambda \cdot \text{Reg}(\alpha) = \lambda / \|\alpha\|_1\) 鼓励稀疏。实际中仅对 \(k\) 近邻求和以加速。

实验关键数据¶

主实验：合成数据集 1（线性模型，3群体，15特征）¶

方法	Budget=5 群体A MSE	群体B MSE	群体C MSE	Budget=10 最差群体
Ours	最低	均衡	均衡	与最佳持平
DRO-Lasso	中等	中等	较好	次优
DRO-XGBoost	较好	中等	较好	与Ours持平
Vanilla Lasso	差	差	最好	差
Embedded MLP	差	差	差	差

主实验：真实数据集 ACS（收入预测，3个州）¶

方法	CA MSE↓	FL MSE↓	NY MSE↓	CA R²↑	FL R²↑	NY R²↑
Ours	最低（数量级领先）	最低	最低	最高	最高	最高
DRO-XGBoost	高	高	高	低	低	低
DRO-Lasso	中	中	中	中	中	中

消融：方法特性对比¶

特性	Ours	Lasso	DRO-Lasso	XGBoost	DRO-XGB	Embedded MLP
模型无关	✓	✗(线性)	✗(线性)	✗(树)	✗(树)	✗(MLP)
分布鲁棒	✓	✗	✓	✗	✓	✓
处理非线性	✓	✗	✗	✓	✓	✓
低方差	✓	中	中	高	高	高

关键发现¶

在 ACS 数据集上，本方法的 MSE 比所有 baseline 低一个数量级，R² 也显著领先
合成数据中，当群体间系数符号反转（群体A和B）时，普通 Lasso 完全失效，本方法保持均衡
本方法跨随机种子的方差始终最低，体现了选择稳定性
下游预测模型（随机森林 vs MLP）的选择不影响各特征选择方法的相对排名

亮点与洞察¶

噪声注入 vs 确定性缩放的洞察：确定性缩放不改变互信息（线性模型可逆向补偿），只有随机噪声才真正降低特征的信息承载量
从具体模型到 Bayes 最优的跳跃：放弃优化具体模型的损失、转向优化理论最优损失，不仅绕开了 bilevel 优化的计算困难，还使方法天然与下游模型解耦
核带宽 = 特征重要性：最终的高斯核权重中 \(\alpha\) 恰好控制各维度的核带宽，建立了特征选择与核方法的直接联系

局限性 / 可改进方向¶

理论推导基于 MSE 损失的 bias-variance 分解，推广到交叉熵等其他损失需要非平凡扩展
需要为每个群体预先拟合 \(\mu_i(X)\)，当群体样本极少时估计质量影响最终效果
K-近邻加速引入近似误差，高维稀疏数据中近邻质量可能下降
未考虑特征间的组合效应——某些特征单独无用但组合后很有信息

评分¶

新颖性: ⭐⭐⭐⭐ 首次正式研究分布鲁棒特征选择问题，噪声注入+Bayes最优的组合新颖
实验充分度: ⭐⭐⭐⭐ 合成+真实数据覆盖回归和分类，但缺少大规模高维实验
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，推导层层递进，从动机到方法到实验逻辑完整
价值: ⭐⭐⭐⭐ 问题本身有很强的实际意义（医疗问卷、传感器部署），方法简洁实用