Unsupervised Feature Selection Through Group Discovery¶

会议: AAAI 2026
arXiv: 2511.09166
代码: 无
领域: 机器学习 / 特征选择 (Feature Selection)
关键词: 无监督特征选择, 特征分组, 图拉普拉斯, Gumbel-Softmax, 稀疏正则化

一句话总结¶

提出 GroupFS，首个端到端可微分的无监督特征选择框架，能同时发现潜在特征分组并选择信息量最大的组，无需预定义分组或标签监督。

研究背景与动机¶

领域现状: 高维数据中，特征选择（FS）是降噪、提升泛化和可解释性的关键手段。无监督 FS 在无标签场景下尤为重要，但也更具挑战性，因为缺少标签指导选择过程。
现有痛点: 大多数无监督 FS 方法逐特征独立评估，忽略了特征之间的关系。现实中特征常"协同作用"：相邻像素、功能连接的脑区、相关的金融指标等。某些方法尝试捕获组结构，但依赖预定义分组或标签监督。
核心矛盾: 特征分组和特征选择是耦合问题——不知道组结构就无法做组级选择，而没有选择信号又难以发现有意义的组。
本文目标: 在完全无监督的条件下，同时发现特征的潜在分组结构，并选择最有信息量的特征组。
切入角度: 构建样本图和特征图两个图结构，利用 Gumbel-Softmax 做可微分分组，STG（随机门）做组级选择，拉普拉斯平滑约束保证组的语义一致性。
核心 idea: 通过在样本图和特征图上施加拉普拉斯平滑约束，并用组稀疏正则化，端到端地发现和选择特征组。

方法详解¶

整体框架¶

给定数据矩阵 \(X \in \mathbb{R}^{N \times d}\)，GroupFS 通过 Gumbel-Softmax 学习特征到 \(C\) 个组的软分配矩阵 \(M \in \mathbb{R}^{d \times C}\)，同时用 STG 门控为每组学习重要性权重 \(z_j\)。总损失 \(\mathcal{L} = \mathcal{L}_s + \lambda_1 \mathcal{L}_f + \lambda_2 \mathcal{L}_{reg}\) 由三部分组成：样本平滑、特征平滑、组稀疏。

关键设计¶

样本级平滑损失 \(\mathcal{L}_s\):
- 功能: 选择在数据流形上变化平滑的特征，保留样本间的内在几何结构
- 核心思路: 首先通过 Gumbel-Softmax 得到分配矩阵 \(M\)，结合 STG 门控得到特征权重 \(\hat{z}_i = \sum_{j=1}^C M_{ij} \cdot z_j\)，对输入做掩码 \(\widetilde{X} = X_B \odot \hat{Z}\)。在掩码后的数据上构建随机游走矩阵 \(P_{\widetilde{X}}\)，最大化 \(\mathcal{L}_s = -\frac{1}{Bd} \text{tr}(\widetilde{X}^\top P_{\widetilde{X}}^t \widetilde{X})\)
- 设计动机: 特征值在样本流形上的平滑性是评价特征质量的自然准则（来自 Laplacian Score 的思想），此处将其扩展到组级选择
特征级平滑损失 \(\mathcal{L}_f\):
- 功能: 确保相似特征获得相似的组分配，使学到的分组尊重特征空间的内在结构
- 核心思路: 将分配矩阵通过可训练投影 \(F = MQ \in \mathbb{R}^{d \times C}\) 嵌入，在特征图的归一化拉普拉斯 \(L_{\text{feat}}\) 上施加平滑约束 \(\text{tr}(F^\top L_{\text{feat}} F)\)，加正交正则化 \(\|F^\top F - I\|_F^2\) 防止退化：\(\mathcal{L}_f = \frac{1}{dC}[\text{tr}(F^\top L_{\text{feat}} F) + \beta \|F^\top F - I\|_F^2]\)
- 设计动机: 如果两个特征在特征图上高度相似（高权重边连接），它们应该被分到同一组；正交约束确保不同组的嵌入多样且非冗余
组稀疏正则化 \(\mathcal{L}_{reg}\):
- 功能: 鼓励只保留少量信息量大的特征组，产生紧凑可解释的模型
- 核心思路: \(\mathcal{L}_{reg} = \frac{1}{C} \sum_{j=1}^C \mathbb{P}(z_j > 0) \cdot \frac{1}{d} \sum_{i=1}^d M_{ij}\)，同时惩罚组的激活概率和组的大小
- 设计动机: 激活概率高且包含特征多的组惩罚大，驱动模型保持少量小型活跃组

损失函数 / 训练策略¶

总损失: \(\mathcal{L} = \mathcal{L}_s + \lambda_1 \mathcal{L}_f + \lambda_2 \mathcal{L}_{reg}\)
Gumbel-Softmax 温度从 10 退火到 \(10^{-2}\)（线性衰减），使分配逐渐趋向 one-hot
谱聚类初始化分配矩阵的 logits（\(p_{\text{main}} = 0.7\)）
F 的列每步归零均值、归一化 \(\ell_2\) 范数，防止收敛到平凡解
STG 门初始化 \(\mu_j = 0.5\)，噪声 \(\sigma = 0.5\)
自适应核 (self-tuning kernel, K=7 近邻)，扩散时间 \(t=2\)

实验关键数据¶

主实验¶

数据集	GroupFS	最佳Baseline	提升	特征数
Lung500	93.0±6.8	91.3±6.7 (CAE)	+1.7%	234
HeartDisease	83.1±0.5	82.6±0.4 (MCFS)	+0.5%	10
AR10P	32.5±4.1	24.9±2.9 (MGAGR)	+7.6%	362
PIE10P	38.4±2.5	35.0±3.6 (DUFS)	+3.4%	49
NMNIST 3-8	83.3±0.1	77.3±1.0 (LS)	+6.0%	51
ALLAML	70.6±1.4	70.6±1.4 (LS)	持平	274

固定预算场景下 9 个数据集中 6 个排名第一或并列第一，平均超越次优方法 +3.84%。

消融实验¶

配置	RGsim	TPR	FDR	说明
C ≤ 2+(d-10)	~1.0	~1.0	~0	完美恢复信息组和噪声分离
C = 2	低	高	高	组数太少，噪声混入
C > 2+(d-10)	下降	高	低	信息组被过度拆分

关键发现¶

自适应预算场景下也在 6/9 数据集上取得最佳准确率
NMNIST 3-8 上发现 7 个空间连贯的像素组，最重要的组对应区分数字 3 和 8 的关键区域
Student Performance 数据集：最重要组包含饮酒相关特征，第二组包含动机相关（缺勤、过去失败等），语义高度连贯
相关强度 \(\rho\) 越高，损失越低（组内一致性越强越好）
对中等水平的加性噪声具有鲁棒性

亮点与洞察¶

首次将特征分组发现与组级选择统一到一个端到端可微框架中，无需人工预定义分组
双图设计（样本图 + 特征图）的组合非常自然，各自捕获不同维度的结构信息
可解释性实验令人信服：在 NMNIST 上发现的像素组空间连贯且与判别区域对齐
Gumbel-Softmax + STG 的组合巧妙地将离散分组和门控选择同时嵌入到可微优化中

局限与展望¶

依赖欧几里得距离构建图，对弯曲的非欧流形可能表示不准确
学习单一的全局组重要性，忽略了条件相关或时间依赖的场景
组数 \(C\) 的选择依赖启发式方法，敏感性较高
计算复杂度 \(O(N^2 d)\)（全批次）和 \(O(tN^3)\)（多步扩散），大规模数据可能有瓶颈
未与深度特征选择方法（如基于 VAE 或 contrastive learning 的方法）对比

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次端到端无监督联合分组+选择，框架设计优雅
实验充分度: ⭐⭐⭐⭐ 9 个数据集+合成数据+可解释性实验，两种评估场景，但缺少运行时间对比
写作质量: ⭐⭐⭐⭐⭐ 数学推导清晰，实验设置详尽，附录完备
价值: ⭐⭐⭐⭐ 对高维无标签数据的特征选择有实际价值，可解释性是一大优势