A Unified Framework for Variable Selection in Model-Based Clustering with Missing Not at Random¶

会议: NeurIPS 2025
arXiv: 2505.19093
代码: 无
领域: 统计学习 / 聚类 / 缺失数据处理
关键词: model-based clustering, variable selection, MNAR, Gaussian mixture model, LASSO

一句话总结¶

提出了一个统一框架（SelvarMNARz），在高斯混合模型聚类中同时完成变量选择和MNAR（Missing Not At Random）缺失数据建模，通过两阶段策略（LASSO排序 + BIC角色分配）实现高维场景下的高效推理，并给出了可辨识性和选择一致性的理论保证。

背景与动机¶

在转录组学等高维生物数据中，存在两个常见难题：(1) 大量变量中只有一小部分与聚类结构相关，需要筛选"信号"变量并剔除冗余/噪声变量；(2) 数据缺失往往是非随机的（MNAR），缺失模式依赖于潜在的类别归属。现有方法（如SelvarClust、VarSelLCM等）通常只解决其中一个问题——要么做变量选择（假设数据完整或MAR），要么做缺失数据处理（不做变量选择）。将两者融合到一个统一的概率框架中，是提升聚类质量和可解释性的关键需求。

核心问题¶

如何在一个统一的概率模型中，同时解决以下三个子问题：
1. 变量角色分配：区分哪些变量是聚类相关的(𝕊)、哪些是冗余的(𝕌，可被𝕊的子集线性解释)、哪些是独立噪声(𝕎)？
2. MNAR缺失建模：缺失机制依赖于潜在类别（MNARz），如何在不做外部impute的前提下，正确估计参数？
3. 高维可扩展性：经典的逐步变量选择方法复杂度为O(D^5)，如何让框架适用于中高维数据？

方法详解¶

整体框架¶

采用SRUW模型（将变量划分为S-信号、R-回归子集、U-冗余、W-独立噪声四类角色），与MNARz缺失机制（缺失概率只依赖于隐变量z所属的聚类）进行联合建模。通过两阶段策略实现高效推理：

Stage A（排序）：对快速单次插补后的数据，用带L1惩罚的高斯混合模型（penalized GMM）拟合，同时对均值向量和精度矩阵施加LASSO和graphical LASSO正则化。通过沿正则化路径改变λ/ρ，统计每个变量在多少个正则化水平下保持非零，得到变量排序分数O_K(j)。
Stage B（角色分配）：按排序顺序遍历变量，在原始不完整数据上拟合无惩罚的SRUW-MNARz模型，用BIC准则逐步判定每个变量属于S/U/W角色。

关键设计¶

MNARz与SRUW的融合：将MNARz机制嵌入SRUW模型的观测数据似然中。关键发现是：在MNARz下，缺失指示变量c_n可以从积分中分离出来（因为缺失概率只依赖于类别z，不依赖于具体值y），从而MNARz-SRUW模型可等价为在增广数据(y^o, c)上的MAR模型，使得EM算法可以直接应用。
自适应惩罚矩阵P_k：不使用传统的偏相关系数倒数作为权重，而是从初始精度矩阵构造图的谱距离(spectral distance of Laplacian)来设计自适应权重P_{k,ij}，提高了在精度矩阵估计中的稀疏恢复质量。
数据驱动的正则化路径：λ和ρ的上下界均由数据统计量决定（KKT条件确定的λ_max和ρ_max），沿几何路径均匀取点，避免了手动调参。

损失函数 / 训练策略¶

Stage A的惩罚目标函数：负对数似然 + λ‖μ_k‖1 + ρΣP|}|Ψ_{k,ij
Stage B的EM算法：E步计算增广数据上的责任权重t_{nk}（同时考虑GMM似然和MNARz似然），M步分别更新混合权重、SRUW各块参数(μ, Σ, a, β, Ω, γ, Γ)以及MNARz缺失率参数ψ_k

实验关键数据¶

数据集	指标	SelvarMNARz	Clustvarsel	Selvar	VarSelLCM
模拟数据 (50% MNAR)	ARI	0.511	0.363	0.348	0.344
转录组 (1267基因)	聚类数	18	-	-	-

在所有缺失率(5%-50%)和两种缺失机制(MAR/MNAR)下，SelvarMNARz的ARI最高、WNRMSE最低
50% MNAR下，Welch t检验验证了显著性(p<0.001)
在混合缺失机制(MAR+MNARy)的鲁棒性测试中，即使模型被错误指定（真实为MNARy但模型假设MNARz），方法仍然能正确选出变量{1,2}并取得0.808的ARI

消融实验要点¶

两阶段方法相比经典逐步选择有D^2/M_grid倍加速，在D=27时实测加速132倍
停止参数c的敏感性：c=2或3时表现最佳，c过大（如7）在高维场景下会引入假阳性
层次聚类初始化比随机初始化在8个场景中有7个取得更高ARI
缺失率越高，运行时间反而越短（因为E步的计算量与观测维度的平方成正比）

亮点¶

理论贡献扎实：证明了SRUW-MNARz模型的可辨识性（Theorem 1）、BIC选择一致性（Theorem 2）和两阶段选择一致性（Theorem 3），涵盖了从RSC条件、梯度界到排序一致性的完整理论链
MNARz→MAR等价变换：通过将缺失指示变量纳入增广数据，MNARz问题可转化为MAR问题，使得标准EM直接适用，是一个非常优雅的处理
计算效率：从O(D^5)的逐步搜索降到O(D^2)的两阶段方法，实用性大幅提升
缺失率越高越快：反直觉但数学上合理的性质

局限性 / 可改进方向¶

仅限连续数据：当前框架基于高斯混合模型，无法处理分类/混合类型数据，扩展到categorical数据是自然方向
全局角色分配：所有cluster共享同一个SRUW划分，但实验表明不同cluster中变量角色可能不同（如转录组数据中P6-P7在某些cluster中应属于S而非U），需要cluster-adaptive的角色分配
缺失机制假设：假设MNARz（缺失只依赖类别），但真实场景可能是MNARy（依赖值本身），虽然实验表明有一定鲁棒性
固定K的要求：K需要预先给定或在网格上搜索，没有自动确定K的机制

与相关工作的对比¶

vs SelvarClust/SelvarClustMV：本文直接扩展了Maugis等人的SRUW框架，加入了MNAR处理和L1排序，理论更完整、计算复杂度更低
vs VarSelLCM：VarSelLCM在高缺失率下性能明显下降（将不相关变量错误纳入），本文方法在50%缺失下仍保持高准确率
vs Celeux et al. (2019)：本文基于他们的两阶段策略，但增加了MNARz处理、自适应谱权重、并首次给出了两阶段选择一致性的理论证明

启发与关联¶

这篇论文的方法论（概率模型 + 稀疏正则化 + 两阶段推理）可以启发其他带缺失数据的结构发现问题
MNARz→MAR的增广数据技巧具有通用价值，可以推广到其他带latent variable的缺失数据模型

评分¶

新颖性: ⭐⭐⭐⭐ 框架整合巧妙，但各组件（SRUW、MNARz、L1正则化）均为已有技术
实验充分度: ⭐⭐⭐⭐⭐ 模拟+真实数据，消融、鲁棒性、计算效率、初始化全面覆盖
写作质量: ⭐⭐⭐⭐ 理论部分非常详尽（50+页附录），但主文可读性受影响
价值: ⭐⭐⭐⭐ 在统计聚类领域有实际价值，但受众相对较窄