跳转至

A Unified Framework for Variable Selection in Model-Based Clustering with Missing Not at Random

会议: NeurIPS 2025
arXiv: 2505.19093
代码: 无
领域: 统计学习 / 聚类 / 缺失数据处理
关键词: model-based clustering, variable selection, MNAR, Gaussian mixture model, LASSO

一句话总结

提出了一个统一框架(SelvarMNARz),在高斯混合模型聚类中同时完成变量选择和MNAR(Missing Not At Random)缺失数据建模,通过两阶段策略(LASSO排序 + BIC角色分配)实现高维场景下的高效推理,并给出了可辨识性和选择一致性的理论保证。

背景与动机

在转录组学等高维生物数据中,存在两个常见难题:(1) 大量变量中只有一小部分与聚类结构相关,需要筛选"信号"变量并剔除冗余/噪声变量;(2) 数据缺失往往是非随机的(MNAR),缺失模式依赖于潜在的类别归属。现有方法(如SelvarClust、VarSelLCM等)通常只解决其中一个问题——要么做变量选择(假设数据完整或MAR),要么做缺失数据处理(不做变量选择)。将两者融合到一个统一的概率框架中,是提升聚类质量和可解释性的关键需求。

核心问题

如何在一个统一的概率模型中,同时解决以下三个子问题:
1. 变量角色分配:区分哪些变量是聚类相关的(𝕊)、哪些是冗余的(𝕌,可被𝕊的子集线性解释)、哪些是独立噪声(𝕎)?
2. MNAR缺失建模:缺失机制依赖于潜在类别(MNARz),如何在不做外部impute的前提下,正确估计参数?
3. 高维可扩展性:经典的逐步变量选择方法复杂度为O(D^5),如何让框架适用于中高维数据?

方法详解

整体框架

采用SRUW模型(将变量划分为S-信号、R-回归子集、U-冗余、W-独立噪声四类角色),与MNARz缺失机制(缺失概率只依赖于隐变量z所属的聚类)进行联合建模。通过两阶段策略实现高效推理:

  • Stage A(排序):对快速单次插补后的数据,用带L1惩罚的高斯混合模型(penalized GMM)拟合,同时对均值向量和精度矩阵施加LASSO和graphical LASSO正则化。通过沿正则化路径改变λ/ρ,统计每个变量在多少个正则化水平下保持非零,得到变量排序分数O_K(j)。
  • Stage B(角色分配):按排序顺序遍历变量,在原始不完整数据上拟合无惩罚的SRUW-MNARz模型,用BIC准则逐步判定每个变量属于S/U/W角色。

关键设计

  1. MNARz与SRUW的融合:将MNARz机制嵌入SRUW模型的观测数据似然中。关键发现是:在MNARz下,缺失指示变量c_n可以从积分中分离出来(因为缺失概率只依赖于类别z,不依赖于具体值y),从而MNARz-SRUW模型可等价为在增广数据(y^o, c)上的MAR模型,使得EM算法可以直接应用。
  2. 自适应惩罚矩阵P_k:不使用传统的偏相关系数倒数作为权重,而是从初始精度矩阵构造图的谱距离(spectral distance of Laplacian)来设计自适应权重P_{k,ij},提高了在精度矩阵估计中的稀疏恢复质量。
  3. 数据驱动的正则化路径:λ和ρ的上下界均由数据统计量决定(KKT条件确定的λ_max和ρ_max),沿几何路径均匀取点,避免了手动调参。

损失函数 / 训练策略

  • Stage A的惩罚目标函数:负对数似然 + λ‖μ_k‖1 + ρΣP|}|Ψ_{k,ij
  • Stage B的EM算法:E步计算增广数据上的责任权重t_{nk}(同时考虑GMM似然和MNARz似然),M步分别更新混合权重、SRUW各块参数(μ, Σ, a, β, Ω, γ, Γ)以及MNARz缺失率参数ψ_k

实验关键数据

数据集 指标 SelvarMNARz Clustvarsel Selvar VarSelLCM
模拟数据 (50% MNAR) ARI 0.511 0.363 0.348 0.344
转录组 (1267基因) 聚类数 18 - - -
  • 在所有缺失率(5%-50%)和两种缺失机制(MAR/MNAR)下,SelvarMNARz的ARI最高、WNRMSE最低
  • 50% MNAR下,Welch t检验验证了显著性(p<0.001)
  • 在混合缺失机制(MAR+MNARy)的鲁棒性测试中,即使模型被错误指定(真实为MNARy但模型假设MNARz),方法仍然能正确选出变量{1,2}并取得0.808的ARI

消融实验要点

  • 两阶段方法相比经典逐步选择有D^2/M_grid倍加速,在D=27时实测加速132倍
  • 停止参数c的敏感性:c=2或3时表现最佳,c过大(如7)在高维场景下会引入假阳性
  • 层次聚类初始化比随机初始化在8个场景中有7个取得更高ARI
  • 缺失率越高,运行时间反而越短(因为E步的计算量与观测维度的平方成正比)

亮点

  • 理论贡献扎实:证明了SRUW-MNARz模型的可辨识性(Theorem 1)、BIC选择一致性(Theorem 2)和两阶段选择一致性(Theorem 3),涵盖了从RSC条件、梯度界到排序一致性的完整理论链
  • MNARz→MAR等价变换:通过将缺失指示变量纳入增广数据,MNARz问题可转化为MAR问题,使得标准EM直接适用,是一个非常优雅的处理
  • 计算效率:从O(D^5)的逐步搜索降到O(D^2)的两阶段方法,实用性大幅提升
  • 缺失率越高越快:反直觉但数学上合理的性质

局限性 / 可改进方向

  • 仅限连续数据:当前框架基于高斯混合模型,无法处理分类/混合类型数据,扩展到categorical数据是自然方向
  • 全局角色分配:所有cluster共享同一个SRUW划分,但实验表明不同cluster中变量角色可能不同(如转录组数据中P6-P7在某些cluster中应属于S而非U),需要cluster-adaptive的角色分配
  • 缺失机制假设:假设MNARz(缺失只依赖类别),但真实场景可能是MNARy(依赖值本身),虽然实验表明有一定鲁棒性
  • 固定K的要求:K需要预先给定或在网格上搜索,没有自动确定K的机制

与相关工作的对比

  • vs SelvarClust/SelvarClustMV:本文直接扩展了Maugis等人的SRUW框架,加入了MNAR处理和L1排序,理论更完整、计算复杂度更低
  • vs VarSelLCM:VarSelLCM在高缺失率下性能明显下降(将不相关变量错误纳入),本文方法在50%缺失下仍保持高准确率
  • vs Celeux et al. (2019):本文基于他们的两阶段策略,但增加了MNARz处理、自适应谱权重、并首次给出了两阶段选择一致性的理论证明

启发与关联

  • 这篇论文的方法论(概率模型 + 稀疏正则化 + 两阶段推理)可以启发其他带缺失数据的结构发现问题
  • MNARz→MAR的增广数据技巧具有通用价值,可以推广到其他带latent variable的缺失数据模型

评分

  • 新颖性: ⭐⭐⭐⭐ 框架整合巧妙,但各组件(SRUW、MNARz、L1正则化)均为已有技术
  • 实验充分度: ⭐⭐⭐⭐⭐ 模拟+真实数据,消融、鲁棒性、计算效率、初始化全面覆盖
  • 写作质量: ⭐⭐⭐⭐ 理论部分非常详尽(50+页附录),但主文可读性受影响
  • 价值: ⭐⭐⭐⭐ 在统计聚类领域有实际价值,但受众相对较窄