Feature Selection for Latent Factor Models¶

会议: CVPR 2025
arXiv: 2412.10128
代码: 无
领域: 其他
关键词: 特征选择、潜因子模型、信噪比、类增量学习、低秩生成模型

一句话总结¶

提出基于信噪比（SNR）的类特异性特征选择方法用于低秩生成模型（PPCA/LFA/ELF），每新增一个类只需\(O(1)\)计算（不需重训旧类模型），避免了灾难性遗忘，并提出新的非参数潜因子模型ELF，在微阵列癌症分类和高维特征选择上验证了有效性。

研究背景与动机¶

领域现状¶

领域现状：高维数据的特征选择是机器学习的核心问题。现有方法分为基于边际最大化的全局方法（如SVM特征选择）和基于统计的方法（如PCA降维）。

现有痛点：边际最大化方法需要在所有类上联合优化，当新增类别时需要整体重训（\(O(C)\)复杂度），不支持增量学习。Supervised PCA对新数据也需要完全重训。

核心矛盾：现实场景中类别持续增加（如新疾病类型、新物种发现），但现有特征选择方法无法增量式地添加新类，每次都要重训全部模型。

本文目标 设计类特异性的特征选择方法，每个类独立建模，新增类只需\(O(1)\)计算即可完成特征选择，无需重训旧类。

切入角度：用低秩生成模型（PCA/因子分析/ELF）分别建模每个类的数据分布，用信噪比（信号方差/噪声方差）衡量每个特征在该类中的区分度，SNR高的特征被选中。

核心 idea：每个类独立训练一个低秩生成模型，用SNR选出该类的判别性特征，新增类只需训练新模型而非重训全部。

方法详解¶

整体框架¶

对每个类\(c\)：（1）用该类的训练数据拟合低秩生成模型（PPCA/LFA/ELF），分解数据为低秩信号+噪声；（2）计算每个特征维度的SNR = 信号方差/噪声方差；（3）选择SNR高的特征维度作为该类的判别性特征。分类时结合所有类的特征选择结果做决策。

关键设计¶

ELF（Estimation of Latent Factors）:
- 功能：新型非参数潜因子模型，比LFA更灵活
- 核心思路：最小化加权Frobenius范数\(\min_{W,\Sigma} \|X - WZ\|_\Sigma\)，其中\(\Sigma\)为异方差噪声协方差矩阵（对角），\(W\)为低秩因子载荷矩阵。与标准LFA不同，ELF不假设高斯分布，用特征权重（噪声方差的倒数）做加权回归。加入半正交性约束\(W^T \Sigma^{-1} W = I\)保证唯一解
- 设计动机：PPCA假设各向同性噪声太严格（同一噪声方差），LFA的EM算法对初始化敏感。ELF在异方差噪声和稳定性方面取得更好平衡
SNR特征选择:
- 功能：量化每个特征在每个类中的区分度
- 核心思路：对类\(c\)的第\(j\)个特征，\(\text{SNR}_j = \sigma_j^2(\text{signal}) / \sigma_j^2(\text{noise})\)。信号方差来自因子载荷矩阵\(W\)对该特征的贡献，噪声方差来自\(\Sigma\)的对角元素。SNR高→该特征携带有意义的类区分信息；SNR低→被噪声主导
- 设计动机：SNR直接量化了特征的"信息含量"，比互信息、方差解释比等更直接
类增量特征选择:
- 功能：新增类时无需重训旧类模型
- 核心思路：每个类独立建模和特征选择，彼此不耦合。新增类\(c_{new}\)时只需拟合一个新的低秩模型并计算SNR，\(O(1)\)复杂度。与边际最大化方法（需要在所有类上联合优化\(O(C)\)）形成对比
- 设计动机：现实中类别持续增加是常态，\(O(1)\)增量能力对实际部署至关重要

损失函数 / 训练策略¶

PPCA用闭式ML估计，LFA用EM算法，ELF用交替优化（固定\(\Sigma\)优化\(W\)再固定\(W\)优化\(\Sigma\)）。

实验关键数据¶

主实验¶

微阵列癌症数据分类：SNR选出的特征子集（50-200维）分类性能超过全维度和其他特征选择方法
高维合成数据：ELF在异方差噪声下的特征恢复率高于PPCA和LFA
可扩展性：添加第101个类的时间与添加第2个类相同（\(O(1)\)）

消融实验¶

配置	说明
PPCA (各向同性噪声)	对异方差数据表现差
LFA (EM)	对初始化敏感
ELF (加权Frobenius)	最稳定且准确
边际最大化 vs SNR	SNR在增量场景下有压倒性优势

关键发现¶

SNR特征选择发现的生物标记物与已知癌症标记高度吻合，验证了方法的生物学意义
ELF在异方差噪声下显著优于PPCA，证明了非各向同性噪声建模的必要性
\(O(1)\)增量能力使该方法特别适合持续学习和在线特征选择场景

亮点与洞察¶

\(O(1)\)增量特征选择：每个类独立处理，新增类不影响旧类——这在持续学习时代尤为重要
理论与实用的结合：有严格的理论分析（定理1-2+命题1），同时在真实生物数据上验证
ELF模型本身的贡献：作为非参数LFA的替代，在噪声异方差场景下更稳定

局限与展望¶

低秩假设对非线性特征关系可能不够灵活
SNR度量假设特征独立，忽略了特征间的相关性
仅在分类任务上验证，回归等其他任务未涉及
缺少与深度学习特征选择方法的对比

评分¶

新颖性: ⭐⭐⭐⭐ ELF模型+SNR增量特征选择的组合新颖，\(O(1)\)增量是重要特性
实验充分度: ⭐⭐⭐ 理论充分但实验数据集偏小，缺少大规模和深度学习对比
写作质量: ⭐⭐⭐⭐ 数学推导严谨
价值: ⭐⭐⭐ 对特征选择和增量学习的交叉领域有理论贡献