Feature Selection for Latent Factor Models¶
会议: CVPR 2025
arXiv: 2412.10128
代码: 无
领域: 其他
关键词: 特征选择、潜因子模型、信噪比、类增量学习、低秩生成模型
一句话总结¶
提出基于信噪比(SNR)的类特异性特征选择方法用于低秩生成模型(PPCA/LFA/ELF),每新增一个类只需\(O(1)\)计算(不需重训旧类模型),避免了灾难性遗忘,并提出新的非参数潜因子模型ELF,在微阵列癌症分类和高维特征选择上验证了有效性。
研究背景与动机¶
领域现状¶
领域现状:高维数据的特征选择是机器学习的核心问题。现有方法分为基于边际最大化的全局方法(如SVM特征选择)和基于统计的方法(如PCA降维)。
现有痛点:边际最大化方法需要在所有类上联合优化,当新增类别时需要整体重训(\(O(C)\)复杂度),不支持增量学习。Supervised PCA对新数据也需要完全重训。
核心矛盾:现实场景中类别持续增加(如新疾病类型、新物种发现),但现有特征选择方法无法增量式地添加新类,每次都要重训全部模型。
本文目标 设计类特异性的特征选择方法,每个类独立建模,新增类只需\(O(1)\)计算即可完成特征选择,无需重训旧类。
切入角度:用低秩生成模型(PCA/因子分析/ELF)分别建模每个类的数据分布,用信噪比(信号方差/噪声方差)衡量每个特征在该类中的区分度,SNR高的特征被选中。
核心 idea:每个类独立训练一个低秩生成模型,用SNR选出该类的判别性特征,新增类只需训练新模型而非重训全部。
方法详解¶
整体框架¶
对每个类\(c\):(1)用该类的训练数据拟合低秩生成模型(PPCA/LFA/ELF),分解数据为低秩信号+噪声;(2)计算每个特征维度的SNR = 信号方差/噪声方差;(3)选择SNR高的特征维度作为该类的判别性特征。分类时结合所有类的特征选择结果做决策。
关键设计¶
-
ELF(Estimation of Latent Factors):
- 功能:新型非参数潜因子模型,比LFA更灵活
- 核心思路:最小化加权Frobenius范数\(\min_{W,\Sigma} \|X - WZ\|_\Sigma\),其中\(\Sigma\)为异方差噪声协方差矩阵(对角),\(W\)为低秩因子载荷矩阵。与标准LFA不同,ELF不假设高斯分布,用特征权重(噪声方差的倒数)做加权回归。加入半正交性约束\(W^T \Sigma^{-1} W = I\)保证唯一解
- 设计动机:PPCA假设各向同性噪声太严格(同一噪声方差),LFA的EM算法对初始化敏感。ELF在异方差噪声和稳定性方面取得更好平衡
-
SNR特征选择:
- 功能:量化每个特征在每个类中的区分度
- 核心思路:对类\(c\)的第\(j\)个特征,\(\text{SNR}_j = \sigma_j^2(\text{signal}) / \sigma_j^2(\text{noise})\)。信号方差来自因子载荷矩阵\(W\)对该特征的贡献,噪声方差来自\(\Sigma\)的对角元素。SNR高→该特征携带有意义的类区分信息;SNR低→被噪声主导
- 设计动机:SNR直接量化了特征的"信息含量",比互信息、方差解释比等更直接
-
类增量特征选择:
- 功能:新增类时无需重训旧类模型
- 核心思路:每个类独立建模和特征选择,彼此不耦合。新增类\(c_{new}\)时只需拟合一个新的低秩模型并计算SNR,\(O(1)\)复杂度。与边际最大化方法(需要在所有类上联合优化\(O(C)\))形成对比
- 设计动机:现实中类别持续增加是常态,\(O(1)\)增量能力对实际部署至关重要
损失函数 / 训练策略¶
PPCA用闭式ML估计,LFA用EM算法,ELF用交替优化(固定\(\Sigma\)优化\(W\)再固定\(W\)优化\(\Sigma\))。
实验关键数据¶
主实验¶
- 微阵列癌症数据分类:SNR选出的特征子集(50-200维)分类性能超过全维度和其他特征选择方法
- 高维合成数据:ELF在异方差噪声下的特征恢复率高于PPCA和LFA
- 可扩展性:添加第101个类的时间与添加第2个类相同(\(O(1)\))
消融实验¶
| 配置 | 说明 |
|---|---|
| PPCA (各向同性噪声) | 对异方差数据表现差 |
| LFA (EM) | 对初始化敏感 |
| ELF (加权Frobenius) | 最稳定且准确 |
| 边际最大化 vs SNR | SNR在增量场景下有压倒性优势 |
关键发现¶
- SNR特征选择发现的生物标记物与已知癌症标记高度吻合,验证了方法的生物学意义
- ELF在异方差噪声下显著优于PPCA,证明了非各向同性噪声建模的必要性
- \(O(1)\)增量能力使该方法特别适合持续学习和在线特征选择场景
亮点与洞察¶
- \(O(1)\)增量特征选择:每个类独立处理,新增类不影响旧类——这在持续学习时代尤为重要
- 理论与实用的结合:有严格的理论分析(定理1-2+命题1),同时在真实生物数据上验证
- ELF模型本身的贡献:作为非参数LFA的替代,在噪声异方差场景下更稳定
局限与展望¶
- 低秩假设对非线性特征关系可能不够灵活
- SNR度量假设特征独立,忽略了特征间的相关性
- 仅在分类任务上验证,回归等其他任务未涉及
- 缺少与深度学习特征选择方法的对比
相关工作与启发¶
- vs CFSS: CFSS是联合优化所有类的margin,新增类需\(O(C)\)重训;本方法\(O(1)\)增量
- vs Supervised PCA: SPCA单一模型对所有类,不支持增量;本方法每类独立模型
- vs 网络剪枝(FSA/TISP): 网络剪枝关注深度网络的冗余参数;本方法关注原始特征空间的选择
评分¶
- 新颖性: ⭐⭐⭐⭐ ELF模型+SNR增量特征选择的组合新颖,\(O(1)\)增量是重要特性
- 实验充分度: ⭐⭐⭐ 理论充分但实验数据集偏小,缺少大规模和深度学习对比
- 写作质量: ⭐⭐⭐⭐ 数学推导严谨
- 价值: ⭐⭐⭐ 对特征选择和增量学习的交叉领域有理论贡献
相关论文¶
- [NeurIPS 2025] Distributionally Robust Feature Selection
- [CVPR 2025] Task-Agnostic Guided Feature Expansion for Class-Incremental Learning
- [ICML 2025] Latent Variable Estimation in Bayesian Black-Litterman Models
- [ACL 2025] LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models
- [CVPR 2025] Improving Transferable Targeted Attacks with Feature Tuning Mixup