跳转至

TangledFeatures: Robust Feature Selection in Highly Correlated Spaces

会议: NeurIPS 2025
arXiv: 2510.15005
代码: R包 TangledFeatures(GitHub,准备 CRAN 提交)
领域: 可解释性 / 特征选择
关键词: 特征选择, 稳定性, 相关性冗余, 随机森林, 结构生物学

一句话总结

提出 TangledFeatures,一个以特征稳定性为核心目标的选择框架,通过相关性图聚类→集成代表选择→随机森林精炼的三阶段管线,在高度相关的特征空间中实现跨重采样高度可复现且与领域知识一致的特征子集,在丙氨酸二肽骨架扭转角预测中验证有效。

研究背景与动机

领域现状:特征选择是预测建模的基础步骤,直接影响模型性能和可解释性。在结构生物学中,AlphaFold 等深度学习模型虽然预测精度极高,但对驱动预测的具体结构因素(残基、基序、原子间相互作用)缺乏透明理解。后验解释方法如 SHAP、Integrated Gradients 被广泛使用,但面临一个根本问题。

现有痛点:当预测特征高度相关时,大多数特征选择方法的行为变得不可预测。(1) 不稳定:LASSO 在相关特征中随意选择一个,不同数据划分下可能选择完全不同的特征子集;(2) 冗余:Boruta、RFE 等方法可能保留大量冗余特征;(3) 不可复现:不同分析运行产生不同的"重要特征",使科学发现难以被信任。SHAP 等后验方法在高相关设定下解释同样不稳定。

核心矛盾:对于生物学可操作的洞察(如指导突变实验、蛋白设计),特征选择结果必须满足两个同时难以实现的目标:(1) 生物学可解释性——映射到已知的结构或功能元素;(2) 跨分析可复现性——不同数据子集得到一致的特征集。现有方法只关注预测精度,无法同时保证这两点。

本文目标 (1) 从相关特征组中提取非冗余代表;(2) 确保选择结果在数据扰动下高度稳定;(3) 验证选出的特征是否对应已知的生物学驱动因素。

切入角度:作者将稳定性提升到与预测精度同等重要的位置——接受在预测精度上的微小让步,换取特征子集的高度可复现性和可解释性。

核心 idea:先用相关性图把纠缠的特征分组去冗余,再用集成选择确保稳定性,最后用重要性过滤确保简约性。

方法详解

整体框架

TangledFeatures 是一个三阶段管线:输入特征矩阵 \(D \in \mathbb{R}^{n \times m}\) → 相关性模块 \(c_\alpha\) 构建相关图并聚类 → 选择模块 \(s_\beta\) 从每个簇中选出稳定的代表特征 → 精炼模块 \(r_\gamma\) 按累积重要性截断得到最终子集 \(d'\) → 下游预测 \(f(d') \to (\phi, \psi)\)。三个模块串联执行,概念清晰,每步都有明确的去冗余或精炼作用。

关键设计

  1. 相关性模块 \(c_\alpha\)——图聚类去冗余:

    • 功能:将高度相关的特征自动分组,识别冗余簇
    • 核心思路:计算全特征矩阵的 Pearson 相关矩阵 \(\Sigma \in \mathbb{R}^{m \times m}\),构建无向图 \(G = (V, E)\),其中 \(E = \{(i,j): |\Sigma_{ij}| \geq \tau\}\)\(\tau\) 为用户指定阈值。图的连通分量自然定义了相关特征簇——同一个簇内的特征传递的信息大致冗余。预测目标(扭转角 \(\phi, \psi\))用 \((\cos\phi, \sin\phi, \cos\psi, \sin\psi)\) 的余弦-正弦形式表示,消除角度边界处的不连续性
    • 设计动机:比层次聚类或 PCA 更简单直观,且连通分量天然保证了传递性——如果 \(A\)\(B\) 高相关、\(B\)\(C\) 高相关,则 \(A, B, C\) 会在同一簇中
  2. 选择模块 \(s_\beta\)——集成稳定性选择:

    • 功能:从每个相关簇中选出最具代表性和最稳定的单个特征
    • 核心思路:进行 \(R\) 轮随机森林训练。每轮从每个簇中随机采样一个候选特征,与所有未被聚类的特征一起预测扭转角。计算跨轮平均重要性 \(\hat{I}(d_{ij}) = \frac{1}{R}\sum_{r=1}^{R}I_r(d_{ij})\),每簇保留 \(\hat{I}\) 最高的特征作为代表。这种集成方式确保了选择不依赖单次运行的随机性,与稳定性选择和 Boruta 的理念一脉相承
    • 设计动机:直接用单次特征重要性排序会导致"翻币效应"——相关特征中每个都有相似的重要性,但每次只被选中一个,导致不同运行选出不同特征。多次采样+平均可以找到"最一致地重要"的那个
  3. 精炼模块 \(r_\gamma\)——累积重要性截断:

    • 功能:从代表特征中进一步精简,去除贡献微小的特征
    • 核心思路:对代表特征训练随机森林,按重要性降序排列,保留直到累积重要性达到 0.99 阈值(即捕获 99% 的预测信号)。这一步类似 PCA 中保留解释 99% 方差的主成分
    • 设计动机:即使去冗余后,某些簇的代表特征对预测的边际贡献可能很小,保留它们只会增加噪声而不增加信息

损失函数 / 训练策略

TangledFeatures 本身是非参数方法,不涉及梯度优化或损失函数。核心组件是随机森林的 feature importance(基于不纯度减少或排列重要性),用于选择模块和精炼模块。

实验关键数据

主实验

方法 OLS-\(\phi\) RF-\(\phi\) SVM-\(\phi\) OLS-\(\psi\) RF-\(\psi\) SVM-\(\psi\)
No Feature 0.19/0.93 0.29/0.83 0.06/0.99 0.65/0.71 0.69/0.80 0.83/0.69
LASSO 0.21/0.92 0.09/0.98 0.05/0.99 0.89/0.64 0.69/0.79 0.84/0.70
Elastic Net 0.20/0.92 0.07/0.98 0.05/0.99 0.90/0.64 0.66/0.81 0.87/0.89
Boruta 0.22/0.91 0.07/0.98 0.05/0.99 0.91/0.64 0.65/0.82 0.84/0.70
TangledFeatures 0.26/0.87 0.09/0.98 0.09/0.98 0.97/0.61 0.67/0.81 0.86/0.75

(格式:RMSE / \(R^2\),最佳加粗)

消融实验:稳定性对比

指标 TangledFeatures ENR RFE LASSO Boruta
Kuncheva 指数(\(\phi\) 接近最大值,flat 急剧下降 低重叠
Spearman 秩相关(\(\phi\) 接近 1.0 强烈波动 强烈波动
Kuncheva 指数(\(\psi\) 最高且稳定 下降
Spearman 秩相关(\(\psi\) 接近完美 波动 波动

关键发现

  • 稳定性碾压所有基线:TangledFeatures 的 Kuncheva 指数和 Spearman 秩相关在 10 次 bootstrap 重采样中几乎不变,而 ENR 和 RFE 在相关特征存在时出现巨大波动。这是本文最核心的实验发现
  • 预测精度保持竞争力:用 RF/XGBoost 预测 \(\phi\)\(R^2 > 0.97\),虽然 SVM+全特征能达到 \(R^2 = 0.99\),但后者依赖冗余特征带来的额外信号
  • 选出的特征与生物学知识一致\(\phi\) 驱动特征集中在 ACE1-CH3↔ALA2-CB(柔性/帽相关)等骨架和近骨架距离,这些是已知的扭转角变异决定因子。而 LASSO 选出的特征虽然数量也少,但包含化学意义较弱的冗余距离
  • SVM 高精度的代价:SVM 在使用冗余特征时精度最高,因为它能利用相关特征的互补信息。TangledFeatures 以少量精度换取了稳定性和可解释性——这是一个显式的 trade-off

亮点与洞察

  • 将稳定性提升为一等公民:在"精度至上"的特征选择领域,明确提出稳定性与精度同等重要,这个定位本身就有价值。对任何需要可复现解释的应用(医学、法律、科学发现),这个思路都可以直接借用
  • 图连通分量做聚类的简洁设计:不需要调超参(除了阈值 \(\tau\))、不需要指定簇数、自动处理传递性依赖。概念简单但对付相关性冗余足够有效
  • 集成选择的"最一致地重要"思路:通过多次随机采样+平均消除"翻币效应",找到每个簇中最可靠的代表——这个技巧可以直接迁移到任何需要从相关组中选代表的场景

局限与展望

  • 仅在丙氨酸二肽上验证:这是最简单的肽模型(仅 10 个重原子、约 45 个原子对距离),方法在高维蛋白质(数千残基)上的可扩展性未知
  • 阈值 \(\tau\) 需手动选择:不同阈值会导致不同的聚类结果,论文未讨论敏感性或自适应选择策略
  • 仅用 Pearson 相关:线性相关可能遗漏非线性依赖关系(如互信息、距离相关)
  • 精度让步对某些应用可能不可接受:OLS 上 \(R^2\) 从 0.93 降到 0.87(\(\phi\)),在精度敏感场景中这不是小差距
  • 缺乏与 PCA 的直接对比:PCA 通过线性变换也能去冗余,但牺牲可解释性——加入这个基线会更有说服力

相关工作与启发

  • vs Boruta (Kursa et al., 2010): Boruta 通过影子特征做全局重要性筛选,但不处理相关性——可能保留同一簇中多个冗余特征。TangledFeatures 先去冗余再筛选,更适合高相关场景
  • vs 稳定性选择 (Meinshausen & Bühlmann, 2010): 稳定性选择通过重采样+LASSO 评估特征入选频率,但仍受 LASSO 在相关特征中随机选取的影响。TangledFeatures 通过显式聚类从根源解决冗余问题
  • vs PCA: PCA 通过正交变换消除相关性,但变换后的主成分难以回溯到原始特征的物理含义。TangledFeatures 始终在原始特征空间操作,保持完全可解释性

评分

  • 新颖性: ⭐⭐⭐⭐ 稳定性优先的特征选择定位清晰,三模块设计虽用已有技术但组合合理
  • 实验充分度: ⭐⭐⭐ 单一应用场景(丙氨酸二肽),但从精度、稳定性、可解释性三轴全面评估
  • 写作质量: ⭐⭐⭐⭐ 清晰简洁,图表直观,管线描述有条理
  • 价值: ⭐⭐⭐ 方法通用但验证规模偏小,R包发布有助于社区采用

相关论文