跳转至

Efficient Network Automatic Relevance Determination

会议: ICML2025
arXiv: 2506.12352
代码: 未公开
领域: 稀疏贝叶斯学习 / 特征选择 / 多输出回归
关键词: ARD, 稀疏贝叶斯, 精度矩阵估计, Graphical Lasso, 多输出回归, 特征选择

一句话总结

将自动相关性确定(ARD)从单输出扩展到多输出回归场景,提出 NARD 框架联合估计稀疏回归系数和输出精度矩阵,并设计 Sequential/Surrogate/Hybrid 三种加速算法将复杂度从 \(\mathcal{O}(d^3)\) 降至 \(\mathcal{O}(p^2)\)

研究背景与动机

  • 多输出回归广泛应用于基因组学、蛋白质组学等领域,需要同时建模输入-输出关系和输出间的依赖结构
  • 生物数据通常具有超高维特征(数千基因/蛋白),但只有少量特征真正影响表型,需要稀疏特征选择
  • 现有方法的不足:
    • MRCE 等频率方法使用 \(\ell_1\) 惩罚,但对超参数敏感
    • HS-GHS、JRNS 等贝叶斯 MCMC 方法精度高但计算极其昂贵(>3000秒)
    • 经典 ARD/SBL 仅处理单输出,无法捕捉输出间相关性
  • 核心动机:设计一个既能联合估计稀疏回归系数与输出精度矩阵,又能高效处理高维数据的贝叶斯框架

方法详解

NARD 框架

对回归系数矩阵 \(W\) 施加矩阵正态分布先验

\[W \sim \mathcal{MN}(0, V, K^{-1})\]

其中 \(K = \text{diag}(\alpha_1, \cdots, \alpha_d)\) 为列精度矩阵,\(V\) 为行协方差矩阵。通过 ARD 机制,当 \(\alpha_i \to \infty\) 时,相应特征被自动剪除。

对精度矩阵 \(\Omega = V^{-1}\) 施加 \(\ell_1\) 惩罚以鼓励稀疏,使用 Graphical Lasso 更新:

\[\hat{V}, \hat{V}^{-1} \leftarrow \textbf{glasso}(V, \lambda)\]

整体采用块坐标下降(BCD)交替优化 \(W\)\(\alpha\)\(V\),每轮迭代复杂度为 \(\mathcal{O}(m^3 + d^3)\)

Sequential NARD

受 Tipping 贪心方法启发,逐个评估特征的贡献: - 将边际似然分解为与单个 \(\alpha_i\) 相关/无关的两部分 - 定义 \(\eta_i = \text{Tr}(q_i q_i^\top V^{-1}) - m s_i\),最优 \(\alpha_i\) 为:

\[\alpha_i = \begin{cases} \frac{m s_i^2}{\eta_i}, & \eta_i > 0 \\ \infty, & \eta_i \leq 0 \end{cases}\]
  • 从近空模型开始,逐步添加/删除特征,仅在 MLF 增大时保留更新
  • 复杂度降至 \(\mathcal{O}(m^3 + p^3)\),其中 \(p \ll d\) 为最终保留特征数

Surrogate NARD

引入代理函数逼近边际似然的下界: - 利用 Lipschitz 连续梯度构造下界 \(R(W, W')\),使 \(\text{Tr}(g(W)) \leq \text{Tr}(R(W, W'))\) - 关键优势:\(S_{xx} = K + \rho I\) 为对角矩阵,求逆仅需 \(\mathcal{O}(d)\) - 通过 BCD 交替更新 \(W, W', V, K\),复杂度降至 \(\mathcal{O}(m^3 + d^2)\)

Hybrid NARD

结合 Sequential 的特征选择与 Surrogate 的高效计算: - 用 Sequential 方式评估特征是否纳入模型 - 纳入后用 Surrogate 方式更新矩阵 - 复杂度进一步降至 \(\mathcal{O}(m^3 + p^2)\)

实验关键数据

合成数据 (\(d=5000, m=1500, N=1500\))

方法 TPR FPR 总时间(秒)
MRCE 0.9083 0.0072 53
CAPME 0.8972 0.0124 52
HS-GHS 0.9463 0.0033 >3000
JRNS 0.9485 0.0037 >3000
NARD 0.9483 0.0062 49
Sequential NARD 0.9459 0.0067 35
Surrogate NARD 0.9462 0.0072 31
Hybrid NARD 0.9471 0.0068 23

可扩展性 (\(N=20000, m=2000\), 单步时间/秒)

\(d\) MRCE NARD Surrogate NARD
5000 12.2 10.7 3.7
10000 33.4 30.8 8.9
20000 201.9 168.6 33.7
30000 421.3 376.7 64.7

衰老表型数据

  • 1022 名健康个体,5641 个表型(1522 宏观 + 4119 分子表型)
  • NARD 各变体与基线的 Jaccard 指数 >98.5%,表明特征选择高度一致
  • NARD 约 24 分钟,Sequential NARD 约 14 分钟

TCGA 癌症数据

  • 7 种肿瘤类型,10 条关键信号通路
  • NARD 成功识别出 COAD 中 PI3K/AKT 通路的 GSK3-AKT 调控关系,与已知生物学知识吻合

亮点与洞察

  • 统一框架:将 ARD 特征选择与 Graphical Lasso 精度矩阵估计有机结合,一个框架同时解决两个问题
  • 理论优雅:三种加速方案均有严格的数学推导支撑(代理下界证明、复杂度分析)
  • 实用性强:Hybrid NARD 在 \(d=5000\) 时加速约 2×,\(d=30000\) 时加速约 6×,且精度几乎不损失
  • 生物可解释性:在 TCGA 数据上发现的蛋白质交互网络与已知生物学通路一致
  • 可通过核方法自然扩展到非线性场景

局限与展望

  • 模型核心假设是线性关系,虽提及核扩展但未深入实验验证
  • Graphical Lasso 中 \(\lambda\) 的选择依赖 5 折交叉验证,计算成本未计入总时间对比
  • 未与近年的深度特征选择方法(如门控网络、注意力机制)对比
  • 理论分析缺少收敛速率的严格界
  • 代码未公开,可复现性存在障碍

相关工作与启发

  • MRCE (Rothman et al., 2010):\(\ell_1\) 联合惩罚 \(W\)\(\Omega\),频率方法代表
  • HS-GHS (Li et al., 2021):Horseshoe + Graphical Horseshoe 先验,贝叶斯方法精度高但极慢
  • Tipping 快速 ARD (Tipping & Faul, 2003):Sequential 更新的灵感来源
  • 对研究高维多输出稀疏学习、贝叶斯特征选择、生物网络推断的方向有参考价值

评分

  • 新颖性: ⭐⭐⭐⭐ — ARD 到多输出的扩展自然且有意义,三种加速方案设计精巧
  • 实验充分度: ⭐⭐⭐⭐ — 合成+衰老表型+TCGA 多场景验证,缺少与深度方法的对比
  • 写作质量: ⭐⭐⭐⭐ — 数学推导清晰严谨,算法伪代码完整
  • 价值: ⭐⭐⭐⭐ — 在高维生物统计领域有实际应用价值,代码未开源略有遗憾

相关论文