Ab Initio Nonparametric Variable Selection for Scalable Symbolic Regression with Large p¶

会议: ICML2025
arXiv: 2410.13681
代码: GitHub - PAN_SR
领域: others
关键词: 符号回归, 变量选择, 非参数方法, BART, 高维数据

一句话总结¶

提出 PAN+SR 框架，通过基于 BART 的非参数变量预筛选，将高维符号回归问题降维至低维子空间，使 19 种现有 SR 方法在高维场景下均获显著性能提升。

研究背景与动机¶

核心矛盾¶

核心矛盾：符号回归（SR）旨在发现可解释的数学表达式，但搜索空间随特征数 p 呈双指数增长。现有 SR 方法几乎都只在 p≤10 下工作良好，无法扩展到现代科学中的高维数据集（p=102~459）。

解决思路¶

本文目标：与传统变量选择不同，SR 要求假阴性率(FNR)接近零——遗漏任何相关变量都会导致无法恢复真实函数。而假阳性仅增加计算负担，不影响正确性。这种不对称需求使标准 FDR 控制方法不适用。

PySR 内置预选方法的失败¶

PySR 的随机森林特征预选效果不佳，其文档直接指出该选项"几乎不使用"。

方法详解¶

整体框架：PAN+SR（两阶段）¶

PAN 预筛选：从高维数据识别相关变量子集 Ŝ
SR 求解：将降维数据输入任意 SR 方法

关键设计 1：基于 BART 的变量重要性排名¶

独立运行 K=20 次 BART，对每棵后验采样的树计算各特征作为分裂变量的比例（VIP）。

关键设计 2：排名聚合策略¶

利用 K 次运行的平均排名（而非原始VIP值）： - 相关特征聚类：排名集中在前端 - 无关特征聚类：排名集中在后端 - 用凝聚层次聚类(AHC)自动切分两组

设计优势¶

无需知道稀疏度 \(p_0\)
无可调阈值，完全数据驱动
PAN 计算开销极低（平均仅 74.14 秒）

实验关键数据¶

黑盒回归问题（35个高维真实数据集）¶

指标	PAN+SR 效果
R² 改善	18/19 方法提升
训练时间	AIFeynman 5x加速，uDSR 3x加速
模型复杂度	不增加或降低
PAN开销	平均仅74.14秒

合成回归（100个高维Feynman方程，p=102~459）¶

SR 方法	独立解率(%)	PAN+SR 解率(%)
uDSR	36.6	71.8
AIFeynman	0 (OOM)	恢复运行
Operon	18.1	27.4
DSR	8.9	25.8
GP-GOMEA	18.2	24.1

消融：变量选择方法对比¶

方法	TPR	PAN准则符合度
PAN (本文)	~99%	✅
BART-G.SE	不足	❌
Random Forest	不佳	❌

亮点与洞察¶

准确识别了 SR 变量选择中 FNR/FPR 的不对称需求，为后续研究奠基。
方法极简："多次BART → 平均排名 → 层次聚类"三步，无超参无阈值。
评估规模空前：138K核时计算量，19种方法×135个数据集×多种SNR。
扩展的高维SRBench（102~459维）填补基准空白。

局限与展望¶

极端噪声下(SNR=0.5, n=500)FNR>5%，PAN准则不再满足。
高度相关特征集合的处理能力仍需提升。
方法依赖 \(p_0 \ll p\) 的稀疏性假设，非稀疏场景未讨论。
BART 在 p>1000 时效率可能下降。

补充分析¶

SNR与样本量敏感性¶

n=1000, SNR=∞：FNR≈0%，FPR≈0%，最优条件
n=1000, SNR=10：FNR≈0%但FPR初增，解率受噪声限制降至0%
n=500, SNR=0.5：FNR>5%，极端噪声下PAN准则失效
样本量影响小，SNR是主导因素

计算开销对比¶

PAN预筛选平均仅74s（黑盒）和325s（合成），K=20次BART可完全并行。对比下游SR（AIFeynman 71250s → PAN+AIFeynman 13997s = 5x加速），预筛选开销可忽略。

扩展SRBench基准¶

对Feynman方程每个相关特征生成s=50个同分布无关特征，总维度p=51·p₀（102~459维），加入8种信噪比。

评分¶

新颖性: ⭐⭐⭐⭐☆（4.0/5）
实验充分度: ⭐⭐⭐⭐⭐（5.0/5）— 迄今SR领域最大规模系统评估
写作质量: ⭐⭐⭐⭐⭐（5.0/5）
价值: ⭐⭐⭐⭐☆（4.0/5）— 对SR社区有直接实用价值