AutoSciDACT: Automated Scientific Discovery through Contrastive Embedding and Hypothesis Testing¶

会议: NeurIPS 2025
arXiv: 2510.21935
代码: 待确认
领域: self_supervised
关键词: contrastive learning, anomaly detection, hypothesis testing, novelty detection, scientific discovery

一句话总结¶

提出 AutoSciDACT 管线：先用有监督对比学习将高维科学数据压缩到 4 维嵌入空间，再用 NPLM（New Physics Learning Machine）似然比检验对嵌入空间中的分布偏差进行统计量化，在天文、粒子物理、病理、图像和合成数据集上以 ≤1% 的信号注入比例实现 ≥3σ 发现。

研究背景与动机¶

科学发现的核心挑战：现代科学数据集规模庞大、维度极高，真正的新现象往往被统计噪声或偶然波动掩盖，单靠人类直觉难以覆盖所有数据区域。
异常检测 vs 科学发现的鸿沟：现有异常检测方法（自编码器、OOD 检测）大多只能"标记"异常样本，输出一个 AUROC 分数，但不能给出 p-value 或 Z-score 这样的统计显著性声明，无法满足科学发现的严格标准。
维度灾难对统计检验的杀伤：经典拟合优度检验（GOF）在高维空间中灵敏度急剧下降，需要不现实的大样本量。即使是 NPLM 这种强力检验工具，也需要输入维度尽量小。
特征工程的局限性：传统做法依赖领域专家手工选取物理可观测量，缺乏自动化和跨领域泛化能力。
对比学习的潜力：有标签的模拟数据在很多科学领域大量存在（粒子物理模拟、引力波模板、病理组织标注），为有监督对比学习提供了天然正样本对。
本文定位：将对比学习（降维）与 NPLM（统计检验）首次组合成端到端管线，填补"降维表示 → 严格假设检验"之间的系统性空白。

方法详解¶

整体框架¶

AutoSciDACT 分为两个阶段：

Phase 1: Pre-training (对比学习降维)
  高维输入 x ∈ X → 编码器 f_θ → 4维嵌入 h = f_θ(x)

Phase 2: Discovery (NPLM 假设检验)
  参考集 R (已知背景) + 观测集 D (可能含新信号)
  → NPLM 似然比检验 → p-value / Z-score

三个核心设计¶

设计一：有监督对比学习（SupCon）

在 SimCLR 框架基础上，用类标签定义正样本对（同类 = 正对，异类 = 负对），避免了"最优数据增强"的选择困难。
总损失函数为 \(\mathcal{L} = \mathcal{L}_{\text{SupCon}} + \lambda_{\text{CE}} \mathcal{L}_{\text{CE}}\)，其中交叉熵项 \(\lambda_{\text{CE}} \sim 0.1\text{-}0.5\) 作为辅助分类目标，改善嵌入空间的类间分离和结构规整性。
关键：异常信号类不参与预训练，只在 discovery 阶段注入，模拟真实科学中"未知新现象"的场景。

设计二：NPLM 似然比检验

构造检验统计量：\(t(\mathcal{D}) = 2 \max_{\boldsymbol{w}} \sum_{x \in \mathcal{D}} \log \frac{\mathcal{L}(x|\mathcal{H}_{\boldsymbol{w}})}{\mathcal{L}(x|\mathcal{H}_0)}\)
备择假设的密度参数化为 \(p(x|\mathcal{H}_w) = p(x|\mathcal{H}_0) \exp[f_w(x)]\)，不需要指定具体信号模型，属于信号无关（signal-agnostic）方法。
\(f_w\) 采用 Nyström 近似高斯核方法实现（\(M \sim \sqrt{|D|+|R|}\) 个核），通过加权二分类交叉熵训练。
通过 500 次伪实验（pseudo-experiments）采样零假设下的 \(t\) 分布来标定 p-value，也可用 \(\chi^2\) 分布做渐近估计。

设计三：多尺度核宽度组合

核宽度决定了 NPLM 对不同尺度畸变的灵敏度。采用 6 个不同核宽度（嵌入空间中成对距离的 1、25、50、75、99 百分位 + 2×99 百分位），取 p-value 均值作为最终结果。
这种组合策略类似于"look-elsewhere effect"的修正，牺牲单一最优核的功效换取鲁棒性。

损失函数¶

总预训练损失：

\[\mathcal{L} = \mathcal{L}_{\text{SupCon}} + \lambda_{\text{CE}} \mathcal{L}_{\text{CE}}\]

NPLM 训练损失（加权二分类交叉熵 + 正则化）：

\[\mathcal{L}_{\text{NPLM}} = \sum_{(x,y)} \left[ w_R (1-y) \log(1+e^{f_w}) + y \log(1+e^{-f_w}) \right] + \lambda \sum_{i,j} w_i w_j k_i(x_j)\]

实验¶

数据集概览¶

数据集	领域	输入维度	编码器架构	异常信号
Synthetic	合成	D+M 维高斯	MLP	留出的高斯簇
LIGO	天文（引力波）	2×200 时序	1D ResNet	白噪声爆发波形
JetClass	粒子物理	O(100) 粒子	Particle Transformer	H→bb̄ 衰变
Histology	病理	256×256 图像	EfficientNet-B0	NAFLD 脂肪肝组织
CIFAR-10	图像	32×32×3	ResNet-50	留出的第 1 类

关键结果（Figure 3）¶

数据集	信号注入比例 fS	NPLM Z-score	对比：Mahalanobis
Synthetic (2k)	~0.6%	≥3σ	接近（高斯簇天然适配）
Particle Physics	~2-3%	≥3σ，接近有监督上界	显著更差
Astronomy (LIGO)	~1-2%	≥3σ，接近有监督上界	显著更差
Histology	~3-5%	≥3σ	显著更差
CIFAR-10	~5%	≥3σ	显著更差

重要发现¶

极低信号比例下的发现能力：所有数据集在信号注入 ≤5% 时均能达到 Z≥3σ，部分数据集在 ~1% 就达到发现水平。
接近有监督上界：在粒子物理和天文数据集上，NPLM（不知道信号长什么样）的灵敏度接近完全有监督检验的上界。
抗维度噪声：合成数据实验（Fig 3a）显示，随噪声维度增加，原始空间上的 Mahalanobis 灵敏度急剧下降，而嵌入空间保持稳定。
Mahalanobis 基线在非高斯分布下失效：它假设每类为高斯分布且对过密区域不敏感，在真实科学数据上远逊于 NPLM。
跨领域可迁移：从粒子物理发展的统计检验方法成功迁移到病理等完全不同的科学领域。

亮点¶

首个端到端科学发现管线：将对比学习降维 + 统计假设检验统一为自动化流程，输出的不是"异常分数"而是统计显著性（p-value/Z-score），满足科学发现的 5σ 标准。
信号无关：NPLM 不需要预先知道异常信号的具体形式，通过数据驱动的密度偏差建模实现无偏搜索。
嵌入维度极低（d=4）仍有效：证明对比学习能在极度压缩的空间中保留足够的语义区分度。
跨领域通用性：用一套管线覆盖了天文、粒子物理、病理、图像四个截然不同的科学领域，编码器架构各异但框架统一。
多尺度核策略：用 6 个核宽度 + p-value 均值规则，自动适配不同尺度的异常。

局限性¶

强依赖标签质量：SupCon 需要类标签来构造正样本对；标签噪声或标签缺失会直接损害嵌入质量。
d=4 的表达能力瓶颈：类数较多时，4 维空间难以完美分离所有类别（LIGO 和 CIFAR-10 的 "ideal supervised" 反而不如 "supervised" 就是这个原因）。
未处理域偏移（domain shift）：假设参考集 R 精确代表背景分布，但实际中模拟与真实数据之间常存在系统性差异，论文留作未来工作。
计算开销：500 次伪实验 × 每次训练 NPLM，计算量不小；多核宽度组合进一步增加成本。
背景组成比例需先验：假设 R 和 D 中各背景类的比例相同，实际中可能需要领域专家额外输入。

评分¶

新颖性: ⭐⭐⭐⭐ — 系统性地将对比学习与统计假设检验结合为端到端管线是新颖的贡献，但各组件（SupCon、NPLM）本身已有基础。
实验充分度: ⭐⭐⭐⭐ — 五个数据集、四个科学领域、三种基线对比，消融实验有核宽度和嵌入维度的分析；但缺少与 MMD/C2ST 等 ML 双样本检验的直接对比。
写作质量: ⭐⭐⭐⭐ — 科学方法与管线的类比清晰，公式推导完整；但论文较长，部分内容放在附录中。
价值: ⭐⭐⭐⭐ — 为多个科学领域提供了即插即用的新现象发现工具，具有实际应用潜力，但域偏移和标签依赖问题限制了直接部署。