Transfer Learning Beyond the Standard Model¶
会议: NeurIPS 2025 arXiv: 2510.19168 代码: 无(使用Quijote模拟数据集,公开) 领域: Physics / Cosmology / Transfer Learning 关键词: 迁移学习, 宇宙学推断, ΛCDM, 负迁移, 基础模型
一句话总结¶
研究从标准宇宙学模型(ΛCDM)预训练的神经网络能否迁移到超越标准模型的场景(大质量中微子、修改引力、原初非高斯性),发现dummy node架构可将模拟需求降低一个数量级,但当参数存在强物理简并(如σ₈-Mν)时会出现负迁移。
研究背景与动机¶
- 领域现状:基于模拟的推断(SBI)在ΛCDM宇宙学参数推断中已成功应用。Stage-IV巡天(如DESI)的核心目标是检测超越标准模型的新物理——大质量中微子、修改引力、原初非高斯性。
- 现有痛点:超越ΛCDM的模拟计算成本远高于ΛCDM模拟,且需要覆盖更大参数空间——这是推断的主要瓶颈。
- 核心矛盾:需要大量昂贵的beyond-ΛCDM模拟来训练推断模型,但预算有限。
- 本文要解决什么? 验证ΛCDM预训练→beyond-ΛCDM微调的迁移学习能否减少beyond-ΛCDM模拟需求。
- 切入角度:类比基础模型范式——ΛCDM作为"foundation model",beyond-ΛCDM作为"downstream task"。
- 核心idea一句话:在预训练网络输出层加入dummy节点(无监督的额外潜维度),为微调阶段学习新物理参数提供表征容量,同时揭示物理简并导致的负迁移现象。
方法详解¶
整体框架¶
Quijote ΛCDM模拟(32,768个)预训练 → 冻结/微调权重 → 用少量beyond-ΛCDM模拟(50-2000个)微调 → 评估参数推断MSE。
关键设计¶
- Dummy Node架构:
- 做什么:在预训练阶段的输出层添加额外的"dummy"节点
- 核心思路:预训练时输出ΛCDM 5参数 + N个dummy节点,MSE仅计算ΛCDM参数;微调时dummy节点用于输出新物理参数(如Mν、fR0)
-
设计动机:dummy节点在预训练阶段发展了额外的表征容量,微调时可被重新利用学习新物理信号,类似foundation model的modular head设计
-
三种迁移架构对比:
- Dummy node:最优,提供额外表征容量
- No-dummy(纯权重初始化):次优,新参数从随机初始化开始
-
Attach head(冻结预训练+附加推断头):最差,预训练表征过于刚性
-
三种beyond-ΛCDM场景:
- 大质量中微子 \(M_\nu \in [0.01, 1.0]\) eV:与σ₈强简并
- 修改引力 f(R):\(f_{R0} \in [-3\times10^{-4}, 0]\)
- 原初非高斯性:equilateral \(f_{NL} \in [-600, 600]\), local \(f_{NL} \in [-300, 300]\)
损失函数 / 训练策略¶
- MSE loss, AdamW优化器 (β₁=0.5, β₂=0.999)
- 预训练lr: [10⁻⁵, 10⁻¹], 微调lr: [10⁻⁶, 10⁻³](更保守)
- Optuna超参搜索(100 trials)
- 输入:79-bin物质功率谱 P(k), k∈[0.0089, 0.5] h/Mpc
实验关键数据¶
主实验 — 模拟节省效率¶
| beyond-ΛCDM场景 | 迁移学习效果 | 模拟节省 |
|---|---|---|
| 大质量中微子 (P(k)) | 总MSE显著改善 | ~10× |
| 大质量中微子 (MP(k)) | σ₈和Mν负迁移 | 不确定 |
| 修改引力 f(R) | 显著改善 | ~10× |
| Equilateral fNL | 持续改善 | 显著 |
| Local fNL | 无改善(先验不匹配) | 0 |
消融实验 — 架构对比¶
| 架构 | 总MSE表现 | 负迁移程度 |
|---|---|---|
| Dummy node | 最优 | 轻微(仅σ₈-Mν简并时) |
| No-dummy | 次优 | 中等 |
| Attach head | 最差 | 严重(总MSE也负迁移) |
关键发现¶
- Dummy node一致最优:在所有场景的总MSE上优于no-transfer baseline
- 负迁移由物理简并驱动:σ₈和Mν在marked power spectrum上的信号高度重叠,预训练学到的σ₈映射必须被"unlearn"才能学习Mν
- SHAP分析揭示机制:预训练时小尺度功率谱信息用于推断σ₈,微调后同一信息被重新分配给Mν,σ₈的SHAP值符号反转
- 2000个预训练模拟即可受益:不需要全部32K模拟,少量预训练即可提供迁移优势
亮点与洞察¶
- 基础模型范式在物理中的双刃剑:预训练可以加速推断但也可能偏置表征——"pre-training on large standard-model datasets can dramatically reduce costs, but may also bias representations in ways that hinder the discovery of new physics"
- 负迁移作为物理信号:负迁移的出现本身反映了参数空间中的物理简并结构,可以作为诊断工具
- Dummy node的巧妙设计:概念简单但效果显著,为所有迁移学习任务提供了可借鉴的架构模式
局限性 / 可改进方向¶
- 仅使用简单全连接网络,更复杂架构(如normalizing flows)未测试
- 仅用物质功率谱,真实观测量(galaxy clustering、weak lensing)未验证
- Local fNL的失败归因于先验不匹配而非方法本身
- 未考虑系统误差和观测噪声
相关工作与启发¶
- vs Multi-fidelity SBI (Thiele2025, Saoulis2025):他们在同一物理的不同保真度间迁移,本文在不同物理间迁移——更有挑战性
- vs Foundation models (BERT, CLIP):dummy node类似modular head设计,本文证明这一范式在物理推断中也有效
- 启发:任何使用基础模型做科学推断的场景都应警惕负迁移——尤其当新参数与旧参数存在简并时
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统研究宇宙学标准模型→非标准模型的迁移,负迁移发现有价值
- 实验充分度: ⭐⭐⭐⭐ 4种beyond-ΛCDM场景+3种架构+SHAP分析
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,物理直觉和ML方法叙述平衡
- 价值: ⭐⭐⭐⭐⭐ 对基础模型在物理推断中的应用有普遍警示意义