跳转至

Transfer Learning Beyond the Standard Model

会议: NeurIPS 2025 arXiv: 2510.19168 代码: 无(使用Quijote模拟数据集,公开) 领域: Physics / Cosmology / Transfer Learning 关键词: 迁移学习, 宇宙学推断, ΛCDM, 负迁移, 基础模型

一句话总结

研究从标准宇宙学模型(ΛCDM)预训练的神经网络能否迁移到超越标准模型的场景(大质量中微子、修改引力、原初非高斯性),发现dummy node架构可将模拟需求降低一个数量级,但当参数存在强物理简并(如σ₈-Mν)时会出现负迁移。

研究背景与动机

  1. 领域现状:基于模拟的推断(SBI)在ΛCDM宇宙学参数推断中已成功应用。Stage-IV巡天(如DESI)的核心目标是检测超越标准模型的新物理——大质量中微子、修改引力、原初非高斯性。
  2. 现有痛点:超越ΛCDM的模拟计算成本远高于ΛCDM模拟,且需要覆盖更大参数空间——这是推断的主要瓶颈。
  3. 核心矛盾:需要大量昂贵的beyond-ΛCDM模拟来训练推断模型,但预算有限。
  4. 本文要解决什么? 验证ΛCDM预训练→beyond-ΛCDM微调的迁移学习能否减少beyond-ΛCDM模拟需求。
  5. 切入角度:类比基础模型范式——ΛCDM作为"foundation model",beyond-ΛCDM作为"downstream task"。
  6. 核心idea一句话:在预训练网络输出层加入dummy节点(无监督的额外潜维度),为微调阶段学习新物理参数提供表征容量,同时揭示物理简并导致的负迁移现象。

方法详解

整体框架

Quijote ΛCDM模拟(32,768个)预训练 → 冻结/微调权重 → 用少量beyond-ΛCDM模拟(50-2000个)微调 → 评估参数推断MSE。

关键设计

  1. Dummy Node架构
  2. 做什么:在预训练阶段的输出层添加额外的"dummy"节点
  3. 核心思路:预训练时输出ΛCDM 5参数 + N个dummy节点,MSE仅计算ΛCDM参数;微调时dummy节点用于输出新物理参数(如Mν、fR0)
  4. 设计动机:dummy节点在预训练阶段发展了额外的表征容量,微调时可被重新利用学习新物理信号,类似foundation model的modular head设计

  5. 三种迁移架构对比

  6. Dummy node:最优,提供额外表征容量
  7. No-dummy(纯权重初始化):次优,新参数从随机初始化开始
  8. Attach head(冻结预训练+附加推断头):最差,预训练表征过于刚性

  9. 三种beyond-ΛCDM场景

  10. 大质量中微子 \(M_\nu \in [0.01, 1.0]\) eV:与σ₈强简并
  11. 修改引力 f(R):\(f_{R0} \in [-3\times10^{-4}, 0]\)
  12. 原初非高斯性:equilateral \(f_{NL} \in [-600, 600]\), local \(f_{NL} \in [-300, 300]\)

损失函数 / 训练策略

  • MSE loss, AdamW优化器 (β₁=0.5, β₂=0.999)
  • 预训练lr: [10⁻⁵, 10⁻¹], 微调lr: [10⁻⁶, 10⁻³](更保守)
  • Optuna超参搜索(100 trials)
  • 输入:79-bin物质功率谱 P(k), k∈[0.0089, 0.5] h/Mpc

实验关键数据

主实验 — 模拟节省效率

beyond-ΛCDM场景 迁移学习效果 模拟节省
大质量中微子 (P(k)) 总MSE显著改善 ~10×
大质量中微子 (MP(k)) σ₈和Mν负迁移 不确定
修改引力 f(R) 显著改善 ~10×
Equilateral fNL 持续改善 显著
Local fNL 无改善(先验不匹配) 0

消融实验 — 架构对比

架构 总MSE表现 负迁移程度
Dummy node 最优 轻微(仅σ₈-Mν简并时)
No-dummy 次优 中等
Attach head 最差 严重(总MSE也负迁移)

关键发现

  • Dummy node一致最优:在所有场景的总MSE上优于no-transfer baseline
  • 负迁移由物理简并驱动:σ₈和Mν在marked power spectrum上的信号高度重叠,预训练学到的σ₈映射必须被"unlearn"才能学习Mν
  • SHAP分析揭示机制:预训练时小尺度功率谱信息用于推断σ₈,微调后同一信息被重新分配给Mν,σ₈的SHAP值符号反转
  • 2000个预训练模拟即可受益:不需要全部32K模拟,少量预训练即可提供迁移优势

亮点与洞察

  • 基础模型范式在物理中的双刃剑:预训练可以加速推断但也可能偏置表征——"pre-training on large standard-model datasets can dramatically reduce costs, but may also bias representations in ways that hinder the discovery of new physics"
  • 负迁移作为物理信号:负迁移的出现本身反映了参数空间中的物理简并结构,可以作为诊断工具
  • Dummy node的巧妙设计:概念简单但效果显著,为所有迁移学习任务提供了可借鉴的架构模式

局限性 / 可改进方向

  • 仅使用简单全连接网络,更复杂架构(如normalizing flows)未测试
  • 仅用物质功率谱,真实观测量(galaxy clustering、weak lensing)未验证
  • Local fNL的失败归因于先验不匹配而非方法本身
  • 未考虑系统误差和观测噪声

相关工作与启发

  • vs Multi-fidelity SBI (Thiele2025, Saoulis2025):他们在同一物理的不同保真度间迁移,本文在不同物理间迁移——更有挑战性
  • vs Foundation models (BERT, CLIP):dummy node类似modular head设计,本文证明这一范式在物理推断中也有效
  • 启发:任何使用基础模型做科学推断的场景都应警惕负迁移——尤其当新参数与旧参数存在简并时

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统研究宇宙学标准模型→非标准模型的迁移,负迁移发现有价值
  • 实验充分度: ⭐⭐⭐⭐ 4种beyond-ΛCDM场景+3种架构+SHAP分析
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,物理直觉和ML方法叙述平衡
  • 价值: ⭐⭐⭐⭐⭐ 对基础模型在物理推断中的应用有普遍警示意义