Finetuning Stellar Spectra Foundation Models with LoRA¶
会议: ICML 2025
arXiv: 2507.20972
代码: 无
领域: AI4Science / 天体物理
关键词: LoRA, 基础模型, 恒星光谱, 跨巡天适配, 小样本学习
一句话总结¶
首次将 LoRA 应用于恒星光谱基础模型 SpecCLIP,实现以约 100-200 个标注样本将预训练在 LAMOST/Gaia XP 上的模型高效适配到 DESI 巡天数据,证明 LoRA 是跨光谱巡天迁移的轻量而有效策略。
研究背景与动机¶
领域现状:大规模光谱巡天(LAMOST、Gaia、DESI 等)推动了银河系研究的进步,恒星参数推断方法从传统模板匹配(UlySS、LSP3)发展到机器学习方法(The Cannon、The Payne、TransformerPayne),近期 SpecCLIP 等光谱基础模型开始涌现。
现有痛点:不同光谱巡天在波长覆盖、分辨率和信噪比上差异巨大,现有方法多依赖充分监督且绑定特定巡天,很难在异构光谱数据间实现一致的参数估计。基础模型虽有泛化潜力,但如何以最少监督将其适配到新巡天仍是开放问题。
核心矛盾:光谱基础模型预训练成本高,全量微调不现实、小样本场景标注稀缺,需要一种参数高效的适配方案在新巡天上快速部署。
本文目标 (1) LoRA 能否有效适配光谱基础模型到全新巡天?(2) 微调模型的不同模块(基础模型、投影头、下游 MLP)对性能的影响如何?(3) 预训练中嵌入的 Gaia XP 跨模态知识能否帮助 DESI 适配?
切入角度:光谱数据具有类似语言的结构化特性(局部特征对应物理信息),LoRA 在 NLP/CV 中已证明有效,作者首次将其引入天文光谱领域。SpecCLIP 的多模态对比预训练提供了丰富的跨巡天知识基准。
核心 idea:用 LoRA 以极少参数(不到模型总参数的 3%)和极少样本(约 100 个标注)将光谱基础模型高效迁移到新巡天。
方法详解¶
整体框架¶
输入为 DESI 光谱(归一化并插值到 LAMOST 波长网格 400-560nm),经过预训练的 SpecCLIP 基础模型提取嵌入(768 维),再通过投影网络映射到对比学习共享空间,最终由下游 MLP 预测铁丰度 [Fe/H]。LoRA 模块被选择性地插入到四个位置进行微调。
关键设计¶
-
SpecCLIP 预训练基础(冻结骨干):
- 功能:为 LAMOST LRS 和 Gaia XP 两种模态各建立基础模型,并通过对比学习对齐
- 核心思路:LAMOST LRS 基础模型是 6 层 Transformer encoder(42.7M 参数),对 1462 个 flux 点进行 token 化(窗口 20、步长 10 得到 146 个 token),用掩码建模预训练;Gaia XP 模型是 MLP 自编码器处理 343 维光谱。对比训练用 820K 配对光谱通过模态投影网络将嵌入对齐到共享空间
- 设计动机:对比预训练让模型学到跨巡天共享的物理表示,为后续迁移奠定基础
-
四模块 LoRA 微调策略:
- 功能:对模型的四个不同模块分别或联合插入 LoRA 进行微调
- 核心思路:LoRA 将权重更新分解为 \(\Delta W = AB\)(\(A \in \mathbb{R}^{m \times r}\), \(B \in \mathbb{R}^{r \times n}\), \(r \ll \min(m,n)\))。LoRA1 插入 LRS 基础模型所有自注意力层(rank=4, α=8, 129K 参数/0.30%);LoRA2 插入 LRS 下游 MLP(rank=8, α=16, 31.7K/2.30%);LoRA3 插入投影网络(rank=16, α=32, 147K/0.29%);LoRA4 插入投影后下游 MLP(同 LoRA2 配置)
- 设计动机:不同模块承载不同层次的知识——基础模型编码光谱特征,投影网络编码跨模态对齐,MLP 编码标签映射——逐一测试可揭示知识迁移的关键路径
-
跨巡天数据适配流程:
- 功能:将 DESI 光谱标准化后接入 SpecCLIP 流程
- 核心思路:DESI 光谱通过 SPARCL 检索,与 LAMOST LRS 相同管线归一化后插值到 400-560nm 波长网格。与 APOGEE DR17 交叉匹配获得 495 颗星的高精度 [Fe/H] 标签,其中 89 用于训练、9 用于验证、396 用于测试。LoRA1/3 微调另用 164 颗无标签 DESI 样本(SNR>50)
- 设计动机:刻意使用不同子集进行基础模型微调和下游微调,增加适配难度以测试泛化能力
损失函数 / 训练策略¶
下游 MLP 用 [Fe/H] 回归损失训练。评估使用稳健标准差(Tukey Biweight Scale Estimator)和 \(R^2\) 指标。每个实验在单张 NVIDIA V100 上 10-180 秒内完成。
实验关键数据¶
主实验¶
| 方法 | 全测试集 σ↓ | 全测试集 R²↑ | 富金属星 σ↓ | 富金属星 R²↑ |
|---|---|---|---|---|
| Zero-shot (MLP1) | 0.2730 | 0.7358 | 0.2479 | 0.0702 |
| LoRA2 | 0.2663 | 0.7156 | 0.2272 | 0.2378 |
| LoRA1+LoRA2 | 0.2227 | 0.7719 | 0.1924 | 0.4173 |
| Zero-shot (MLP2) | 0.2560 | 0.7203 | 0.2371 | 0.0725 |
| LoRA4 | 0.2023 | 0.7937 | 0.1621 | 0.5106 |
| LoRA1+LoRA3+LoRA4 | 0.2297 | 0.7801 | 0.1851 | 0.4274 |
消融实验¶
| 配置 | 贫金属星 σ↓ | 贫金属星 R²↑ | 说明 |
|---|---|---|---|
| Zero-shot (MLP1) | 0.4444 | -0.5130 | 零样本在贫金属端反而最好 |
| LoRA2 | 0.5872 | -1.2881 | 仅微调 MLP 在稀疏区域过拟合 |
| LoRA1+LoRA2 | 0.5151 | -0.9143 | 联合微调缓解但不解决 |
| LoRA4 | 0.5803 | -0.8357 | 即使最优配置在贫金属端也退化 |
| LoRA1+LoRA3+LoRA4 | 0.5970 | -0.8159 | 全模块微调同样在此区域失效 |
关键发现¶
- LoRA4(仅微调 Gaia XP 对齐路径的下游 MLP)表现最优,说明 SpecCLIP 预训练中引入的 Gaia XP 跨模态知识为 DESI 适配提供了最关键信息,即使 DESI 和 Gaia XP 的分辨率与波段差异很大
- 联合微调基础模型(LoRA1)能带来额外增益,但并非总是最优——对贫金属星反而有害,暗示小样本微调在标签稀疏区域容易过拟合
- 所有方法在贫金属星([Fe/H] < -1,仅 60 颗测试星)上表现很差,\(R^2\) 均为负值
亮点与洞察¶
- 首次将 LoRA 引入恒星光谱学,证明了 NLP/CV 中的参数高效微调技术在天文领域的可迁移性,为光谱基础模型的跨巡天部署提供了标准范式
- Gaia XP 知识的间接迁移特别有趣——LoRA4 的成功说明对比预训练嵌入的跨模态信息(Gaia XP → 共享空间)能通过投影路径间接帮助 DESI,尽管 DESI 本身并未参与预训练
- 极少标注(89 个训练样本)就能实现有意义的性能提升,展示了基础模型 + LoRA 在数据稀缺科学领域的巨大潜力
局限与展望¶
- 贫金属星预测严重退化,需要更好的正则化策略或针对性数据增强
- 训练集仅 89 个标注样本,存在明显的数据稀缺瓶颈,更大的交叉匹配目录可能带来实质性提升
- 仅预测 [Fe/H] 单一参数,未验证对其他恒星参数(有效温度 \(T_{\text{eff}}\)、表面重力 \(\log g\)、\([\alpha/\text{Fe}]\))的效果
- 波长范围限制在 400-560nm(LAMOST 网格),未利用 DESI 的完整波长覆盖(360-980nm),可能丢失重要光谱信息
相关工作与启发¶
- vs The Cannon/The Payne: 传统方法需要大量标注且绑定特定巡天,LoRA+基础模型方案的标注效率高出数个量级
- vs 全量微调: LoRA 仅更新不到 3% 参数且训练秒级完成,全量微调在如此少样本下会严重过拟合
- vs AstroCLIP: AstroCLIP 首次将 CLIP 引入天文,SpecCLIP 将其专门化到光谱领域并加入了模态特有信息的保留机制
评分¶
- 新颖性: ⭐⭐⭐ LoRA 本身并非新技术,但首次应用于天文光谱有开创意义
- 实验充分度: ⭐⭐⭐ 系统性对比了不同 LoRA 配置,但仅一个下游任务和一个目标巡天
- 写作质量: ⭐⭐⭐⭐ 方法图清晰,实验设计合理
- 价值: ⭐⭐⭐⭐ 为光谱基础模型的跨巡天部署建立了参数高效微调的标准流程
相关论文¶
- [NeurIPS 2025] The Platonic Universe: Do Foundation Models See the Same Sky?
- [NeurIPS 2025] Neural Deprojection of Galaxy Stellar Mass Profiles
- [ICML 2025] Gravity-Bench-v1: A Benchmark on Gravitational Physics Discovery for Agents
- [ICML 2025] Teaching LLMs to Speak Spectroscopy
- [NeurIPS 2025] Transfer Learning Beyond the Standard Model