Finetuning Stellar Spectra Foundation Models with LoRA¶

会议: ICML 2025
arXiv: 2507.20972
代码: 无
领域: AI4Science / 天体物理
关键词: LoRA, 基础模型, 恒星光谱, 跨巡天适配, 小样本学习

一句话总结¶

首次将 LoRA 应用于恒星光谱基础模型 SpecCLIP，实现以约 100-200 个标注样本将预训练在 LAMOST/Gaia XP 上的模型高效适配到 DESI 巡天数据，证明 LoRA 是跨光谱巡天迁移的轻量而有效策略。

研究背景与动机¶

领域现状：大规模光谱巡天（LAMOST、Gaia、DESI 等）推动了银河系研究的进步，恒星参数推断方法从传统模板匹配（UlySS、LSP3）发展到机器学习方法（The Cannon、The Payne、TransformerPayne），近期 SpecCLIP 等光谱基础模型开始涌现。

现有痛点：不同光谱巡天在波长覆盖、分辨率和信噪比上差异巨大，现有方法多依赖充分监督且绑定特定巡天，很难在异构光谱数据间实现一致的参数估计。基础模型虽有泛化潜力，但如何以最少监督将其适配到新巡天仍是开放问题。

核心矛盾：光谱基础模型预训练成本高，全量微调不现实、小样本场景标注稀缺，需要一种参数高效的适配方案在新巡天上快速部署。

本文目标 (1) LoRA 能否有效适配光谱基础模型到全新巡天？(2) 微调模型的不同模块（基础模型、投影头、下游 MLP）对性能的影响如何？(3) 预训练中嵌入的 Gaia XP 跨模态知识能否帮助 DESI 适配？

切入角度：光谱数据具有类似语言的结构化特性（局部特征对应物理信息），LoRA 在 NLP/CV 中已证明有效，作者首次将其引入天文光谱领域。SpecCLIP 的多模态对比预训练提供了丰富的跨巡天知识基准。

核心 idea：用 LoRA 以极少参数（不到模型总参数的 3%）和极少样本（约 100 个标注）将光谱基础模型高效迁移到新巡天。

方法详解¶

整体框架¶

输入为 DESI 光谱（归一化并插值到 LAMOST 波长网格 400-560nm），经过预训练的 SpecCLIP 基础模型提取嵌入（768 维），再通过投影网络映射到对比学习共享空间，最终由下游 MLP 预测铁丰度 [Fe/H]。LoRA 模块被选择性地插入到四个位置进行微调。

关键设计¶

SpecCLIP 预训练基础（冻结骨干）:
- 功能：为 LAMOST LRS 和 Gaia XP 两种模态各建立基础模型，并通过对比学习对齐
- 核心思路：LAMOST LRS 基础模型是 6 层 Transformer encoder（42.7M 参数），对 1462 个 flux 点进行 token 化（窗口 20、步长 10 得到 146 个 token），用掩码建模预训练；Gaia XP 模型是 MLP 自编码器处理 343 维光谱。对比训练用 820K 配对光谱通过模态投影网络将嵌入对齐到共享空间
- 设计动机：对比预训练让模型学到跨巡天共享的物理表示，为后续迁移奠定基础
四模块 LoRA 微调策略:
- 功能：对模型的四个不同模块分别或联合插入 LoRA 进行微调
- 核心思路：LoRA 将权重更新分解为 \(\Delta W = AB\)（\(A \in \mathbb{R}^{m \times r}\), \(B \in \mathbb{R}^{r \times n}\), \(r \ll \min(m,n)\)）。LoRA1 插入 LRS 基础模型所有自注意力层（rank=4, α=8, 129K 参数/0.30%）；LoRA2 插入 LRS 下游 MLP（rank=8, α=16, 31.7K/2.30%）；LoRA3 插入投影网络（rank=16, α=32, 147K/0.29%）；LoRA4 插入投影后下游 MLP（同 LoRA2 配置）
- 设计动机：不同模块承载不同层次的知识——基础模型编码光谱特征，投影网络编码跨模态对齐，MLP 编码标签映射——逐一测试可揭示知识迁移的关键路径
跨巡天数据适配流程:
- 功能：将 DESI 光谱标准化后接入 SpecCLIP 流程
- 核心思路：DESI 光谱通过 SPARCL 检索，与 LAMOST LRS 相同管线归一化后插值到 400-560nm 波长网格。与 APOGEE DR17 交叉匹配获得 495 颗星的高精度 [Fe/H] 标签，其中 89 用于训练、9 用于验证、396 用于测试。LoRA1/3 微调另用 164 颗无标签 DESI 样本（SNR>50）
- 设计动机：刻意使用不同子集进行基础模型微调和下游微调，增加适配难度以测试泛化能力

损失函数 / 训练策略¶

下游 MLP 用 [Fe/H] 回归损失训练。评估使用稳健标准差（Tukey Biweight Scale Estimator）和 \(R^2\) 指标。每个实验在单张 NVIDIA V100 上 10-180 秒内完成。

实验关键数据¶

主实验¶

方法	全测试集 σ↓	全测试集 R²↑	富金属星 σ↓	富金属星 R²↑
Zero-shot (MLP1)	0.2730	0.7358	0.2479	0.0702
LoRA2	0.2663	0.7156	0.2272	0.2378
LoRA1+LoRA2	0.2227	0.7719	0.1924	0.4173
Zero-shot (MLP2)	0.2560	0.7203	0.2371	0.0725
LoRA4	0.2023	0.7937	0.1621	0.5106
LoRA1+LoRA3+LoRA4	0.2297	0.7801	0.1851	0.4274

消融实验¶

配置	贫金属星 σ↓	贫金属星 R²↑	说明
Zero-shot (MLP1)	0.4444	-0.5130	零样本在贫金属端反而最好
LoRA2	0.5872	-1.2881	仅微调 MLP 在稀疏区域过拟合
LoRA1+LoRA2	0.5151	-0.9143	联合微调缓解但不解决
LoRA4	0.5803	-0.8357	即使最优配置在贫金属端也退化
LoRA1+LoRA3+LoRA4	0.5970	-0.8159	全模块微调同样在此区域失效

关键发现¶

LoRA4（仅微调 Gaia XP 对齐路径的下游 MLP）表现最优，说明 SpecCLIP 预训练中引入的 Gaia XP 跨模态知识为 DESI 适配提供了最关键信息，即使 DESI 和 Gaia XP 的分辨率与波段差异很大
联合微调基础模型（LoRA1）能带来额外增益，但并非总是最优——对贫金属星反而有害，暗示小样本微调在标签稀疏区域容易过拟合
所有方法在贫金属星（[Fe/H] < -1，仅 60 颗测试星）上表现很差，\(R^2\) 均为负值

亮点与洞察¶

首次将 LoRA 引入恒星光谱学，证明了 NLP/CV 中的参数高效微调技术在天文领域的可迁移性，为光谱基础模型的跨巡天部署提供了标准范式
Gaia XP 知识的间接迁移特别有趣——LoRA4 的成功说明对比预训练嵌入的跨模态信息（Gaia XP → 共享空间）能通过投影路径间接帮助 DESI，尽管 DESI 本身并未参与预训练
极少标注（89 个训练样本）就能实现有意义的性能提升，展示了基础模型 + LoRA 在数据稀缺科学领域的巨大潜力

局限与展望¶

贫金属星预测严重退化，需要更好的正则化策略或针对性数据增强
训练集仅 89 个标注样本，存在明显的数据稀缺瓶颈，更大的交叉匹配目录可能带来实质性提升
仅预测 [Fe/H] 单一参数，未验证对其他恒星参数（有效温度 \(T_{\text{eff}}\)、表面重力 \(\log g\)、\([\alpha/\text{Fe}]\)）的效果
波长范围限制在 400-560nm（LAMOST 网格），未利用 DESI 的完整波长覆盖（360-980nm），可能丢失重要光谱信息

评分¶

新颖性: ⭐⭐⭐ LoRA 本身并非新技术，但首次应用于天文光谱有开创意义
实验充分度: ⭐⭐⭐ 系统性对比了不同 LoRA 配置，但仅一个下游任务和一个目标巡天
写作质量: ⭐⭐⭐⭐ 方法图清晰，实验设计合理
价值: ⭐⭐⭐⭐ 为光谱基础模型的跨巡天部署建立了参数高效微调的标准流程