From Simulations to Surveys: Domain Adaptation for Galaxy Observations¶
会议: NeurIPS 2025
arXiv: 2511.18590
代码: GitHub
领域: 天体物理 / 域适应
关键词: domain adaptation, galaxy morphology, optimal transport, simulation-to-survey, GeomLoss
一句话总结¶
构建从模拟星系(TNG50)到真实巡天观测(SDSS)的域适应 pipeline,通过特征级对齐(欧几里得距离 + 最优传输 + top-\(k\) 软匹配损失)和可训练权重调度,将星系形态分类的目标域准确率从 46.8%(无适应)提升到 87.3%,Macro F1 从 0.298 提升到 0.626。
研究背景与动机¶
- 领域现状:大型巡天项目(Rubin、Roman、Euclid)将拍摄数十亿星系图像,需要自动推断形态、恒星质量、恒星形成率等物理属性。模拟数据(如 Illustris TNG50)提供带真实物理标签的星系图像。
- 现有痛点:模拟与真实观测之间存在显著域偏移——PSF 不同、噪声模式不同、背景不同、选择函数不同、类别先验不同。直接迁移模型会严重偏差物理推断(如扭曲星系类型混合比、质量-SFR 关系等)
- 核心矛盾:真实巡天数据缺乏可靠的物理标签(Galaxy Zoo 等公民科学提供形态标签但成本高且有限),而模拟数据有真实标签但分布不同
- 核心 idea:在特征空间用多种距离度量进行域对齐——结合 Sinkhorn OT、能量距离、Gaussian MMD 等,并引入 top-\(k\) 软匹配损失关注最难对齐的样本
方法详解¶
整体框架¶
源域(TNG50 模拟星系 + 形态标签)→ 特征提取器(CNN/E(2)-Steerable CNN/ResNet-18)→ 特征嵌入 \(z_s, z_t\) → 分类头(Focal Loss + 类别权重)+ 域对齐损失(\(\mathcal{L}_D + \mathcal{L}_{OT}\))→ 在目标域(SDSS 真实星系)上评估。
关键设计¶
- 监督损失与类别不平衡处理
- 做什么:处理三类形态(椭圆/旋涡/不规则)的严重不平衡
- 核心思路:Focal Loss(\(\gamma=2\))+ Effective Number 类别权重 + 可学习的类别缩放(应用于 logits,基于数据驱动初始化)
-
设计动机:不规则星系极为稀缺,标准交叉熵无法有效学习
-
域对齐损失 \(\mathcal{L}_D\)
- 做什么:在 L2 归一化的特征空间上最小化源-目标域分布差异
- 核心思路:基于 GeomLoss 库实现多种距离度量——(i) Sinkhorn 散度(entropic OT),(ii) 能量距离,(iii) Gaussian MMD。还扩展实现了 46 种不同距离/相似性度量(8 个族:\(L_p\) Minkowski、\(L_1\)、Intersection、Inner Product 等),并在 12 种代表性度量上对比
-
设计动机:嵌入空间的拓扑结构根本性地约束跨域对齐效果,度量选择至关重要
-
OT + top-\(k\) 软匹配损失 \(\mathcal{L}_{OT}\)
- 做什么:在全局 OT 对齐基础上,额外惩罚最难对齐的 \(k\) 个样本对
- 公式:\(\mathcal{L}_{OT} = \lambda_{OT} d_\lambda(p_s, p_t) + \lambda_{match} \text{MSE}(z_s, P^\lambda z_t) + \lambda_{topk} \frac{1}{k}\sum_{\ell=1}^k d_{(\ell)}\)
- 三部分分别是:全局 OT 距离、源-目标的软重心匹配、最大 \(k\) 个最近邻距离的惩罚
-
设计动机:全局 OT 可能忽略少数困难样本,top-\(k\) 损失专注于最难对齐的实例
-
权重调度策略
- 实验了多种策略:固定权重、线性调度、可训练权重 \((\eta_1, \eta_2)\)
- 最优:可训练权重 + 20 epoch warmup(先只训分类器,再逐步加入域对齐)
训练策略¶
- 三种 backbone 对比:CNN、E(2)-Steerable CNN、ResNet-18(ImageNet 预训练,冻结低层微调高层)
- 训练 200 epochs,batch size 128,AdamW
- 源数据 3232 星系 → 增广到 25856;目标数据 6416 SDSS 星系
实验关键数据¶
主实验¶
| 方法 | 目标域准确率 | Macro F1 | Domain AUC |
|---|---|---|---|
| Baseline(无适应) | 46.8% | 0.298 | 1.00(完全分离) |
| DANN(对抗) | 86.5% | — | ~0.5 |
| Euclidean(固定权重) | ~85% | — | ~0.51 |
| Euclidean(可训练权重) | 87.3% | 0.626 | ~0.51 |
Domain AUC ≈ 0.5 表示源-目标特征在潜在空间中不可区分(理想对齐)。
关键发现¶
- 域适应效果巨大:准确率从 46.8% → 87.3%(+40.5 个百分点),确认模拟-观测域偏移是严重问题
- 欧几里得距离作为对齐度量表现最佳(在 12 种度量中)
- 可训练权重调度优于固定权重和线性调度——让网络自己学习域对齐的节奏
- 20 epoch warmup 至关重要——先建立好的分类特征,再做域对齐
- top-\(k\) + ResNet 的组合有效驱动类别级跨域对齐
- 不规则星系(稀有类)仍然是最大挑战,Macro F1 显著低于准确率
亮点与洞察¶
- 实用管线:直接面向即将到来的 Rubin/Roman 巡天的需求,从模拟训练、真实评估到未来多任务扩展路径清晰
- 度量工程:系统对比 46 种距离度量是独特贡献,扩展的 GeomLoss 库对域适应社区有价值
- 物理意义:域对齐的目标不仅是提高分类精度,更重要的是保证物理推断的校准性——这区别于一般的域适应工作
局限性 / 可改进方向¶
- 仅三类形态分类(椭圆/旋涡/不规则),尚未扩展到连续物理量(恒星质量、SFR)
- 不规则星系类别表现仍差,Macro F1 仅 0.626
- 论文标注为 "preliminary pipeline",尚未在大规模多红移数据上验证
- 假设条件标签分布稳定 \(p_S(y|x) \approx p_T(y|x)\),但模拟和观测的标签定义可能存在系统差异
相关工作与启发¶
- vs DeepAstroUDA (Ciprijanović 2023):前人工作开创了天文域适应,本文在度量选择和 top-\(k\) 损失上推进
- vs DANN:经典对抗域适应方法作为基线,本文的基于距离的方法表现相当且更稳定
评分¶
- 新颖性: ⭐⭐⭐ 域适应方法本身不新,但 top-\(k\) OT 匹配和 46 种度量的系统对比有价值
- 实验充分度: ⭐⭐⭐ 初步 pipeline,三种 backbone 和多种对齐策略对比充分,但仅三类分类
- 写作质量: ⭐⭐⭐ 方法描述清晰,但作为 NeurIPS 论文偏短
- 价值: ⭐⭐⭐⭐ 对天文 AI 社区的实际需求有直接价值,面向下一代巡天