From Simulations to Surveys: Domain Adaptation for Galaxy Observations¶

会议: NeurIPS 2025
arXiv: 2511.18590
代码: GitHub
领域: 天体物理 / 域适应
关键词: domain adaptation, galaxy morphology, optimal transport, simulation-to-survey, GeomLoss

一句话总结¶

构建从模拟星系（TNG50）到真实巡天观测（SDSS）的域适应 pipeline，通过特征级对齐（欧几里得距离 + 最优传输 + top-\(k\) 软匹配损失）和可训练权重调度，将星系形态分类的目标域准确率从 46.8%（无适应）提升到 87.3%，Macro F1 从 0.298 提升到 0.626。

研究背景与动机¶

领域现状：大型巡天项目（Rubin、Roman、Euclid）将拍摄数十亿星系图像，需要自动推断形态、恒星质量、恒星形成率等物理属性。模拟数据（如 Illustris TNG50）提供带真实物理标签的星系图像。
现有痛点：模拟与真实观测之间存在显著域偏移——PSF 不同、噪声模式不同、背景不同、选择函数不同、类别先验不同。直接迁移模型会严重偏差物理推断（如扭曲星系类型混合比、质量-SFR 关系等）
核心矛盾：真实巡天数据缺乏可靠的物理标签（Galaxy Zoo 等公民科学提供形态标签但成本高且有限），而模拟数据有真实标签但分布不同
核心 idea：在特征空间用多种距离度量进行域对齐——结合 Sinkhorn OT、能量距离、Gaussian MMD 等，并引入 top-\(k\) 软匹配损失关注最难对齐的样本

方法详解¶

整体框架¶

源域（TNG50 模拟星系 + 形态标签）→ 特征提取器（CNN/E(2)-Steerable CNN/ResNet-18）→ 特征嵌入 \(z_s, z_t\) → 分类头（Focal Loss + 类别权重）+ 域对齐损失（\(\mathcal{L}_D + \mathcal{L}_{OT}\)）→ 在目标域（SDSS 真实星系）上评估。

关键设计¶

监督损失与类别不平衡处理
做什么：处理三类形态（椭圆/旋涡/不规则）的严重不平衡
核心思路：Focal Loss（\(\gamma=2\)）+ Effective Number 类别权重 + 可学习的类别缩放（应用于 logits，基于数据驱动初始化）
设计动机：不规则星系极为稀缺，标准交叉熵无法有效学习
域对齐损失 \(\mathcal{L}_D\)
做什么：在 L2 归一化的特征空间上最小化源-目标域分布差异
核心思路：基于 GeomLoss 库实现多种距离度量——(i) Sinkhorn 散度（entropic OT），(ii) 能量距离，(iii) Gaussian MMD。还扩展实现了 46 种不同距离/相似性度量（8 个族：\(L_p\) Minkowski、\(L_1\)、Intersection、Inner Product 等），并在 12 种代表性度量上对比
设计动机：嵌入空间的拓扑结构根本性地约束跨域对齐效果，度量选择至关重要
OT + top-\(k\) 软匹配损失 \(\mathcal{L}_{OT}\)
做什么：在全局 OT 对齐基础上，额外惩罚最难对齐的 \(k\) 个样本对
公式：\(\mathcal{L}_{OT} = \lambda_{OT} d_\lambda(p_s, p_t) + \lambda_{match} \text{MSE}(z_s, P^\lambda z_t) + \lambda_{topk} \frac{1}{k}\sum_{\ell=1}^k d_{(\ell)}\)
三部分分别是：全局 OT 距离、源-目标的软重心匹配、最大 \(k\) 个最近邻距离的惩罚
设计动机：全局 OT 可能忽略少数困难样本，top-\(k\) 损失专注于最难对齐的实例
权重调度策略
实验了多种策略：固定权重、线性调度、可训练权重 \((\eta_1, \eta_2)\)
最优：可训练权重 + 20 epoch warmup（先只训分类器，再逐步加入域对齐）

训练策略¶

三种 backbone 对比：CNN、E(2)-Steerable CNN、ResNet-18（ImageNet 预训练，冻结低层微调高层）
训练 200 epochs，batch size 128，AdamW
源数据 3232 星系 → 增广到 25856；目标数据 6416 SDSS 星系

实验关键数据¶

主实验¶

方法	目标域准确率	Macro F1	Domain AUC
Baseline（无适应）	46.8%	0.298	1.00（完全分离）
DANN（对抗）	86.5%	—	~0.5
Euclidean（固定权重）	~85%	—	~0.51
Euclidean（可训练权重）	87.3%	0.626	~0.51

Domain AUC ≈ 0.5 表示源-目标特征在潜在空间中不可区分（理想对齐）。

关键发现¶

域适应效果巨大：准确率从 46.8% → 87.3%（+40.5 个百分点），确认模拟-观测域偏移是严重问题
欧几里得距离作为对齐度量表现最佳（在 12 种度量中）
可训练权重调度优于固定权重和线性调度——让网络自己学习域对齐的节奏
20 epoch warmup 至关重要——先建立好的分类特征，再做域对齐
top-\(k\) + ResNet 的组合有效驱动类别级跨域对齐
不规则星系（稀有类）仍然是最大挑战，Macro F1 显著低于准确率

亮点与洞察¶

实用管线：直接面向即将到来的 Rubin/Roman 巡天的需求，从模拟训练、真实评估到未来多任务扩展路径清晰
度量工程：系统对比 46 种距离度量是独特贡献，扩展的 GeomLoss 库对域适应社区有价值
物理意义：域对齐的目标不仅是提高分类精度，更重要的是保证物理推断的校准性——这区别于一般的域适应工作

局限性 / 可改进方向¶

仅三类形态分类（椭圆/旋涡/不规则），尚未扩展到连续物理量（恒星质量、SFR）
不规则星系类别表现仍差，Macro F1 仅 0.626
论文标注为 "preliminary pipeline"，尚未在大规模多红移数据上验证
假设条件标签分布稳定 \(p_S(y|x) \approx p_T(y|x)\)，但模拟和观测的标签定义可能存在系统差异

评分¶

新颖性: ⭐⭐⭐ 域适应方法本身不新，但 top-\(k\) OT 匹配和 46 种度量的系统对比有价值
实验充分度: ⭐⭐⭐ 初步 pipeline，三种 backbone 和多种对齐策略对比充分，但仅三类分类
写作质量: ⭐⭐⭐ 方法描述清晰，但作为 NeurIPS 论文偏短
价值: ⭐⭐⭐⭐ 对天文 AI 社区的实际需求有直接价值，面向下一代巡天