POLARIS: A High-contrast Polarimetric Imaging Benchmark Dataset for Exoplanetary Disk Representation Learning¶

会议: NeurIPS 2025 arXiv: 2506.03511 代码: Zenodo (数据集+代码开源) 领域: Physics / AI for Astronomy / Benchmark 关键词: 高对比度成像, 系外行星, 偏振成像, 自监督学习, 扩散模型, 对比学习

一句话总结¶

构建首个系外行星偏振成像ML基准数据集POLARIS（921张VLT/SPHERE/IRDIS偏振图像+75,910张预处理曝光），提出Diff-SimCLR框架（扩散模型增强对比学习），在参考星vs目标星分类任务上达到93%准确率，仅需<10%手动标注。

研究背景与动机¶

领域现状：直接成像法（Direct Imaging）是探测远轨道系外行星的关键技术，但星光与行星光的对比度极端（~$10^{-6}$到$10^{-10}$），需要高对比度成像（HCI）技术。过去十年，GPI和SPHERE等仪器拍摄了超过$10^6$张图像，但仅直接成像了不到40颗系外行星。
现有痛点：(a) 参考差分成像（RDI）需要无盘信号的参考星图像来建模恒星PSF，但参考星选择完全依赖天文学家手动检查——耗时且不可扩展；(b) ML领域缺乏系外行星成像的标准化基准数据集；(c) 仅96张有标注图像（<10%），大量无标注数据未被利用。
核心矛盾：需要自动化参考星选择以降低~50%观测成本（约10晚$350K），但缺乏足够标注数据训练监督模型。
本文要解决什么？ (i) 构建首个大规模系外行星HCI偏振基准数据集；(ii) 用少量标注+大量无标注数据实现自动参考星/目标星分类；(iii) 验证分类结果可用于下游背景重建。
切入角度：偏振差分成像（PDI）产物$Q_\phi$可直接反映尘埃盘结构——无盘信号即为参考星，天然提供弱监督信号。
核心idea一句话：用扩散模型生成的潜空间轨迹增强对比学习的特征表示，在仅96个标注样本下实现93%分类准确率。

方法详解¶

整体框架¶

VLT/SPHERE原始偏振观测 → IRDAP统一预处理 → 得到921张$Q_\phi$图像和75,910张预处理曝光 → 无监督/自监督表征学习提取32维特征 → 下游监督/无监督分类器判断参考星vs目标星 → 分类结果用于VAE背景重建。

关键设计¶

POLARIS数据集构建：
做什么：从ESO档案获取2014-2024全部公开SPHERE/IRDIS偏振观测，统一预处理
核心思路：IRDAP pipeline统一处理 → 人工质检去除坏曝光 → 裁剪中心256×256区域 → 对数变换+线性归一化到[-4,4]。最终包含96个标注$Q_\phi$+813个未标注$Q_\phi$+75,910个预处理曝光
设计动机：此前HCI数据分散在各团队发表中，缺乏统一处理和标注，POLARIS填补了这一空白
Diff-SimCLR（扩散增强对比学习）：
做什么：用条件DDPM的去噪轨迹增强SimCLR的特征表示
核心思路：对输入图像$x$，提取前$\Delta_t=8$步的扩散潜状态序列$p=[x_0,...,x_{\Delta_t}]$，用ResNet编码为$h_p$；同时两个增广视图经ResNet分别得到$h_1, h_2$；将$[h_i \| h_p]$拼接后经MLP投影头得到$z_i$，用InfoNCE损失优化对比目标
设计动机：标准SimCLR的增广不变性表示可能缺乏捕捉细微类间差异的紧凑性，扩散模型的去噪轨迹提供了额外的结构性先验信息，增强特征的discriminative能力
多模型基线评估：
做什么：系统评估统计、生成、LVLM三类模型在POLARIS上的表现
包含：MAE（掩码自编码器）、DeepCluster（深度聚类）、SimCLR（对比学习）、7种大型视觉语言模型（GPT-4o/4.1、Gemini、Llama、DeepSeek）

损失函数 / 训练策略¶

DDPM：300 epochs, lr=1e-3, batch=16, 标准去噪损失
对比学习阶段：固定DDPM参数，200 epochs, lr=1e-3, batch=32, InfoNCE损失
特征维度：32维（平衡表示能力与过拟合风险）
10-fold Stratified CV评估，5-fold grid search调超参

实验关键数据¶

主实验 — 分类准确率¶

方法	SVC	Random Forest	MLP	SVM	KNN	GMM	Spectral
MAE	80.33	77.44	82.29	85.00	73.78	74.00	77.00
SimCLR	84.78	84.33	82.00	86.46	73.89	71.11	77.78
DeepCluster	67.67	74.00	70.83	69.67	70.67	72.00	74.89
Diff-SimCLR	93.00	89.67	92.71	89.56	75.00	74.22	77.33

LVLM零样本分类¶

模型	准确率
GPT-4o	67.71
GPT-4.1	75.00
Gemini-2.0-Flash	75.21
Llama-3.2-11B	48.96
DeepSeek-VL2-Small	50.00

关键发现¶

Diff-SimCLR在监督分类器上一致最优：SVC达93%，比SimCLR提升8.22个百分点，比DeepCluster提升25.33个百分点
LVLM表现有限：最好的Gemini-2.0-Flash仅75.21%，开源LVLM接近随机（~50%），说明该任务的专业性超出通用LVLM能力
VAE背景重建验证：Spectral Clustering标注的206张参考图训练VAE，成功重建了恒星PSF并通过减法恢复了目标盘结构

亮点与洞察¶

首个系外行星HCI ML基准：填补了天文学和ML社区的重要空白，数据量级（921 PDI + 75K曝光）足以支持深度学习研究
扩散轨迹作为特征先验：利用DDPM去噪过程的中间态增强对比学习，这个思路可以迁移到任何低标注率的科学图像分类任务
潜在节省50%望远镜时间：自动参考星选择可避免观测专用参考星，对VLT/ELT/HWO等未来设施价值巨大

局限性 / 可改进方向¶

96个标注样本中只有最亮的原行星盘，较暗的碎片盘(debris disk)可能被误分类为参考星
偏振光非检测不等于总强度无信号——point source（如系外行星本身）在偏振中可能不可见
仅在SPHERE/IRDIS数据上验证，跨仪器泛化性（GPI、CHARIS）需要进一步测试
Diff-SimCLR的扩散步数$\Delta_t=8$的选择缺乏系统消融

评分¶

新颖性: ⭐⭐⭐⭐ 首个HCI ML基准+扩散增强对比学习的组合新颖
实验充分度: ⭐⭐⭐⭐ 多模型全面对比，包含实用的VAE重建验证
写作质量: ⭐⭐⭐⭐ 跨领域叙述平衡了天文和ML背景
价值: ⭐⭐⭐⭐⭐ 对天文数据驱动研究和下一代望远镜有直接现实价值