Multi-Modal Masked Autoencoders for Galaxy Evolution and Cosmology¶

会议: NeurIPS 2025
arXiv: 2510.22527
代码: 有 (GitHub + Zenodo 数据集)
领域: 多模态 / 天体物理
关键词: 掩码自编码器, 星系图像, 光谱, 红移回归, 多模态

一句话总结¶

将多模态掩码自编码器 (MMAE) 应用于星系图像和光谱的联合重建，构建了 134,533 个星系的图像+光谱数据集，实现了光谱和图像的交叉重建以及仅从图像的红移回归，\(\sigma_{\text{NMAD}} = 0.016\) 优于 AstroCLIP。

Transformer编码器分别处理两种模态 → 交叉注意力融合 → 注意力池化生成全局嵌入 → 三个任务头（图像解码、光谱解码、红移回归）。

Patch tokenization：
图像 64×64×5 → 2D卷积分为 8×8×5 的patch → 投影到256维嵌入 + 2D可学习位置编码
光谱 7783→259像素下采样 → 1D patch（长度8）→ 线性投影
掩码与编码：75%随机掩码。各模态独立用1D Transformer编码器（深度4，8头注意力，dropout 0.1）
交叉注意力融合：4层交叉注意力块，图像特征查询光谱特征，反之亦然
任务头：MLP解码器（GeLU+dropout）重建图像和光谱；线性头映射拼接嵌入到标量红移
训练策略：50%光谱完全置零模拟真实缺失模态。AdamW优化（lr=0.0001），损失加权：图像0.1、光谱0.01、红移1.0
红移损失：\(\mathcal{L}_z = 1 - \frac{1}{1+(dz/0.15)^2}\)，其中 \(dz = (z_{\text{pred}} - z_{\text{spec}})/(1+z_{\text{spec}})\)

模型	\(\sigma_{\text{NMAD}}\)	条件	红移范围
BCNN (fine-tuned)	0.012	专用微调	z≲0.4
MMAE (25%图像掩码)	0.016	光谱全掩	z≲0.4
AstroCLIP	0.020	对比学习	z≲0.4
MMAE (不掩码)	0.026	光谱全掩	z≲0.4