跳转至

AS-Bridge: A Bidirectional Generative Framework Bridging Next-Generation Astronomical Surveys

会议: CVPR 2026 arXiv: 2603.11928 代码: 领域: 扩散模型/图像生成 关键词: 天文巡天, Brownian Bridge, 跨模态翻译, 异常检测, 概率生成

一句话总结

提出 AS-Bridge,一个基于 Brownian Bridge 扩散过程的双向生成框架,在地基 LSST 与空基 Euclid 天文巡天之间建模概率条件分布,实现跨巡天图像翻译和罕见事件检测(引力透镜),并通过 \(\epsilon\)-prediction 训练目标改进了标准 Brownian Bridge 的似然估计。

研究背景与动机

未来十年观测宇宙学将由大型巡天驱动:地基 LSST(Vera C. Rubin 天文台)提供深度多波段光学图像但受大气湍流影响导致分辨率受限、源混合;空基 Euclid 提供高分辨率近红外成像但波段更少、光谱信息不完整。两个巡天有约 7,000-9,000 deg² 的重叠天区,观测同一天体但产生根本不同的数据。

跨巡天推断在两个方向上都是病态问题:从 LSST 恢复 Euclid 级别的形态需要解决大气模糊和背景噪声带来的歧义;从 Euclid 映射回 LSST 需要从更少的波段推断光谱信息。因此,跨巡天翻译应被视为概率过程,能够采样与已有观测一致的多个有效实现。

现有的跨模态方法(GAN-based、条件扩散)通常在单方向确定性范式下开发和评估,无法忠实表示观测模态之间的完整条件分布。科学应用需要带有不确定性量化的概率生成。

方法详解

整体框架

AS-Bridge 将跨巡天翻译建模为双向 Brownian Bridge 过程。利用重叠天区的配对观测作为锚点训练,学习 LSST 和 Euclid 数据分布之间的随机路径。训练完成后可在非重叠区域生成互补观测,同时用于罕见事件检测。

关键设计

  1. Survey Translation Formulation(巡天翻译公式化):
  2. 做什么:将两个巡天的观测视为共享潜在天体物理过程 \(\Phi\) 的两个不同实现
  3. 核心思路:\(x_{\text{Euclid}} = \mathcal{O}_{\text{Euclid}}(\Phi) + \epsilon_{\text{Euclid}}\)\(x_{\text{LSST}} = \mathcal{O}_{\text{LSST}}(\Phi) + \epsilon_{\text{LSST}}\)。由于潜在过程不可观测,边缘化 \(\Phi\) 后直接学习条件分布 \(p(x_{\text{Euclid}} | x_{\text{LSST}})\)\(p(x_{\text{LSST}} | x_{\text{Euclid}})\)
  4. 设计动机:观测仅是底层场景的偏噪投影,映射本质上是随机的而非确定性的

  5. Brownian Bridge with \(\epsilon\)-prediction(改进训练目标):

  6. 做什么:在标准 Brownian Bridge 框架上推导更好的训练目标
  7. 核心思路:标准 Brownian Bridge 前向过程:\(x_t | (x_0, x_T) \sim \mathcal{N}((1-m_t)x_0 + m_t x_T, \delta_t I)\),其中 \(\delta_t = m_t(1-m_t)\)。标准训练损失直接预测漂移 + 去噪项。作者证明 \(\epsilon\)-prediction 等价于标准损失乘以 \(\sqrt{\delta_t}\) 权重: $\(\mathcal{L} = \|\epsilon_\theta - \epsilon\|_2^2\)$ 这保留了似然启发的对高噪声时间步的强调,同时维持桥端点附近的稳定梯度(避免 \(\delta_t\) 直接加权在端点处梯度消失)。重建目标: $\(\hat{x}_0 = \frac{x_t - m_t x_T - \sqrt{\delta_t} \epsilon_\theta(x_t, x_T, t)}{1-m_t}\)$
  8. 设计动机:科学问题需要模型忠实匹配条件概率分布;\(\delta_t\) 直接加权在桥端点处梯度消失,\(\sqrt{\delta_t}\) 提供更温和的权重

  9. Rare Event Detection(罕见事件检测):

  10. 做什么:利用跨巡天重建不一致性进行无监督异常检测
  11. 核心思路:对配对观测通过前向过程融合生成中间变量 \(x_t\),然后反向重建回 Euclid 域。采样 \(N\) 个随机重建 \(\{\hat{x}_0^{(i)}\}_{i=1}^N\),像素级异常分数取最小重建误差: $\(\mathcal{A}(p) = \min_{i \in \{1,...,N\}} \|\hat{x}_0^{(i)}(p) - x_0(p)\|_2^2\)$ 图像级分数通过通量归一化聚合:\(\mathcal{A}(x_0) = \frac{\sum_p \mathcal{A}(p)}{\sum_p x_0(p)}\)
  12. 设计动机:训练分布中罕见事件(如强引力透镜)被低估,模型无法忠实重建→重建不一致性为异常信号;取最小误差抑制噪声波动导致的虚假误差

损失函数 / 训练策略

  • 训练数据:使用 SLSim 模拟生成 115,000 普通星系 + 5,000 强引力透镜系统
  • LSST 图像:g/r/i 三波段,64×64 像素,~0.7" seeing
  • Euclid 图像:VIS 波段,0.1" 像素尺度,64×64 像素
  • 110,000 普通星系训练,其余用于评估

实验关键数据

主实验(概率重建质量 CRPS↓)

方法 LSST→Euclid Euclid→LSST
SPADE 3.39 16.52
OASIS 4.65 13.33
Pix2Pix 4.35 73.03
Palette 2.43 7.98
Joint Diffusion 3.14 15.15
BB 标准损失 2.55 7.90
AS-Bridge (\(\epsilon\)-pred) 2.38 7.90

消融实验

训练目标 CRPS (LSST→Euclid) CRPS (Euclid→LSST) 说明
标准损失 2.55 7.90 原始 BB 目标
\(\sqrt{\delta_t}\) 权重 3.59 11.24 直接加权反而差
\(\epsilon\)-pred 2.38 7.90 温和权重最优

异常检测(强引力透镜检测)

方法 FPR@1%TPR↓ FPR@5%TPR↓ AUPR↑
AS-Bridge 0.00% 0.18% 0.80
Deco-Diff 1.1% 5.0% 0.61
CFM 0.24% 1.2% 0.75

关键发现

  • 扩散/Bridge 方法全面优于非扩散方法(GAN-based),验证了基于 score 的生成建模在恢复真实条件分布方面的优势
  • Euclid→LSST(从单波段推断多波段颜色)是极度病态问题,但模型仍能生成形态一致且颜色合理的多样化重建
  • LSST→Euclid 翻译能正确恢复被大气 seeing 混合的多源系统中的星系数量和位置
  • 单模态方法 Deco-Diff 完全无法检测结构异常,跨模态信息对罕见事件检测至关重要

亮点与洞察

  • 首次将跨巡天翻译形式化为概率推断问题,而非简单的 I2I 翻译
  • \(\epsilon\)-prediction 等价性的形式化证明优雅且实用,为 Brownian Bridge 训练提供了理论指导
  • 将重建不一致性用于无监督异常检测是巧妙的科学应用——利用生成模型的"认知边界"来发现新现象
  • 评估指标的设计(CRPS 用于概率重建质量、FPR@low TPR 用于科学发现场景)体现了对领域需求的深入理解

局限性 / 可改进方向

  • 目前仅在模拟数据上训练和评估,模拟到真实数据的域差距是已知限制
  • Euclid→LSST 方向的 CRPS 仍然较高(7.90),多波段颜色推断的不确定性很大
  • 仅用强引力透镜作为异常事件的代表,需要更多种类的罕见天体进行验证
  • 图像尺寸固定为 64×64,对大尺度结构的建模可能不足

相关工作与启发

  • 与 Palette(条件扩散 I2I)的核心区别:Palette 从纯噪声开始反向,源图像仅作为条件信号;BB 直接在两个分布间建模随机路径
  • 跨模态异常检测思路可推广到其他多传感器天文数据(如 SKA 射电 + 光学)
  • \(\epsilon\)-prediction 的 \(\sqrt{\delta_t}\) 等价权重分析对所有使用 Brownian Bridge 的工作都有参考价值

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将天文巡天间的概率翻译问题形式化,跨领域创新显著
  • 实验充分度: ⭐⭐⭐⭐ 双向翻译 + 异常检测 + 消融完整,但仅在模拟数据上评估
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰、数学推导严谨、评估指标设计周到
  • 价值: ⭐⭐⭐⭐ 为即将到来的 LSST-Euclid 联合分析提供了概念验证和基准