From Pixels to Views: Learning Angular-Aware and Physics-Consistent Representations for Light Field Microscopy¶

会议: NEURIPS2025
arXiv: 2510.22577
代码: GitHub
领域: 3d_vision / microscopy
关键词: 光场显微镜, XLFM, 3D重建, Masked View Modeling, 物理一致性

一句话总结¶

提出XLFM-Former用于扩展光场显微镜(XLFM)的3D重建：构建首个XLFM-Zebrafish标准化基准，设计Masked View Modeling (MVM-LF)自监督预训练学习角度先验，引入光学渲染一致性损失(ORC Loss)确保物理可信性，PSNR较SOTA提升7.7%（54.04 vs 50.16 dB）。

背景与动机¶

领域现状：XLFM可单次曝光在100Hz实现体积成像，是神经科学大规模活体成像的关键工具（斑马鱼、小鼠）。
核心挑战：(1) 缺乏标准化数据集和评估协议；(2) XLFM数据编码密集角度采样的3D场景，传统CNN难以建模角度相关性；(3) 高质量体积GT（RL反卷积）计算昂贵。
物理约束缺失：纯像素级损失训练可能生成视觉合理但光学不一致的重建。

方法详解¶

整体框架¶

Swin Transformer编码器 + CNN解码器，加MVM-LF预训练 + ORC Loss物理约束。

关键设计1: Masked View Modeling (MVM-LF)¶

XLFM的27个视角中随机遮挡70%，让模型从未遮挡视角重建被遮挡视角
以视角（而非像素）为掩码单元——匹配XLFM的角度采样物理结构
仅用 \(\ell_2\) 损失预训练250 epochs，预训练后丢弃解码器，保留编码器初始化

关键设计2: 光学渲染一致性损失 (ORC Loss)¶

将预测3D体积通过已知PSF前向卷积得到合成光场图像
\(\mathcal{L}_{ORC} = \|h * \mathcal{V}_{pred} - h * \mathcal{V}_{GT}\|_2^2\)
确保重建不仅结构匹配GT，还在PSF前向模型下光学一致

关键设计3: XLFM-Zebrafish基准数据集¶

22,581张光场图像，3条自由游泳斑马鱼 + 13条固定斑马鱼
训练/验证7条 + 测试6条（unseen）
双采样率：10fps（高时间分辨）+ 1fps（长期跟踪）

实验关键数据¶

XLFM-Zebrafish测试集（6个样本平均）¶

方法	Avg PSNR↑	Avg SSIM↑
ConvNeXt	50.16	0.9876
ViT	49.28	0.9876
U-Net	50.60	0.9886
ResNet-101	50.68	0.9893
XLFM-Former	54.04	0.9944

PSNR提升7.7%（54.04 vs 50.16），在所有6个测试样本上全面超越。

消融实验¶

无MVM-LF预训练：-1.2 dB
无ORC Loss：-0.8 dB
两者均去除：-2.1 dB

亮点¶

首个XLFM标准化基准：填补了该领域数据集空白
视角级Masked Modeling：比像素级掩码更匹配光场物理结构
可微渲染物理约束：ORC Loss桥接数据驱动学习与波光学一致性
全体积重建：不限于稀疏神经信号，还包含完整形态结构

局限性 / 可改进方向¶

仅在斑马鱼数据上验证，小鼠等更大组织的泛化待测
需要4×A100-80GB训练——计算资源要求高
ORC Loss依赖已知PSF——对PSF误差的敏感性未分析

与相关工作的对比¶

vs XLFMNet：仅重建稀疏神经信号，本文做全体积重建
vs FNet：Fourier卷积内存爆炸（需多GPU），Swin Transformer更高效
vs MLFM：像素级随机掩码不如视角级掩码匹配光场结构

启发与关联¶

视角级自监督预训练思路可推广到其他多视角成像系统（光场相机、NeRF采集）
可微渲染损失适用于任何前向模型已知的逆问题
XLFM+深度学习的组合对实时全脑成像有重要意义

评分¶

新颖性: ⭐⭐⭐⭐ 视角级MAE + 光学一致性损失
实验充分度: ⭐⭐⭐⭐ 首个基准+多架构对比+消融
写作质量: ⭐⭐⭐⭐ 动机清晰，方法-物理结合紧密
价值: ⭐⭐⭐⭐ 计算神经科学的重要基础设施