Dark3R: Learning Structure from Motion in the Dark¶

会议: CVPR2026 arXiv: 2603.05330 代码: 项目主页领域: 3D视觉 关键词: 低光照3D重建, 运动恢复结构, 知识蒸馏, 特征匹配, 新视角合成, NeRF

一句话总结¶

提出 Dark3R 框架，通过教师-学生蒸馏将 MASt3R 的3D先验迁移到极端低光照（SNR < −4 dB）原始图像上，实现了传统方法完全失败的暗光环境下的运动恢复结构（SfM）和新视角合成。

研究背景与动机¶

传统SfM在低光下崩溃：现有SfM流水线（COLMAP等）依赖特征检测与匹配，当图像信噪比（SNR）低于0 dB时，噪声主导信号，特征提取完全失效，导致位姿估计和三角化无法进行。
学习型方法同样失败：MASt3R、VGGT等3D基础模型在大规模数据上预训练，但其训练分布不包含低SNR原始图像，面对极端噪声时泛化能力严重不足。
单帧去噪无法保持多视图一致性：对每帧独立应用去噪器（如BM3D、神经网络去噪）虽可提升单图质量，但会破坏跨视图的特征一致性，导致后续匹配和位姿估计失败。
Burst去噪假设不成立：连拍去噪方法假设帧间运动很小，但3D重建场景中相机具有大视差和显著运动，无法满足对齐前提。
已有低光NeRF依赖外部位姿：RawNeRF等方法可在原始图像上重建辐射场，但必须依赖COLMAP提供的相机位姿，因此存在一个"位姿估计不了就无法重建"的死锁。
缺乏合适的数据集：此前没有包含精确3D标注的大规模低光照多视图原始图像数据集，阻碍了该方向的研究与评估。

方法详解¶

整体框架¶

Dark3R 采用教师-学生蒸馏架构，将预训练 MASt3R 作为教师（frozen），学生网络从相同权重初始化并通过 LoRA 微调。教师处理高SNR干净原始图像对，学生处理对应的低SNR噪声原始图像对，训练目标是让学生的编码器特征、解码器特征和对应关系图与教师输出对齐。推理时仅需学生网络，配合 MASt3R-SfM 的全局优化和BA完成多视图位姿恢复。

关键设计¶

原始图像输入：直接使用简单去马赛克（子采样Bayer各通道并平均两个绿通道）的raw图像，避免ISP流水线中黑电平减除和截断导致的信息损失。实验表明MASt3R在高SNR raw图像上与sRGB输入表现相当。
LoRA微调：相比全参微调，LoRA在位姿精度上一致更优（消融实验中ATE从0.476降至0.050），训练效率更高。
三层特征对齐：同时对齐编码器特征 \(\mathbf{F}_{\mathcal{E}}\)、解码器特征 \(\mathbf{F}_{\mathcal{D}}\) 和对应关系图 \(\mathbf{C}\)，三者均使用 L2 距离监督。
Clean正则化：同时将干净图像对通过学生网络并对齐教师输出（\(\lambda_{\text{clean}}=0.3\)），确保学生在宽SNR范围内保持性能。
无需3D监督：训练仅需噪声-干净原始图像对（可直接拍摄或用标定的泊松-高斯噪声模型合成），不需要任何深度或位姿GT。
已知内参约束：推理时假设相机内参已知，BA中加入正则项使优化内参接近标定值。

新视角合成（Dark3R-NeRF）¶

粗到细优化：使用随机预条件（stochastic preconditioning），对光线采样位置添加高斯噪声并从 \(\sigma=10^{-3}\) 退火至0（前30k步），后续90k步继续优化，避免过拟合噪声。
深度监督：利用Dark3R预测的稠密点图作为深度先验，参考DS-NeRF的指数衰减加权策略，逐步降低约束强度以保留精细细节。
保留黑电平：不做黑电平减除和截断，在极低SNR下保留接近黑电平的有用信号，依靠多视图聚合提升SNR。

损失函数¶

\[\mathcal{L} = \|\mathbf{F} - \tilde{\mathbf{F}}_{\text{noisy}}\|_2^2 + \lambda_{\text{clean}} \|\mathbf{F} - \tilde{\mathbf{F}}_{\text{clean}}\|_2^2\]

其中 \(\mathbf{F}\) 是教师在干净图像对上的输出（编码器、解码器、对应关系图拼接），\(\tilde{\mathbf{F}}\) 是学生的对应输出。

实验¶

数据集¶

自采集数据集：约42,000张多视图曝光包围原始图像（12个三脚架场景，每个~400视角×9曝光）+ ~20,000张手持高SNR图像（92个室内场景）。Sony Alpha I相机，评估SNR低至−5 dB。

位姿估计主要结果¶

方法	输入	ATE ↓	RPE T ↓	RPE R ↓	AbsRel ↓	δ<1.25 ↑
COLMAP	sRGB	0.669	0.155	1.644	0.638	54.38
MASt3R	raw	0.787	0.472	2.802	0.318	39.66
VGGT	sRGB	0.252	0.216	1.047	0.232	63.28
MASt3R-SfM	raw	0.088	0.038	0.201	0.196	79.39
Dark3R	raw	0.050	0.020	0.121	0.091	93.14

在平均SNR约−3.87 dB条件下（120张输入），Dark3R全面超越所有基线。

新视角合成结果¶

方法	位姿来源	PSNR ↑	SSIM ↑	LPIPS ↓
Dark3R-NeRF	MASt3R-SfM	34.60	0.835	0.308
RawNeRF	Dark3R	34.24	0.848	0.291
LE3D	Dark3R	35.77	0.878	0.339
Dark3R-NeRF	Dark3R	36.17	0.866	0.257
Dark3R-NeRF	Oracle	37.16	0.882	0.228

Dark3R位姿 + Dark3R-NeRF组合在无Oracle条件下取得最优综合表现。

消融实验关键发现¶

LoRA vs 全参微调：LoRA优势显著，ATE从0.476降至0.050
Raw vs sRGB输入：raw图像保留线性传感器响应，位姿精度更高
模拟+真实数据：混合训练优于单独使用任一数据源
仅微调编码器：ATE最低(0.030)但旋转误差略高，微调全部组件更均衡
Clean loss：移除后性能几乎不变，说明主要增益来自噪声L2对齐
NeRF消融：深度监督(+1.26 PSNR)、不做黑电平截断(+1.19 PSNR)、随机预条件(+0.12 PSNR)均有贡献

亮点¶

开创性问题定义：首次系统性解决SNR < 0 dB的极端低光SfM问题，打破了"位姿需要好图像→好图像需要位姿"的死锁
优雅的蒸馏策略：无需3D监督，仅通过噪声-干净图像对即可将MASt3R的3D先验迁移到低光域，设计简洁且扩展性强
首个低光多视图数据集：42,000张曝光包围原始图像带精确3D标注，填补了社区空白
端到端系统：从SfM到NeRF重建完整覆盖，并在iPhone 16上验证跨相机泛化能力

局限性¶

相机内参需已知（需预标定），限制了在未标定消费级设备上的完全自动化部署
训练需要8块RTX A6000 GPU约15小时，计算资源要求较高
NeRF重建采用体渲染而非3DGS（作者发现高噪声下高斯点云优化困难），渲染速度较慢
NeRF优化需120k步迭代，单场景重建时间较长
数据集场景以室内静态为主，对动态场景和室外场景的泛化尚未验证
500张以上输入时位姿精度略有下降，大规模场景的可扩展性待改进
蒸馏依赖MASt3R的能力上限，若教师在特定场景类型上弱则学生也会受限

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次解决极端低光SfM，问题定义和蒸馏方案均具原创性
实验充分度: ⭐⭐⭐⭐⭐ — 自建大规模数据集，全面消融，多基线对比，跨相机验证
写作质量: ⭐⭐⭐⭐⭐ — 结构清晰，图表精美，问题动机阐述充分
价值: ⭐⭐⭐⭐⭐ — 打开了暗光被动3D感知的新方向，数据集和方法均有长期影响