Dark3R: Learning Structure from Motion in the Dark¶
会议: CVPR2026 arXiv: 2603.05330 代码: 项目主页 领域: 3D视觉 关键词: 低光照3D重建, 运动恢复结构, 知识蒸馏, 特征匹配, 新视角合成, NeRF
一句话总结¶
提出 Dark3R 框架,通过教师-学生蒸馏将 MASt3R 的3D先验迁移到极端低光照(SNR < −4 dB)原始图像上,实现了传统方法完全失败的暗光环境下的运动恢复结构(SfM)和新视角合成。
研究背景与动机¶
- 传统SfM在低光下崩溃:现有SfM流水线(COLMAP等)依赖特征检测与匹配,当图像信噪比(SNR)低于0 dB时,噪声主导信号,特征提取完全失效,导致位姿估计和三角化无法进行。
- 学习型方法同样失败:MASt3R、VGGT等3D基础模型在大规模数据上预训练,但其训练分布不包含低SNR原始图像,面对极端噪声时泛化能力严重不足。
- 单帧去噪无法保持多视图一致性:对每帧独立应用去噪器(如BM3D、神经网络去噪)虽可提升单图质量,但会破坏跨视图的特征一致性,导致后续匹配和位姿估计失败。
- Burst去噪假设不成立:连拍去噪方法假设帧间运动很小,但3D重建场景中相机具有大视差和显著运动,无法满足对齐前提。
- 已有低光NeRF依赖外部位姿:RawNeRF等方法可在原始图像上重建辐射场,但必须依赖COLMAP提供的相机位姿,因此存在一个"位姿估计不了就无法重建"的死锁。
- 缺乏合适的数据集:此前没有包含精确3D标注的大规模低光照多视图原始图像数据集,阻碍了该方向的研究与评估。
方法详解¶
整体框架¶
Dark3R 采用教师-学生蒸馏架构,将预训练 MASt3R 作为教师(frozen),学生网络从相同权重初始化并通过 LoRA 微调。教师处理高SNR干净原始图像对,学生处理对应的低SNR噪声原始图像对,训练目标是让学生的编码器特征、解码器特征和对应关系图与教师输出对齐。推理时仅需学生网络,配合 MASt3R-SfM 的全局优化和BA完成多视图位姿恢复。
关键设计¶
- 原始图像输入:直接使用简单去马赛克(子采样Bayer各通道并平均两个绿通道)的raw图像,避免ISP流水线中黑电平减除和截断导致的信息损失。实验表明MASt3R在高SNR raw图像上与sRGB输入表现相当。
- LoRA微调:相比全参微调,LoRA在位姿精度上一致更优(消融实验中ATE从0.476降至0.050),训练效率更高。
- 三层特征对齐:同时对齐编码器特征 \(\mathbf{F}_{\mathcal{E}}\)、解码器特征 \(\mathbf{F}_{\mathcal{D}}\) 和对应关系图 \(\mathbf{C}\),三者均使用 L2 距离监督。
- Clean正则化:同时将干净图像对通过学生网络并对齐教师输出(\(\lambda_{\text{clean}}=0.3\)),确保学生在宽SNR范围内保持性能。
- 无需3D监督:训练仅需噪声-干净原始图像对(可直接拍摄或用标定的泊松-高斯噪声模型合成),不需要任何深度或位姿GT。
- 已知内参约束:推理时假设相机内参已知,BA中加入正则项使优化内参接近标定值。
新视角合成(Dark3R-NeRF)¶
- 粗到细优化:使用随机预条件(stochastic preconditioning),对光线采样位置添加高斯噪声并从 \(\sigma=10^{-3}\) 退火至0(前30k步),后续90k步继续优化,避免过拟合噪声。
- 深度监督:利用Dark3R预测的稠密点图作为深度先验,参考DS-NeRF的指数衰减加权策略,逐步降低约束强度以保留精细细节。
- 保留黑电平:不做黑电平减除和截断,在极低SNR下保留接近黑电平的有用信号,依靠多视图聚合提升SNR。
损失函数¶
\[\mathcal{L} = \|\mathbf{F} - \tilde{\mathbf{F}}_{\text{noisy}}\|_2^2 + \lambda_{\text{clean}} \|\mathbf{F} - \tilde{\mathbf{F}}_{\text{clean}}\|_2^2\]
其中 \(\mathbf{F}\) 是教师在干净图像对上的输出(编码器、解码器、对应关系图拼接),\(\tilde{\mathbf{F}}\) 是学生的对应输出。
实验¶
数据集¶
自采集数据集:约42,000张多视图曝光包围原始图像(12个三脚架场景,每个~400视角×9曝光)+ ~20,000张手持高SNR图像(92个室内场景)。Sony Alpha I相机,评估SNR低至−5 dB。
位姿估计主要结果¶
| 方法 | 输入 | ATE ↓ | RPE T ↓ | RPE R ↓ | AbsRel ↓ | δ<1.25 ↑ |
|---|---|---|---|---|---|---|
| COLMAP | sRGB | 0.669 | 0.155 | 1.644 | 0.638 | 54.38 |
| MASt3R | raw | 0.787 | 0.472 | 2.802 | 0.318 | 39.66 |
| VGGT | sRGB | 0.252 | 0.216 | 1.047 | 0.232 | 63.28 |
| MASt3R-SfM | raw | 0.088 | 0.038 | 0.201 | 0.196 | 79.39 |
| Dark3R | raw | 0.050 | 0.020 | 0.121 | 0.091 | 93.14 |
在平均SNR约−3.87 dB条件下(120张输入),Dark3R全面超越所有基线。
新视角合成结果¶
| 方法 | 位姿来源 | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|---|---|---|---|---|
| Dark3R-NeRF | MASt3R-SfM | 34.60 | 0.835 | 0.308 |
| RawNeRF | Dark3R | 34.24 | 0.848 | 0.291 |
| LE3D | Dark3R | 35.77 | 0.878 | 0.339 |
| Dark3R-NeRF | Dark3R | 36.17 | 0.866 | 0.257 |
| Dark3R-NeRF | Oracle | 37.16 | 0.882 | 0.228 |
Dark3R位姿 + Dark3R-NeRF组合在无Oracle条件下取得最优综合表现。
消融实验关键发现¶
- LoRA vs 全参微调:LoRA优势显著,ATE从0.476降至0.050
- Raw vs sRGB输入:raw图像保留线性传感器响应,位姿精度更高
- 模拟+真实数据:混合训练优于单独使用任一数据源
- 仅微调编码器:ATE最低(0.030)但旋转误差略高,微调全部组件更均衡
- Clean loss:移除后性能几乎不变,说明主要增益来自噪声L2对齐
- NeRF消融:深度监督(+1.26 PSNR)、不做黑电平截断(+1.19 PSNR)、随机预条件(+0.12 PSNR)均有贡献
亮点¶
- 开创性问题定义:首次系统性解决SNR < 0 dB的极端低光SfM问题,打破了"位姿需要好图像→好图像需要位姿"的死锁
- 优雅的蒸馏策略:无需3D监督,仅通过噪声-干净图像对即可将MASt3R的3D先验迁移到低光域,设计简洁且扩展性强
- 首个低光多视图数据集:42,000张曝光包围原始图像带精确3D标注,填补了社区空白
- 端到端系统:从SfM到NeRF重建完整覆盖,并在iPhone 16上验证跨相机泛化能力
局限性¶
- 相机内参需已知(需预标定),限制了在未标定消费级设备上的完全自动化部署
- 训练需要8块RTX A6000 GPU约15小时,计算资源要求较高
- NeRF重建采用体渲染而非3DGS(作者发现高噪声下高斯点云优化困难),渲染速度较慢
- NeRF优化需120k步迭代,单场景重建时间较长
- 数据集场景以室内静态为主,对动态场景和室外场景的泛化尚未验证
- 500张以上输入时位姿精度略有下降,大规模场景的可扩展性待改进
- 蒸馏依赖MASt3R的能力上限,若教师在特定场景类型上弱则学生也会受限
相关工作¶
- MASt3R / MASt3R-SfM:Dark3R的教师模型和推理流水线基础,在高SNR下仍是最强基线之一
- RawNeRF:同样在raw域做NeRF,但需要COLMAP位姿,仅能工作在COLMAP可行的光照条件下
- VGGT:前馈3D重建基础模型,在低光下表现优于COLMAP但不及MASt3R-SfM
- LE3D:基于3DGS的低光重建方法,Dark3R-NeRF在LPIPS上大幅优于它
- DS-NeRF:Dark3R-NeRF的深度监督策略参考了该工作的指数衰减加权设计
- SuperPoint/SuperGlue:学习型特征检测匹配代表,在低光下同样退化严重
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次解决极端低光SfM,问题定义和蒸馏方案均具原创性
- 实验充分度: ⭐⭐⭐⭐⭐ — 自建大规模数据集,全面消融,多基线对比,跨相机验证
- 写作质量: ⭐⭐⭐⭐⭐ — 结构清晰,图表精美,问题动机阐述充分
- 价值: ⭐⭐⭐⭐⭐ — 打开了暗光被动3D感知的新方向,数据集和方法均有长期影响