InstantHDR: Single-forward Gaussian Splatting for High Dynamic Range 3D Reconstruction¶
会议: CVPR 2026
arXiv: 2603.11298
代码: 无(论文称review后发布)
领域: 3D重建 / 高动态范围成像
关键词: [HDR新视角合成, 前馈3D重建, 3D高斯溅射, 多曝光融合, 色调映射元网络]
一句话总结¶
提出首个前馈HDR新视角合成方法InstantHDR,通过几何引导的外观建模和色调映射元网络,从未标定多曝光LDR图像中单次前向重建HDR 3D高斯场景,速度比优化方法快~700×,后优化版本快~20×且质量可比。
背景与动机¶
HDR-NVS旨在从多曝光LDR图像重建HDR场景。现有优化方法(HDR-GS、GaussianHDR)严重依赖已知相机位姿、SfM初始化的密集点云和逐场景优化(GaussianHDR需~30分钟/场景),在稀疏视角下尤其脆弱——SfM点云在曝光不一致时会坍缩。近期前馈3D模型(DUSt3R、AnySplat)可秒级推理但假设外观一致,直接用于多曝光输入会产生严重鬼影伪影。此外,公开HDR数据集极为稀缺(HDR-NeRF仅12场景),无法支撑前馈模型的大规模预训练。
核心问题¶
如何在无需逐场景优化的情况下,从未标定、曝光不一致的多视角LDR图像中快速重建高质量的3D HDR场景?需同时解决四个挑战:曝光不一致的外观对齐、大亮度差异下的几何对应、不同相机响应函数的适配、HDR训练数据的稀缺。
方法详解¶
整体框架¶
输入:V张未标定多曝光LDR图像{I_v, ℓ_v} → 双分支架构:①几何分支(冻结的VGGT/AnySplat预训练Transformer)估计深度和位姿 → ②外观分支:曝光归一化 → 几何引导跨视角注意力融合辐照度 → DoG高分辨率上采样 → 高斯头合并两分支输出HDR 3D高斯 → MetaNet预测色调映射参数 → 任意曝光LDR渲染
关键设计¶
- 几何引导外观建模(Geo-guided Appearance Modeling): 三阶段设计:(a) FiLM层将各视角外观特征归一化到统一曝光空间,用正弦位置编码嵌入相对log曝光量;(b) 复用冻结几何编码器第14层的Q、K矩阵作为跨视角注意力的引导——发现这些attention map已经编码了可靠的跨视角几何对应,即使在极端曝光差异(0.5s~32s)下也能精准匹配同一物体;(c) DoG上采样用全分辨率特征的高频残差(g_v - g_v↓↑)补充patch级特征缺失的纹理细节
- 色调映射元网络(MetaNet): 不同于优化方法对每个场景过拟合一个CRF MLP,MetaNet从场景上下文(LDR特征、曝光嵌入、预测HDR高斯)中预测二层MLP色调映射器的全部权重和偏置θ,实现一次前向即适配不同相机的色调曲线(AgX/Filmic/Standard),无需逐场景优化
- HDR-Pretrain数据集: 构建168个Blender渲染室内场景,含5×7视角网格、5级曝光包围、32bit HDR GT、深度和法线图,随机应用三种色调映射算子增加多样性。基于HSSD开源室内资产,填补了前馈HDR预训练数据的空白
损失函数 / 训练策略¶
- L_total = L_RGB + λ_g · L_g,其中L_RGB = MSE + λ_perc · L_perceptual(对各视角渲染LDR vs GT LDR)
- L_g为深度一致性损失,仅在置信度top 30%像素上监督,避免反光/天空等不可靠区域的影响
- 几何编码器及其decoder head完全冻结,仅训练外观分支、高斯头和MetaNet
- AdamW + cosine lr, peak 2e-4, 1K warmup, 30K iterations, bf16, 8×A6000训练~2天
- 后优化:剪枝低opacity高斯(σ<0.01)后MSE+SSIM联合优化1K iterations
实验关键数据¶
| 数据集 | 指标 | InstantHDR (零样本) | InstantHDR_1K | GaussianHDR | 时间对比 |
|---|---|---|---|---|---|
| HDR-NeRF Real (4v) | PSNR/SSIM | 18.44/0.721 | 22.16/0.762 | 19.26/0.691 | 1s vs 1833s |
| HDR-NeRF Real (8v) | PSNR/SSIM | 18.95/0.724 | 25.32/0.852 | 24.96/0.854 | 1.6s vs 1816s |
| HDR-NeRF Real (18v) | PSNR/SSIM | 19.48/0.745 | 29.19/0.931 | 29.36/0.929 | 2.5s vs 1891s |
| HDR-NeRF Syn (8v) | PSNR/SSIM | 22.58/0.785 | 32.75/0.922 | 34.49/0.924 | ~1.6s vs ~1816s |
| HDR Syn (μ-law, 8v) | PSNR/SSIM | 15.29/0.772 | 27.55/0.899 | 31.62/0.887 | 1.6s vs 1816s |
- 零样本模式比AnySplat高+5.65~+8.07 dB PSNR
- 稀疏4视角下InstantHDR_1K超GaussianHDR +2.90 dB,因为前馈几何先验有效弥补稀疏输入
- 时间:InstantHDR_1K约30-40s/scene,比HDR-GS快~20×,比GaussianHDR快~50×
消融实验要点¶
- 去除曝光归一化影响最大:PSNR从18.95降至13.72(-5.23 dB),亮度不一致彻底破坏融合
- 去除MetaNet导致训练不稳定(16.32 dB),模型无法适配不同CRF
- 去除跨视角注意力引入鬼影伪影(17.63 dB),平滑表面尤为明显
- 去除上采样保留粗结构但丢失细节,LPIPS显著劣化(0.386 vs 0.269)
亮点¶
- 首个将前馈3D重建范式引入HDR-NVS的工作,速度提升质变(30min→1s)
- 复用冻结几何编码器的中间层attention map作为外观融合的几何引导——零额外计算开销且效果好
- MetaNet预测色调映射器全部参数实现"一网适配多相机"的设计优雅
- 构建专用HDR预训练数据集,填补社区数据缺口
局限性 / 可改进方向¶
- 零样本HDR输出偏亮——极端辐射值在单次前向中难以准确预测,作者承认这是开放挑战
- 合成场景dense view下与GaussianHDR仍有PSNR差距(~2-6 dB),因后者有专门的3D-2D双分支tone mapping
- 仅使用单分支简单tone mapping,更精细的色调映射模块是改进方向
- 需在HDR-Plenoxels真实场景上finetune才能泛化到HDR-NeRF真实场景,存在域间gap
与相关工作的对比¶
- vs GaussianHDR: 优化方法,需~30min/场景且依赖SfM点云;稀疏视角下点云坍缩导致伪影。InstantHDR无需位姿和点云,稀疏4视角下PSNR超其+2.90 dB
- vs AnySplat: 前馈3D重建但假设外观一致,多曝光输入产生严重鬼影。InstantHDR零样本即超其+5.65 dB,核心差异在曝光归一化和跨视角注意力融合
- vs HDR-GS: 优化方法性能强但速度慢。InstantHDR_1K在稀疏设置下超HDR-GS(4v: 22.16 vs 15.40),密集设置下接近
启发与关联¶
- 前馈范式的通用性: 将冻结几何backbone的中间层attention map作为跨视角对应引导的思路可迁移到其他需要多视角融合的任务(如多视角分割、跨视角一致性编辑)
- MetaNet设计: 用元网络预测任务特定模块参数的范式可推广到其他需要场景自适应的设置(如自适应去雾、自适应白平衡)
- 可探索:将InstantHDR扩展到动态场景HDR重建
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个前馈HDR-NVS,几何引导外观建模思路新颖
- 实验充分度: ⭐⭐⭐⭐ 多视角设置、LDR/HDR双评估、完整消融、定性结果丰富
- 写作质量: ⭐⭐⭐⭐ 问题阐述清晰,方法图示直观,实验组织有条理
- 价值: ⭐⭐⭐⭐ 开创前馈HDR-NVS方向,速度提升具有实际应用价值
- 写作质量: ⭐⭐⭐
- 对我的价值: ⭐⭐⭐