High Dynamic Range Novel View Synthesis with Single Exposure¶

会议: ICML 2025
arXiv: 2505.01212
代码: github.com/prinasi/Mono-HDR-3D
领域: 3D视觉
关键词: HDR新视角合成, 单曝光, 相机成像建模, NeRF, 3D高斯溅射

一句话总结¶

首次提出仅使用单曝光LDR图像进行HDR新视角合成（HDR-NVS）的问题设定，并设计了一个基于相机成像原理的元算法框架Mono-HDR-3D，通过LDR→HDR颜色转换器（L2H-CC）和HDR→LDR闭环转换器（H2L-CC）实现无HDR监督下的HDR场景建模。

研究背景与动机¶

HDR新视角合成的目标是从LDR图像集建立3D场景的HDR模型，生成任意视角的HDR渲染图像。现有方法（HDR-NeRF、HDR-GS）均依赖多曝光LDR图像作为训练数据，存在以下固有缺陷：

运动伪影：长曝光帧会累积物体/相机运动导致模糊，不同曝光之间的位移产生鬼影

对齐困难：不同曝光时间导致亮度分布、局部对比度差异，增加配准难度

采集成本高：需要专业设备、多次拍摄，在动态环境或移动设备上难以实现

作者提出更实用也更具挑战性的新任务：单曝光HDR-NVS——仅使用单一曝光时间的LDR图像进行训练。核心难点在于单曝光图像必然存在过曝或欠曝区域，信息不完整，无法直接恢复HDR内容。

方法详解¶

整体框架¶

Mono-HDR-3D是一个元算法（meta-algorithm），可无缝集成到NeRF或3DGS等任意NVS模型上。整体流程分三个阶段：

LDR 3D场景建模：以单曝光LDR图像+相机位姿为输入，训练一个标准的LDR 3D场景模型（NeRF/3DGS）
LDR→HDR提升：通过L2H-CC（LDR-to-HDR Color Converter）将LDR颜色空间提升到HDR
HDR→LDR闭环：通过H2L-CC（HDR-to-LDR Color Converter）将HDR图像转回LDR，形成闭环，实现无HDR标签下的自监督训练

关键设计思想：先建LDR模型再提升到HDR，而非直接从单曝光LDR尝试建HDR模型（会失败），这是与先前方法相反的设计路线。

关键设计¶

相机成像机制建模¶

方法的核心创新在于将L2H-CC和H2L-CC的网络结构设计建立在物理成像公式之上。

LDR图像形成公式（从HDR到LDR的正向过程）：

\[I^l = \frac{\Delta t}{g} \cdot I^h + I_0 + \epsilon - I_{\text{overflow}}\]

其中\(\Delta t\)为曝光时间，\(g\)为传感器增益，\(I^h\)为HDR像素值，\(I_0\)为暗电流偏移，\(\epsilon\)为传感器噪声，\(I_{\text{overflow}}\)为饱和溢出值。该公式可统一描述饱和与非饱和像素的成像过程，整理为两个功能项：

\(D(\cdot)\)：线性缩放HDR亮度到LDR范围
\(B(\cdot)\)：学习LDR亮度的偏移与校正

逆向公式（从LDR到HDR的反向过程）：

\[I^h = \underbrace{\frac{g}{\Delta t}}_{X(\cdot)} \cdot \underbrace{(I^l - I_0 + I_{\text{overflow}})}_{S(\cdot)} - \underbrace{\frac{g}{\Delta t} \cdot \epsilon}_{Y(\cdot)}\]

分解为三个功能项： - \(X(\cdot)\)：线性放大因子，将LDR亮度线性映射到HDR范围 - \(S(\cdot)\)：偏移校正，调整放大后的LDR值 - \(Y(\cdot)\)：噪声校正项

L2H-CC（LDR→HDR颜色转换器）¶

L2H-CC是逐通道（per-channel） 操作，网络结构严格模拟逆向公式的三个项：

输入映射：线性层 + ReLU，将LDR颜色嵌入潜在特征空间
三分支模拟：
- \(X(\cdot)\)分支：MLP + ReLU（确保非负，符合物理约束）
- \(S(\cdot)\)分支：MLP + ReLU（非负校正值）
- \(Y(\cdot)\)分支：MLP 无激活函数（噪声本质随机，无非负约束）
- 残差连接：LDR输入通过残差结构与转换输出相加，保留精细颜色细节，稳定学习过程

H2L-CC（HDR→LDR颜色转换器，闭环设计）¶

H2L-CC模拟正向成像公式，将渲染的HDR图像转回LDR，使得即使没有HDR真值也能通过与LDR训练图像比较进行监督学习：

输入映射：线性层 + ReLU
双分支模拟：
- \(D(\cdot)\)分支：线性层 + ReLU（非负线性缩放）
- \(B(\cdot)\)分支：线性层 + Tanh（偏移校正，允许正负值）
- 输出映射：Sigmoid激活，将值约束到[0,1]的LDR范围

损失函数 / 训练策略¶

总体损失函数：

\[\mathcal{L} = \mathcal{L}_{\text{ldr}} + \alpha \mathcal{L}_{\text{hdr}} + \beta \mathcal{L}_{\text{h2l}}\]

Mono-HDR-GS实例化（集成3DGS时）：

\(\mathcal{L}_{\text{ldr}}\)：L1损失 + D-SSIM损失（标准3DGS损失），权重\(\lambda\)平衡
\(\mathcal{L}_{\text{hdr}}\)：\(\mu\)-law域下的L2损失，对HDR值做对数压缩后计算
\(\mathcal{L}_{\text{h2l}}\)：与\(\mathcal{L}_{\text{ldr}}\)同样形式，但作用在H2L-CC输出上

Mono-HDR-NeRF实例化（集成NeRF时）：三个损失均使用MSE。

超参数：\(\alpha=0.6\)，\(\beta=0.01\)（NeRF）/\(0.05\)（3DGS）；L2H-CC学习率\(5 \times 10^{-4}\)，H2L-CC学习率\(1 \times 10^{-3}\)。

关键：在纯单曝光设定下\(\alpha=0\)（无HDR真值），此时H2L-CC的闭环设计成为唯一额外监督信号。

实验关键数据¶

主实验¶

数据集：8个合成场景（Blender）+ 4个真实场景。每个场景35张图，5个曝光时间。单曝光设定下随机选1个曝光训练。评估指标：PSNR↑ / SSIM↑ / LPIPS↓。

合成数据集结果（LDR + HDR NVS）：

方法	速度(fps)	LDR-PSNR↑	LDR-SSIM↑	LDR-LPIPS↓	HDR-PSNR↑	HDR-SSIM↑	HDR-LPIPS↓
HDR-NeRF	0.26	30.62	0.658	0.285	13.76	0.511	0.443
Mono-HDR-NeRF	0.26	38.78	0.936	0.048	32.86	0.940	0.068
HDR-GS	147.45	39.48	0.977	0.018	35.30	0.965	0.030
Mono-HDR-GS	136.97	41.68	0.983	0.009	38.57	0.975	0.012

真实数据集结果（LDR NVS，无HDR真值）：

方法	PSNR↑	SSIM↑	LPIPS↓
HDR-NeRF	32.50	0.948	0.069
Mono-HDR-NeRF	32.52	0.948	0.069
HDR-GS	35.34	0.966	0.019
Mono-HDR-GS	35.81	0.967	0.017

消融实验¶

模块设计消融（合成数据，HDR NVS指标）：

配置	HDR-PSNR	HDR-SSIM	HDR-LPIPS	说明
L2H-CC→MLP替换	19.02	0.778	0.327	L2H-CC是核心，替换后大幅下降
H2L-CC→MLP替换	38.43	0.974	0.015	略有下降，闭环设计有正面作用
完整模型	38.57	0.975	0.012	-

损失组合消融（合成数据，HDR NVS指标）：

配置	HDR-PSNR	HDR-SSIM	HDR-LPIPS	说明
仅\(\mathcal{L}_{\text{ldr}}\)	-	-	-	无法训练
仅\(\mathcal{L}_{\text{hdr}}\)	33.93	0.925	0.050	基础可用
\(\mathcal{L}_{\text{ldr}}+\mathcal{L}_{\text{hdr}}\)	38.19	0.974	0.015	LDR提供几何正则化
全部三个损失	38.57	0.975	0.012	闭环贡献+0.38dB

关键发现¶

HDR-NeRF在单曝光下几乎失效：HDR PSNR仅13.76dB（趋近全黑/全白输出），证明多曝光方法无法直接迁移到单曝光设定
Mono-HDR-NeRF vs HDR-NeRF：HDR PSNR提升+19.1dB（13.76→32.86），为巨大的质量飞跃
Mono-HDR-GS vs HDR-GS：HDR PSNR提升+3.27dB（35.30→38.57），在已经很强的基线上仍有显著提升
效率无损：Mono-HDR-GS的推理速度（136.97fps）与HDR-GS（147.45fps）基本持平
LDR/HDR比例鲁棒性：即使LDR:HDR=5:1，Mono-HDR-GS仍保留92.6%的峰值PSNR

亮点与洞察¶

问题定义巧妙：首次将单曝光HDR-NVS作为独立问题提出，降低了数据采集要求同时消除了多曝光固有缺陷
物理驱动的网络设计：L2H-CC和H2L-CC的结构直接从相机成像公式推导而来，每个网络分支对应一个物理项，这比黑盒MLP显著更有效（消融证实MLP替换L2H-CC后PSNR暴降19dB+）
闭环自监督思想：H2L-CC闭环设计使得仅用LDR图像也能间接监督HDR空间学习，是一种优雅的无标签学习策略
元算法设计：作为即插即用模块可以集成到任意NVS backbone中，已验证NeRF和3DGS两种实例化

局限与展望¶

真实场景提升有限：在真实数据上LDR NVS指标提升微弱（PSNR仅+0.47dB），说明方法在复杂真实光照条件下优势缩小
单曝光信息天花板：严重过曝/欠曝区域的信息本质上已丢失，仅靠网络学习难以真正恢复
评估局限：合成数据的HDR真值来自渲染器，可能与真实HDR有分布差异
未探索视频/动态场景：框架目前仅处理静态场景的多视角图像
可扩展到更多backbone：论文仅验证了NeRF和3DGS，可考虑集成到Instant-NGP、Zip-NeRF等更高效模型

评分¶

维度	分数 (1-5)	说明
新颖性	4.5	首次提出单曝光HDR-NVS问题，物理驱动闭环设计新颖
技术深度	4.0	公式推导严谨，模块设计有物理依据
实验充分度	4.0	合成+真实数据，多角度消融，但真实场景实验偏弱
实用性	4.5	即插即用元算法，大幅降低数据采集要求
写作质量	4.0	结构清晰，动机阐述充分
总分	4.2	问题定义有价值，方法设计优雅，实验有说服力