Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos¶

会议: ICLR 2026
arXiv: 2510.18489
代码: https://liujf1226.github.io/Mono4DGS-HDR
领域: 3D视觉 / HDR重建
关键词: 4D Gaussian Splatting, HDR, monocular video, alternating exposure, dynamic scene

一句话总结¶

首次解决从无位姿交替曝光单目视频重建可渲染 4D HDR 场景的问题，通过两阶段优化（正交视频空间 → 世界空间）、Video-to-World 高斯变换策略和时间亮度正则化，在合成数据上达到 37.64 dB HDR PSNR、161 FPS，全面超越现有方法。

研究背景与动机¶

领域现状：4D 动态场景重建（尤其基于 3DGS）取得进展，HDR 重建也有方法（GaussHDR, HDR-HexPlane），但两者结合——从单目交替曝光视频做 4D HDR 重建——尚无方法。
现有痛点：(a) 交替曝光导致相邻帧亮度不同，标准光度重投影失败→无法估计相机位姿；(b) 2D 先验（跟踪、深度、光流）在亮度变化帧间噪声大；(c) 现有动态方法（SplineGS, MoSca）设计用于恒定亮度视频，直接加 HDR 头效果差；(d) HDR 方法（GaussHDR）需要已知位姿和多视角。
核心矛盾：亮度交替→位姿估计难→几何不稳定→HDR 外观不一致。一个恶性循环。
切入角度：先在正交相机坐标空间训练"视频高斯"（回避位姿估计），恢复 HDR 训练帧→用恢复的 HDR 帧做光度重投影估计位姿→变换到世界空间联合优化。
核心idea一句话：两阶段解耦——先解 HDR（正交空间），再解位姿和 3D（世界空间），通过 Video-to-World变换桥接两个阶段。

方法详解¶

整体框架¶

交替曝光单目视频 → 预处理（DepthCrafter深度 + SpatialTracker轨迹 + RAFT光流）→ Stage 1: 正交空间训练视频高斯（4K iter），恢复 HDR 训练帧 → Video-to-World 变换：动静分离+位置/旋转/尺度变换 → Stage 2: 世界空间联合优化高斯+位姿（11K iter）→ 输出可渲染的 4D HDR 场景。

关键设计¶

正交空间视频高斯（Stage 1）:
做什么：在正交投影模型下训练全动态高斯，\((x^v, y^v) \in [-1,1]^2\) 为归一化像素坐标，\(z^v\) 为深度
核心思路：用正交投影避开需要相机内外参的透视投影→不需要事先知道位姿
设计动机：交替曝光下位姿估计不可靠，先在"无位姿"空间做 HDR 恢复
Video-to-World 高斯变换:
做什么：将视频空间高斯转换到世界空间，用动态掩码+遮挡检测分离动静
关键创新：2D 协方差不变性缩放重拟合 — 求解世界空间缩放 \(S^w\) 使投影后的 2D 高斯形状与视频空间一致：\(\min_{S^w} \sum_t \|\Sigma'^v_t - \Sigma'^w_t\|_2\)
设计动机：直接继承视频空间缩放到世界空间会导致高斯形状失真
时间亮度正则化（TLR）:
做什么：确保 HDR 外观在时间上一致
核心思路：将相邻帧 HDR 图像通过渲染光流 warp 对齐，用归一化差异惩罚不一致：\(\mathcal{L}_{tlr} = |V \odot \frac{\tilde{H}_{t-1 \to t} - \tilde{H}_t}{\tilde{H}_{t-1 \to t} + \tilde{H}_t}|_1\)
设计动机：交替曝光帧的亮度不同，直接监督无法保证 HDR 域的时间一致性；归一化消除 HDR 辐照度的绝对尺度影响
效果：TLR 主要影响 TAE（时间一致性）而非 PSNR——没有 TLR 时 TAE 从 0.057 恶化到 0.071
HDR 光度重投影损失:
做什么：在 Stage 2 用 Stage 1 恢复的 HDR 帧做光度重投影，联合优化位姿和世界高斯
设计动机：标准光度重投影在交替曝光下失败，但 HDR 域的亮度一致使其可行

损失函数 / 训练策略¶

\(\mathcal{L} = \lambda_{rgb}\mathcal{L}_{rgb} + \lambda_{ue}\mathcal{L}_{ue} + \lambda_{dep}\mathcal{L}_{dep} + \lambda_{track}\mathcal{L}_{track} + \lambda_{arap}\mathcal{L}_{arap} + \lambda_{vel}\mathcal{L}_{vel} + \lambda_{acc}\mathcal{L}_{acc} + \lambda_{tlr}\mathcal{L}_{tlr} + \lambda_{pr}\mathcal{L}_{pr}\)

动态表示：立方 Hermite 样条（位置）+ 立方多项式（旋转）。总训练约 1.5 小时。

实验关键数据¶

主实验¶

方法	Syn-Exp-3 HDR PSNR↑	Syn-Exp-3 TAE↓	FPS↑
GaussHDR†	31.25	0.089	51
HDR-HexPlane†	29.60	0.155	1
MoSca-HDR‡	36.89	0.059	82
Mono4DGS-HDR	37.64	0.057	161

方法	Real-Exp-2 PSNR↑	Real-Exp-2 TAE↓	Real-Exp-3 PSNR↑	Real-Exp-3 TAE↓
MoSca-HDR‡	30.28	0.054	27.23	0.076
Mono4DGS-HDR	31.82	0.046	27.65	0.067

消融实验¶

配置	Syn-Exp-3 HDR PSNR	Syn-Exp-3 TAE
w/o Video Gaussian Init	36.07 (-1.57)	0.057
w/o 遮挡处理	37.22 (-0.42)	0.059
w/o 2D协方差不变性	37.25 (-0.39)	0.057
w/o TLR	37.58 (-0.06)	0.071 (+0.014)
Full Model	37.64	0.057

关键发现¶

Video Gaussian Init 最关键：去掉后 HDR PSNR 降 1.57 dB——两阶段策略是方法的基石
TLR 对时间一致性至关重要：PSNR 影响小（-0.06）但 TAE 恶化 24.6%
FPS 领先：161 FPS，比 MoSca-HDR（82）快约 2 倍
SplineGS/GFlow 等恒定曝光方法直接加 HDR 头效果极差（PSNR 17.59/失败）

亮点与洞察¶

两阶段解耦的智慧：将 HDR 恢复和 3D 重建解耦——先在简单空间（正交/无位姿）解决 HDR，再用 HDR 的好处（一致亮度）反过来帮助 3D 重建（位姿估计）。这种互助策略打破了交替曝光的恶性循环
2D 协方差不变性：从视频空间到世界空间的高斯变换中，保持投影后 2D 形状不变——这个约束简洁但对避免形变至关重要
归一化差异做时间正则化：\(\frac{H_1 - H_2}{H_1 + H_2}\) 消除 HDR 绝对尺度的影响，仅关注相对变化——适用于任何动态范围

局限性 / 可改进方向¶

依赖多个预处理模型（DepthCrafter + SpatialTracker + RAFT），预处理管线复杂且可能引入误差
仅支持 2-3 种交替曝光模式，更复杂的曝光策略（如随机曝光）未探索
训练 1.5 小时仍然较长，不适合实时应用场景
合成数据上 HDR GT 可评估，但真实场景无 HDR GT，只能看 LDR 指标

评分¶

新颖性: ⭐⭐⭐⭐⭐ 开创性地解决了从交替曝光单目视频做 4D HDR 重建的新问题
实验充分度: ⭐⭐⭐⭐⭐ 25 个场景（合成+真实）、多种曝光模式、详尽消融
写作质量: ⭐⭐⭐⭐ 方法复杂但描述清晰，图表丰富
价值: ⭐⭐⭐⭐⭐ 解决了实际HDR视频重建的核心问题，161FPS实时渲染