LEDiff: Latent Exposure Diffusion for HDR Generation¶
会议: CVPR 2025
arXiv: 2412.14456
代码: https://lediff.mpi-inf.mpg.de/ (项目页)
领域: 图像生成
关键词: 高动态范围成像, 潜空间曝光融合, 扩散模型, 逆色调映射, HDR生成
一句话总结¶
提出LEDiff,通过在预训练扩散模型的潜空间中进行曝光融合(而非图像空间),用少量HDR数据微调VAE解码器和去噪器,让现有生成模型具备HDR生成能力,同时实现SOTA级别的LDR到HDR转换。
研究背景与动机¶
- 领域现状:消费级显示器越来越多地支持超过10档动态范围的HDR显示,但绝大多数图像资源(网络照片、AI生成内容)仍限于8-bit LDR。现有生成模型(如Stable Diffusion)只能输出LDR图像。
- 现有痛点:传统HDR重建方法要么需要多曝光输入(场景对齐困难),要么通过逆色调映射(ITM)从单张LDR恢复,但现有ITM方法在裁剪区域的细节生成质量差,尤其是阴影区域几乎没有处理能力。GlowGAN虽然首次尝试了GAN的HDR生成,但受限于类别特定训练。
- 核心矛盾:预训练扩散模型的VAE和UNet都只在LDR数据上训练——VAE无法表示HDR动态范围,UNet生成的潜码只编码LDR内容。直接在HDR数据上微调整个模型需要大量HDR数据且会破坏预训练先验。
- 本文目标 (a) 让预训练扩散模型生成HDR内容;(b) 将任意LDR图像转换为HDR。
- 切入角度:观察发现扩散模型的潜空间与图像空间在裁剪和像素强度方面高度相关——图像空间中被裁剪的像素在潜空间中也被裁剪。因此可以在潜空间中进行曝光融合来消除裁剪。
- 核心 idea:保持预训练潜空间不变,训练高亮/阴影生成器在潜空间中生成多曝光"latent bracket",用可学习融合模块合并后通过微调解码器重建HDR图像。
方法详解¶
整体框架¶
输入为单张LDR图像(或扩散模型生成的潜码)。流程:(1) 用预训练编码器获得潜码 \(C_+\);(2) 用高亮去噪器 \(\epsilon_{\theta_-}\) 生成低曝光潜码 \(C_0, C_-\)(恢复高光细节);(3) 用阴影去噪器 \(\epsilon_{\theta_+}\) 生成高曝光潜码(恢复阴影细节);(4) 用可学习融合模块 \(\mathcal{F}\) 将三个潜码合并为无裁剪潜码 \(C_{\text{merge}}\);(5) 用微调的HDR解码器解码为线性HDR图像。
关键设计¶
-
潜空间曝光融合 (Latent Exposure Fusion):
- 功能:在不破坏预训练潜空间的前提下,将多曝光LDR潜码无裁剪地融合
- 核心思路:从HDR图像模拟生成三档曝光的LDR图像 \(I_-, I_0, I_+\)(通过随机采样CRF引入非线性),用预训练编码器得到对应潜码 \(C_-, C_0, C_+\)。融合模块 \(\mathcal{F}\) 对每个潜码通过depth-wise卷积生成权重图,经softmax归一化后加权合并。输出 \(C_{\text{merge}}\) 通过微调解码器在log空间重建HDR图像,训练损失为重建损失+GAN损失。
- 设计动机:类比图像空间的曝光融合技术(如Mertens方法),但在潜空间执行。好处是完全保留了预训练模型学到的生成先验——潜码生成由预训练模型完成,仅融合和解码需要HDR数据训练。
-
高亮/阴影潜码生成器 (Highlight & Shadow Generators):
- 功能:从单曝光潜码生成不同曝光水平的潜码,幻想被裁剪区域的细节
- 核心思路:基于预训练Stable Diffusion的去噪器微调。以高曝光潜码 \(C_+\) 作为条件(通道拼接),训练 \(\epsilon_{\theta_-}\) 生成低曝光潜码 \(C_0\) 和 \(C_-\)(恢复高光)。同理训练 \(\epsilon_{\theta_+}\) 处理阴影。第一层卷积修改通道数以接受拼接输入,其余网络用预训练权重初始化。使用标准扩散去噪损失训练。
- 设计动机:利用预训练扩散模型的强大生成能力(类似于inpainting)来幻想被裁剪区域的内容。分开训练高光和阴影生成器避免了一个模型同时处理两个方向的困难。
-
HDR解码器微调:
- 功能:将无裁剪的融合潜码解码为线性HDR图像
- 核心思路:在原始VAE解码器架构上微调,训练目标在log空间比较预测HDR和真实HDR。使用36000张HDR图像训练,学习率1e-6,200K步。解码器同时学习了两件事:动态范围扩展和线性化。
- 设计动机:原始VAE解码器只能输出gamma校正的LDR图像。微调解码器使其能输出线性、高动态范围的像素值,是将潜空间中恢复的信息正确映射到HDR域的关键步骤。
损失函数 / 训练策略¶
融合模块+解码器:重建损失(L1 + perceptual) + GAN损失。去噪器:标准扩散去噪损失(MSE)。解码器200K步(lr=1e-6),去噪器400K步(lr=1e-5),均用Adam优化器。HDR数据集共36000张,来自多个HDR数据源。
实验关键数据¶
主实验(LDR到HDR重建 - 高光区域)¶
| 方法 | HDR-VDP3↑ | PU21-PIQE↓ | FID-R↓ | FID-D↓ | FID-L↓ |
|---|---|---|---|---|---|
| HDRCNN | 6.90 | 49.43 | 13.39 | 16.95 | 16.67 |
| MaskHDR | 6.47 | 49.38 | 12.83 | 13.85 | 15.21 |
| SingleHDR | 6.13 | 49.74 | 28.68 | 34.53 | 29.50 |
| ExpandNet | 5.23 | 52.53 | 18.85 | 25.49 | 21.34 |
| LEDiff | 6.16 | 48.46 | 12.70 | 13.08 | 13.73 |
消融实验¶
| 配置 | HDR-VDP3↑ | PU21-PIQE↓ | 说明 |
|---|---|---|---|
| w/o VAE解码器微调 | 4.67 | 48.60 | 有幻想但无动态范围扩展 |
| w/o 去噪器微调 | 5.59 | 50.25 | 有动态范围但无细节幻想 |
| 用SD inpainting替代 | 3.65 | 50.18 | 不规则mask效果差 |
| 完整LEDiff | 6.16 | 48.46 | 两个组件缺一不可 |
关键发现¶
- VAE解码器和去噪器缺一不可:解码器负责动态范围扩展和线性化,去噪器负责裁剪区域的细节幻想——两者功能互补。
- 用户研究大获全胜:在1200次配对比较中,LEDiff的偏好率分别为84.19%(vs HDRCNN)、88.22%(vs MaskHDR)、89.40%(vs SingleHDR)、94.52%(vs ExpandNet)。
- 阴影处理是差异化优势:现有方法几乎不处理阴影区域,LEDiff是首个同时处理高光和阴影的生成式方法。
- 即插即用特性:LEDiff不关心潜码如何生成,因此可无缝集成到任何基于SD的生成管线(全景图、视频等)。
亮点与洞察¶
- 潜空间与图像空间的裁剪相关性发现:这个关键观察使得在潜空间进行曝光融合成为可能——是一个简单但极有洞察力的发现。
- 最小化对预训练模型的干扰:通过保持预训练潜空间不变,仅微调解码器和条件去噪器,用36K HDR图像就实现了HDR生成——这种"改造不重建"的思路值得借鉴。
- 潜在应用广泛:HDR全景生成可直接用于IBL(基于图像的照明),HDR视频生成、DoF(景深)渲染效果都需要线性HDR数据——LEDiff打开了很多应用场景。
局限与展望¶
- 继承了Stable Diffusion的生成局限性(分辨率、内容偏见)
- 未考虑输入LDR图像中的压缩伪影(如JPEG ringing/blocking)和噪声
- HDR训练数据仅36K张,规模增大可能进一步提升质量
- 当前使用三档曝光bracket,更多档位可能在极端动态范围场景中有帮助
相关工作与启发¶
- vs GlowGAN: GlowGAN通过GAN建模HDR-LDR关系,但受限于类别特定训练;LEDiff利用预训练扩散模型的泛化能力,不受类别限制
- vs Exposure Diffusion (Bemana et al.): 同期工作也用扩散模型生曝光bracket,但在图像空间融合并需要估计曝光参数;LEDiff在潜空间融合,省去了CRF和曝光参数估计
- vs HDRCNN/MaskHDR: 这些方法用CNN直接预测HDR,在高光区域有效但完全忽略阴影;LEDiff双向处理,在两个方向上都有细节幻想能力
评分¶
- 新颖性: ⭐⭐⭐⭐ 潜空间曝光融合的想法简洁优雅
- 实验充分度: ⭐⭐⭐⭐ 定量+用户研究+消融+多应用场景展示
- 写作质量: ⭐⭐⭐⭐⭐ 图表精美,逻辑严谨,观察→方法→实验的推导链非常清晰
- 价值: ⭐⭐⭐⭐ 为扩散模型赋予HDR能力,实际应用价值高
相关论文¶
- [CVPR 2025] UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion
- [CVPR 2025] Probability Density Geodesics in Image Diffusion Latent Space
- [CVPR 2025] Enhancing Dance-to-Music Generation via Negative Conditioning Latent Diffusion Model
- [ICCV 2025] DIA: The Adversarial Exposure of Deterministic Inversion in Diffusion Models
- [CVPR 2025] Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models