Gain-MLP: Improving HDR Gain Map Encoding via a Lightweight MLP¶

会议: ICCV 2025
arXiv: 2503.11883
代码: 无（论文提及接收后公开）
领域: 模型压缩
关键词: HDR Gain Map, MLP, Implicit Neural Representation, Image Compression, Tone Mapping

一句话总结¶

提出使用 10KB 轻量级 MLP 网络替代传统 JPEG/HEIC 压缩来编码 HDR gain map，以 SDR 图像的颜色和位置坐标 (r,g,b,x,y) 作为输入，结合指数残差编码（gamma map），在多个 HDR 重建指标上超越现有方法和传统压缩技术。

研究背景与动机¶

现代显示器（智能手机、平板）已普遍支持高动态范围（HDR）内容，现代相机也能原生捕获 HDR 图像。但为了与现有 SDR 工作流和传统显示器兼容，大部分图像仍以 SDR 格式（如 8-bit JPEG/sRGB）分发。为同时支持 SDR 和 HDR 设备，Apple EDR、Android UltraHDR、Samsung SuperHDR、Adobe gain map specification 和 ISO 21496 等新编码格式正在兴起——核心思路是在 SDR 图像中存储一个像素级增益图（gain map）作为元数据。当 HDR 显示器可用时，将 gain map 应用于 SDR 图像即可恢复 HDR 版本。

然而现有的 gain map 编码存在固有缺陷：gain map 需要被下采样到 1/4 分辨率、量化为 8-bit、再用 JPEG/HEIC/JPEG-XL 压缩。这一系列步骤不可避免地引入压缩伪影——带状噪声（banding）、光晕效应（haloing）、块效应（blocking）以及高频细节丢失。提高压缩质量虽可减少伪影，但会增大文件大小。

本文的核心洞察有两个：(1) 隐式神经表示（INR）作为连续函数逼近可以避免传统量化带来的问题；(2) MLP 不需要从零开始编码整个图像——它只需要编码一个空间变化的 RGB 变换（即 gain map），而 SDR 图像提供了大量先验信息。这使得 MLP 可以做得极其轻量（10KB）且训练极快（4秒/图像）。

方法详解¶

整体框架¶

给定 SDR 图像 \(S\) 和 HDR 图像 \(H\)，传统方法计算 gain map \(f(x,y) = (H+\epsilon)/(S+\epsilon)\)，然后 log 归一化、量化、下采样、JPEG 压缩。解码时反向操作恢复 \(H' = (S+\epsilon) \odot f'(x,y) - \epsilon\)。本文用 MLP 替代传统压缩步骤，输入 SDR 图像的 \((x,y,r,g,b)\)，直接预测对应的 gain map 值。

关键设计¶

指数残差编码（Exponential Residual / Gamma Map）:
- 功能：将乘法残差（gain map）替换为指数残差（gamma map）
- 核心思路：传统 gain map 用乘法关系：\(f(x,y) = (H+\epsilon)/(S+\epsilon)\)，解码为 \(H' = (S+\epsilon) \odot f'(x,y) - \epsilon\)。指数残差改为：\(f(x,y) = \log(H+\epsilon)/\log(S+\epsilon)\)，解码为 \(H' = (S+\epsilon)^{f'(x,y)} - \epsilon\)
- 设计动机：指数残差更接近色调映射操作的本质——色调映射通常是非线性的幂函数变换。指数残差相当于一个更准确的预测编码近似，减少了 MLP 需要学习的残差复杂度。实验证明 Gamma-MLP 在所有比特率下都比 Gain-MLP 表现更好且更稳定
轻量级 MLP 架构:
- 功能：用极小的 MLP 编码 gain/gamma map
- 核心思路：5 维输入 \((x,y,r,g,b)\) → 每维 24 维正弦嵌入 → 120 维输入 → 两层 ReLU MLP（每层 16 神经元）→ 3 通道输出（RGB gain/gamma 值）。最终模型大小仅 10KB
- 训练配置：batch size 65,536 随机采样像素，MSE 损失，Adam 优化器（lr=1e-2），1000 迭代，约 4 秒/图像（RTX 6000）
- 设计动机：MLP 不是从 \((x,y)\) 预测 \((r,g,b)\)（那样很慢），而是利用 SDR 图像的颜色作为强先验输入，因为 SDR 颜色与 gain map 高度相关。这使得训练极快，且模型可以极小
色度噪声元初始化（Chromatic Noise Meta-Initialization）:
- 功能：为 MLP 提供更好的权重初始化
- 核心思路：使用 Daly 等人提出的时空色度自然图像统计模型生成 50 张色度噪声图像，这些图像覆盖 Rec. 2020 色域，其 BT.709 SDR 对应版本用 DaVinci Resolve 默认色调映射处理。在这些合成数据上预训练 MLP 10,000 迭代获得元初始化权重
- 设计动机：与用自然图像做元初始化不同，色度噪声图像保留了自然图像的统计特性（空间和色度相关性），同时避免了特定内容的偏差。这加速了后续单图优化的收敛并提高重建质量

损失函数 / 训练策略¶

损失：MSE loss，\(\mathcal{L} = \|f'(x,y) - f(x,y)\|_2^2\)，其中 \(f\) 是真值 gain/gamma map，\(f'\) 是 MLP 预测
元初始化后，每张图像单独微调 MLP（即 per-image optimization），1000 迭代即收敛
推理时：在所有像素坐标查询 MLP 得到完整 gain map，再应用到 SDR 图像恢复 HDR

实验关键数据¶

主实验¶

方法	PSNR↑	ΔE₀₀↓	SSIM↑	ΔE_IPT↓	HDR-VDP3↑	大小(KB)
Gain-JPEG	38.29	2.16	0.968	9.63	7.92	19.0
Gamma-JPEG	41.45	1.37	0.979	7.12	8.62	19.4
Gain-HEIC	39.20	1.98	0.972	8.71	8.14	18.4
Gamma-HEIC	42.21	1.27	0.982	6.57	8.75	18.2
Direct-MLP [Le]	46.30	0.96	0.988	4.66	9.06	10
MLP-ITM [Liu]	47.25	0.87	0.991	4.28	9.13	34
Gain-MLP (ours)	47.60	1.02	0.992	4.27	8.98	10
Gamma-MLP (ours)	48.53	0.78	0.993	3.91	9.11	10

消融实验（Rate-Distortion 性能，不同 MLP 大小和编码方式）¶

配置	PSNR 趋势	说明
Gamma-MLP, 8 neurons	最低比特率下仍优于 JPEG/HEIC 全分辨率	极低容量下指数残差优势最大
Gamma-MLP, 16 neurons (默认)	全范围最优	最佳性能/大小平衡
Gamma-MLP, 64 neurons	略升但边际递减	网络容量过大时收益有限
Gamma-MLP, 128 neurons	接近饱和	4 秒优化时间不变
Gain-MLP vs Gamma-MLP	Gamma 在所有比特率上领先	指数残差一致优于乘法残差
Gain-MLP vs Direct-MLP	Gain-MLP 在低比特率优势更大	base-residual 范式惠及 MLP
JPEG 1/8→full 分辨率	接近 Gamma-MLP 16n 但仍不及	传统方法需要大幅增加比特率

关键发现¶

Gamma-MLP 以 10KB 大小获得 PSNR 48.53dB，超越 34KB 的 MLP-ITM 方法（47.25dB），且大小仅为其 29%
指数残差编码（gamma map）在传统压缩和 MLP 编码中都一致优于乘法残差（gain map），验证了其作为预测编码近似的有效性
MLP 方法的核心优势是固定内存占用（10KB），无需根据图像大小或编码参数调整
定性分析显示传统方法的 banding/haloing/blocking 伪影在 MLP 方法中大幅减少，gamma map 进一步改善

亮点与洞察¶

问题选取精准：不做通用图像压缩（那需要大 MLP 和长时间优化），而是利用 SDR 图像作为强先验只编码变换残差，使问题变得极其轻量
10KB 固定开销：与传统方法（大小随图像分辨率和质量参数变化）不同，MLP 大小完全固定，非常适合嵌入式元数据场景
指数残差的理论洞察：将 gain map 问题重新框架为幂函数参数编码，找到了问题的更自然表示
色度噪声初始化的巧妙性：用符合自然图像统计的合成数据做元初始化，避免内容偏差

局限与展望¶

MLP 优化仍需 4 秒/图像，对实时应用仍有延迟
对于存在大量裁剪信息的 SDR tone mapping，MLP 重建能力有限——因为这些信息已经不可逆丢失
未处理不同分辨率图像的自适应比特率分配——不同分辨率可能需要不同大小的 MLP
仅在 HD (1920×1080) 和 UHD (3840×2160) 图像上验证，更高分辨率的扩展性未知
解码端需要 MLP 前向传播（虽然很快），与纯解码相比仍有额外计算

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐