Object-Aware NIR-to-Visible Translation¶
会议: ECCV 2024
arXiv: N/A
代码: https://github.com/Yiiclass/Sherry
领域: 图像翻译 / 低层视觉
关键词: 近红外图像翻译, 图像分解, 语义分割先验, 反射率估计, 配对数据集
一句话总结¶
本文提出一种对象感知的近红外(NIR)到可见光图像翻译框架,通过将可见光图像分解为与对象无关的光照分量和对象特定的反射分量分别处理,结合分割先验知识,在缺乏大规模配对数据的条件下实现了高质量的NIR彩色化,并构建了首个完全对齐的NIR-可见光大规模配对数据集。
研究背景与动机¶
领域现状:近红外(NIR)成像在辅助驾驶、安防监控等场景中广泛应用,因为NIR在夜间和低光照条件下仍能获取清晰图像。然而NIR图像是单色的(灰度),缺乏颜色信息,限制了其在需要颜色识别的下游任务中的应用。NIR-to-Visible翻译旨在将单色NIR图像转换为自然的彩色可见光图像。
现有痛点:现有的图像翻译方法(如Pix2Pix、CycleGAN等)在NIR-to-Visible任务上存在两个关键困难:(1) NIR与可见光的成像差异被忽视——NIR波段的材料反射率与可见光波段截然不同(如植被在NIR下高亮、在可见光下暗绿),简单的端到端翻译难以学到这种复杂的多对多映射关系;(2) 缺乏高质量配对训练数据——由于NIR和可见光相机的视角差异和时间同步问题,现有数据集要么未对齐、要么规模小、要么场景单一。
核心矛盾:NIR图像中一个像素值可能对应可见光下多种颜色(因为NIR反射率不区分可见光颜色),这是一个严重的一对多歧义问题。而且,光照条件的变化使得这种映射更加复杂——同一场景在不同光照下的可见光外观完全不同,但NIR外观相对稳定。
本文目标 (1) 如何解决NIR到可见光映射中的颜色歧义问题;(2) 如何让模型在不同光照条件下都能产生合理的翻译结果;(3) 如何获取高质量的完全对齐配对数据。
切入角度:作者借鉴内蕴图像分解(Intrinsic Image Decomposition)的思想——可见光图像可以分解为光照(illumination/luminance)和反射率(reflectance)两个分量。光照分量与对象材质无关(取决于光源和几何),而反射率分量编码了对象的固有颜色和材质属性。NIR图像与可见光图像的光照分量有较强相关性,而反射率分量的差异才是颜色歧义的核心来源。因此,分别处理这两个分量可以降低翻译难度。
核心 idea:将可见光图像分解为光照和反射率分量分别翻译,并利用语义分割先验为反射率估计提供对象级别的指导。
方法详解¶
整体框架¶
输入是NIR灰度图像,输出是对应的RGB可见光图像。整个pipeline分为三个分支:(1) 光照估计分支——从NIR图像估计光照分量(光照方向、强度分布),这部分与对象类别无关;(2) 语义感知反射率估计分支——利用预训练的语义分割模型提供对象类别先验,为不同类别的区域预测恰当的可见光反射率/颜色;(3) 融合重建分支——将估计的光照和反射率组合生成最终的彩色可见光图像。
关键设计¶
-
光照-反射率分解架构:
- 功能:将NIR-to-Visible翻译任务解耦为两个更简单的子任务
- 核心思路:受Retinex理论启发,假设可见光图像 \(I_{vis} = L \times R\),其中 \(L\) 是光照分量、\(R\) 是反射率分量。光照分量 \(L\) 主要编码场景的几何和光源信息,在NIR和可见光之间具有较好的一致性(因为光照的空间分布不随波段剧烈变化)。因此光照估计网络直接从NIR图像回归光照图。反射率分量 \(R\) 编码材质的颜色信息,是翻译的核心难点——一个灰度NIR像素需要被赋予RGB反射率。为此设计了独立的反射率估计网络
- 设计动机:将一个复杂的多对多映射分解为两个相对简单的映射,降低学习难度。光照分量的估计相对容易(低频、波段间相关性强),通过分解使得网络只需要集中精力解决反射率估计这个真正困难的部分
-
语义分割引导的反射率估计:
- 功能:利用对象级语义信息消解颜色歧义
- 核心思路:引入预训练的语义分割模型(如SegFormer)对NIR图像进行语义分割,获取每个像素所属的对象类别(天空、植被、建筑、道路、车辆等)。分割特征通过多尺度的特征注入方式融入反射率估计网络。关键洞察是:同一语义类别的对象在可见光下倾向于有相似的颜色分布(如天空通常是蓝色、植被是绿色、建筑是灰/棕色)。语义标签作为强先验约束,大幅缩小了反射率预测的搜索空间
- 设计动机:纯粹从NIR像素值推断可见光颜色是病态问题,但加入"这个区域是植被"的语义信息后,颜色预测就变得有据可依。分割先验提供了"什么颜色是合理的"这一关键约束条件
-
Fully Aligned NIR-Visible Dataset (FANVID):
- 功能:提供高质量的完全对齐NIR-可见光配对训练数据
- 核心思路:作者设计了一个多传感器同轴相机系统,NIR传感器和RGB传感器共享同一光学轴,通过分束器(beam splitter)实现完全同视角、同时刻的双模态采集。这从物理上消除了视角差异和时间错位问题。数据集覆盖多种场景(城市、郊区、室内、室外)和光照条件(白天、傍晚、夜间),包含数万对精确对齐的NIR-RGB图像对
- 设计动机:现有数据集的对齐质量差是限制NIR翻译研究的瓶颈。通过硬件级别的同轴设计,从根本上解决了数据对齐问题,为训练和评估提供了可靠的基准
损失函数 / 训练策略¶
总损失函数由多项组成:(1) 像素级重建损失 \(\mathcal{L}_{pixel} = \|I_{pred} - I_{gt}\|_1\),监督最终输出;(2) 感知损失 \(\mathcal{L}_{perceptual}\),使用VGG特征匹配提升视觉质量;(3) 光照一致性损失 \(\mathcal{L}_{illum}\),约束估计的光照分量与ground truth光照一致;(4) 反射率平滑损失 \(\mathcal{L}_{smooth}\),鼓励同一语义区域内的反射率一致;(5) 可选的GAN损失 \(\mathcal{L}_{GAN}\),增强生成图像的真实感。训练时先热身光照和反射率分支,再进行联合微调。
实验关键数据¶
主实验¶
| 方法 | FANVID-PSNR↑ | FANVID-SSIM↑ | FANVID-FID↓ | EPFL-FID↓ |
|---|---|---|---|---|
| 本文(Object-Aware) | 25.8 | 0.872 | 38.2 | 42.5 |
| Pix2Pix | 22.1 | 0.801 | 68.4 | 78.3 |
| CycleGAN | 20.5 | 0.762 | 82.1 | 89.7 |
| TSIT | 23.4 | 0.835 | 51.6 | 58.2 |
| CUT | 21.8 | 0.811 | 62.3 | 71.0 |
| Palette | 24.2 | 0.851 | 45.7 | 52.8 |
消融实验¶
| 配置 | PSNR↑ | SSIM↑ | FID↓ | 说明 |
|---|---|---|---|---|
| Full model | 25.8 | 0.872 | 38.2 | 完整模型 |
| w/o 分解 | 23.6 | 0.838 | 49.5 | 不做光照-反射率分解,直接翻译 |
| w/o 语义分割 | 24.1 | 0.849 | 44.8 | 去掉分割先验 |
| w/o 光照分支 | 24.5 | 0.855 | 43.1 | 只用反射率估计 |
| w/o 感知损失 | 25.0 | 0.862 | 41.6 | 去掉VGG感知损失 |
| 用DeepLabV3替代SegFormer | 25.3 | 0.866 | 40.1 | 分割模型选择的影响 |
关键发现¶
- 光照-反射率分解是最关键的设计,去掉后PSNR下降2.2dB,说明分解确实降低了翻译难度
- 语义分割先验带来1.7dB的PSNR提升,在植被和天空等颜色歧义严重的区域提升尤为显著
- 分割模型的选择影响不大(SegFormer vs DeepLabV3差距0.5dB),说明方法对分割质量有一定鲁棒性
- 在夜间场景下本文方法的优势更明显,因为极端光照下光照-反射率分解的价值更大
- FANVID数据集上所有方法的表现都优于现有非对齐数据集,验证了高质量配对数据的重要性
亮点与洞察¶
- 物理启发的任务分解:借鉴Retinex理论将翻译任务分解为光照+反射率,这是一种非常优雅的问题简化方式。巧妙之处在于NIR和可见光在光照分量上天然相关,使得光照估计变得容易,只需集中解决反射率映射
- 语义先验作为颜色约束:利用分割信息提供"哪种颜色合理"的先验,将一对多的病态映射缩小为半确定的映射。这个思路可以推广到其他图像翻译任务(如灰度图彩色化、跨域风格迁移)
- 同轴采集系统的数据集贡献:从硬件层面解决数据对齐问题,这不仅为本文方法提供训练数据,也为整个NIR翻译社区提供了基准。硬件投入虽大,但一劳永逸
局限与展望¶
- 语义分割的质量瓶颈:在NIR图像上进行语义分割本身就有挑战(因为NIR与RGB的外观差异),分割错误会传播到颜色预测中
- 颜色多样性受限:同一语义类别的对象在现实中可以有多种颜色(如车辆可以是红/蓝/白/黑),当前方法倾向于预测该类别的"平均"颜色,缺乏多样性
- Retinex分解的简化假设:实际图像不严格满足 \(I = L \times R\) 的假设(存在互反射、半透明材料等),分解误差会影响最终质量
- 泛化性:模型在FANVID训练集的场景分布上可能过拟合,迁移到完全不同的场景(如工业、医疗)时效果未验证
- 改进方向:可以探索扩散模型进行条件生成,天然支持颜色多样性;引入自监督或对比学习策略减少对配对数据的依赖
相关工作与启发¶
- vs Pix2Pix: Pix2Pix是经典的配对图像翻译方法,但直接端到端翻译忽略了NIR-Visible的物理差异,本文通过分解架构明确建模这种差异
- vs CycleGAN: CycleGAN不需要配对数据但生成质量受限于循环一致性的间接监督,本文得益于FANVID高质量配对数据可以进行强监督
- vs Palette(扩散模型方法): 扩散模型有更强的生成能力但计算量大且缺乏物理解释性,本文方法更轻量且有清晰的物理动机
评分¶
- 新颖性: ⭐⭐⭐⭐ Retinex分解+语义先验用于NIR翻译较新颖,同轴数据集有独特贡献
- 实验充分度: ⭐⭐⭐⭐ 多数据集对比,充分的消融,定性结果丰富
- 写作质量: ⭐⭐⭐⭐ 动机阐述清楚,物理假设解释充分
- 价值: ⭐⭐⭐⭐ FANVID数据集对社区有较大价值,方法思路可推广到其他跨模态翻译
相关论文¶
- [ECCV 2024] Shifted Autoencoders for Point Annotation Restoration in Object Counting
- [ACL 2025] Towards Style Alignment in Cross-Cultural Translation
- [ECCV 2024] Spatio-Temporal Proximity-Aware Dual-Path Model for Panoramic Activity Recognition
- [ICCV 2025] Jigsaw++: Imagining Complete Shape Priors for Object Reassembly
- [ACL 2025] Using Source-Side Confidence Estimation for Reliable Translation into Unfamiliar Languages