VT-Intrinsic: Physics-Based Decomposition of Reflectance and Shading using a Single Visible-Thermal Image Pair¶
会议: CVPR 2026
arXiv: 2509.10388
代码: https://vt-intrinsic.github.io
领域: 3D视觉 / 计算摄影
关键词: 内在图像分解, 可见光-热成像, 反射率估计, 光照分解, 序数约束
一句话总结¶
VT-Intrinsic 利用可见光和热红外图像之间的物理互补关系(未反射的光被吸收变为热量),推导出可见光-热成像强度的序数关系(ordinality)直接对应反射率和光照的序数关系,以此为自监督信号驱动神经网络优化,实现了无需预训练数据的高质量内在图像分解。
研究背景与动机¶
-
领域现状:内在图像分解(IID)旨在将图像分解为反射率(albedo)和光照(shading)两个分量。这是计算机视觉和图形学的经典问题。主流方法分为:基于优化的方法(Retinex 等,依赖强先验假设)和基于学习的方法(在合成数据上训练,存在 sim-to-real gap)。
-
现有痛点:
- 获取真实场景的反射率和光照 ground truth 极其困难,需要专用设备和受控程序
- 基于学习的方法受限于合成训练数据,在真实场景中常过度平滑或产生幻觉(diffusion-based 方法尤其严重)
- 优化方法依赖强先验假设(平滑光照、色度不变等),对复杂真实场景泛化差
- 使用 NIR 辅助图像的方法受限于 NIR 反射率仍有显著材料变化,且 LED 照明缺少 NIR 成分
-
核心矛盾:IID 本身是欠约束的逆问题——仅凭单张可见光图像无法唯一确定 albedo 和 shading 的分解。现有方法要么使用不够可靠的先验,要么需要大量标注数据。
-
本文目标 利用一张额外的热红外图像提供物理上有意义的约束,无需预训练数据或受控照明即可实现高质量 IID。
-
切入角度:一个关键物理洞察——对于不透明物体,入射光中未被反射的部分被吸收为热量。因此低反射率区域在可见光中较暗,但在热图中较亮(吸收更多热量);而光照变化在两者中同向变化。这种"序数关系"可以直接区分反射率边缘和光照边缘。
-
核心 idea:利用可见光和热红外图像的强度序数关系(同向=光照主导,反向=反射率主导)作为密集自监督信号来分解反射率和光照。
方法详解¶
整体框架¶
输入为一对对齐的可见光图像 \(I_v\) 和热红外图像 \(I_t\)。通过物理推导建立两种序数约束——局部(边缘)约束和非局部(点对)约束。这些约束与重建损失共同驱动 Double Deep Image Prior(DDIP)网络优化,输出 3 通道 albedo \(\hat{\rho}\) 和单通道 shading \(\hat{\eta}\)。整个过程无需预训练或外部数据。
关键设计¶
-
可见光-热成像序数理论:
- 功能:从物理第一性原理推导出可用于区分反射率和光照变化的约束
- 核心思路:Lambertian 场景中,可见光强度 \(I_v = g\rho\eta\),吸收热量 \(\mathcal{H} = (1-\rho)\eta\)。对于两个像素 \(x_i, x_j\):若 \(I_v(x_i) > I_v(x_j)\) 且 \(I_t(x_i) > I_t(x_j)\)(同向),则 \(\eta(x_i) > \eta(x_j)\)(光照主导);若 \(I_v(x_i) > I_v(x_j)\) 且 \(I_t(x_i) < I_t(x_j)\)(反向),则 \(\rho(x_i) > \rho(x_j)\)(反射率主导)。关键过渡:热图 \(I_t\) 在热平衡条件下是吸收热量 \(\mathcal{H}\) 的单调代理(忽略导热项后 \(\mathcal{H} = c_1 I_t - c_3\))
- 设计动机:这是本文最核心的理论贡献——将 albedo/shading 的不可观测序数关系转化为可直接从图像测量的可见光/热红外序数关系
-
对宽带光源的扩展:
- 功能:将理论从纯可见光光源扩展到含红外成分的光源(如日光、白炽灯)
- 核心思路:当光源含不可见成分时,热源变为 \(\mathcal{H} = (\beta - \rho_v)\eta\),其中 \(\beta = 1 + (1-\rho_i)l_i/l_v\)。关键假设:红外波段的反射率 \(\rho_i\) 在局部区域近似恒定(因为红外反射率的材料间变化远小于可见光)。在此假设下 \(\beta\) 为局部常数,序数关系仍然成立
- 设计动机:作者通过 USGS 光谱反射率数据库的 427 种材料统计验证,94.2% 的材料对满足序数一致性
-
局部(边缘)损失:
- 功能:利用可见光和热图的梯度方向关系分类边缘为 albedo 边缘或 shading 边缘
- 核心思路:计算 \(\nabla I_v\) 和 \(\nabla I_t\) 的余弦相似度——若梯度反向(余弦 < \(-\epsilon_p\))则为 albedo 边缘,同向(> \(\epsilon_p\))则为 shading 边缘。对 albedo 边缘惩罚 \(\|\nabla\hat{\eta}\|^2\)(光照不应变),对 shading 边缘惩罚 \(\|\nabla\bar{\rho}\|^2\)(反射率不应变)
- 设计动机:边缘是最直观的 albedo/shading 分界信号,梯度方向比较是一种非常鲁棒的判别方式
-
非局部(点对)损失:
- 功能:提供跨图像的长程约束,捕获边缘无法覆盖的信息
- 核心思路:通过 Poisson 盘采样生成随机点对 \((x_i, x_j)\),根据归一化强度差 \(\delta I_v\) 和 \(\delta I_t\) 的符号分为 4 类(\(S_+, S_-, A_+, A_-\)),然后用 hinge loss 强制预测的 albedo/shading 满足对应序数关系。例如若分类为 \(S_+\)(两者均为正→光照主导),则惩罚 \(\max(\hat{\eta}_j - \hat{\eta}_i + \varepsilon_m, 0)\)
- 设计动机:仅靠边缘约束是局部的,无法确定绝对值。点对约束提供全局排序信息,填充序数约束的覆盖范围
-
Double Deep Image Prior 正则化:
- 功能:为 albedo 和 shading 提供结构先验,防止过拟合噪声
- 核心思路:使用两个随机初始化的编码器-解码器网络分别参数化 albedo 和 shading,利用网络架构本身的隐式正则化(DIP)来约束解空间。albedo 输出通过 sigmoid 限制在 [0,1],shading 有非负性惩罚
- 设计动机:序数约束仅限制相对顺序,无法完全确定绝对值。DIP 的频率偏好(先拟合低频再拟合高频)提供了自然的正则化
损失函数¶
总损失 \(\mathcal{L} = \|\hat{\rho} \cdot \hat{\eta} - I_v\|_2 + \lambda_1 \mathcal{L}_{edge} + \lambda_2 \mathcal{L}_{ord}\),第一项为重建损失,后两项为序数约束。热图仅参与边缘和点对损失的标签生成,不参与重建。
实验关键数据¶
主实验(si-MSE × \(10^{-2}\),↓ 越低越好)¶
| 方法 | 类别 | 涂色面具 Albedo | 色卡 Albedo | 白LED Albedo | 白炽灯 Albedo | 日光 Albedo |
|---|---|---|---|---|---|---|
| RGB-Retinex | 优化 | 25 | 3.4 | 2.42 | 2.33 | 2.73 |
| Intrinsic-v2 | 学习 | 27 | 2.8 | 1.25 | 4.36 | 4.17 |
| CRefNet | 学习 | 38 | 8.8 | 1.79 | 2.29 | 1.98 |
| JoLHT-Video | 物理 | 8.4 | 2.0 | N/A | ✗ | ✗ |
| VT-Intrinsic | 物理 | 11 | 2.7 | 0.37 | 1.06 | 1.19 |
序数验证实验¶
| 验证场景 | 准确率 |
|---|---|
| 20 种材料贴片 + 日光 | 98.59%(albedo 99.37%,shading 97.01%) |
| 20 种材料贴片 + 白 LED | 96.82%(albedo 94.62%,shading 100%) |
| 100 个真实场景 1063 标注点对 | 98.95%(albedo 96.96%,shading 99.62%) |
| USGS 427 种材料光谱统计 | 94.2% 的材料对满足序数一致性 |
关键发现¶
- VT-Intrinsic 在所有照明条件下均超越所有学习方法,且无需任何预训练数据
- 与 JoLHT-Video(需要热视频 + 受控照明 + 标定)性能接近,但仅需单张热图
- 专家标注验证序数准确率超过 98%,证明理论在实际材料和场景中高度可靠
- 学习方法容易过度平滑 albedo/shading(如草地光照被平坦化),diffusion 方法会产生幻觉纹理
- 白炽灯和日光实验证明了对含红外光源的鲁棒性
亮点与洞察¶
- 物理互补性的巧妙利用:可见光捕获反射光,热成像捕获吸收热量——这对"互为补充"的信号天然编码了 albedo 和 shading 的区分信息,这一洞察极其优雅
- 从热传导方程到序数代理的推导链:从能量守恒 → 热传输方程 → 热平衡 → 热图是吸收量的单调代理——整个理论推导环环相扣,物理直觉清晰
- 零样本超越预训练模型:仅靠单对图像的物理约束就超越了在大规模数据上训练的学习方法,说明正确的物理归纳偏置可以胜过统计学习
局限与展望¶
- 假设 Lambertian 反射,金属、透明物体和镜面会导致失败
- 假设热量主要来自光吸收——发动机、人体等非光源热源会干扰
- 不支持多色照明
- 依赖廉价微测辐射计热相机,在弱照明或动态场景下 SNR 不足
- 热相机分辨率低于可见光相机,可能影响细节恢复
- 可扩展方向:(1) 利用 VT-Intrinsic 的高质量伪 GT 为大规模学习方法提供训练数据;(2) 将序数理论扩展到多光谱成像
相关工作与启发¶
- vs JoLHT-Video: JoLHT-Video 使用热视频的瞬态过程直接估计吸收光强度,需要受控照明和热视频;VT-Intrinsic 仅用稳态热图的序数关系,适用范围大大扩展
- vs NIR-Priors: NIR 方法假设 NIR 反射率变化小将其作为 shading 代理,但 NIR 反射率仍有显著材料变化且 LED 不发 NIR;VT-Intrinsic 利用热吸收的互补关系更本质
- vs Intrinsic-v2: 最新学习方法虽然在某些 indoor 场景表现不错,但在白炽灯/日光下反而变差(si-MSE 4.17-4.36),说明学习的先验对照明变化不够鲁棒
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次利用热红外序数约束做 IID,物理理论原创且优雅
- 实验充分度: ⭐⭐⭐⭐ 多照明条件、多材料、多场景验证,序数理论验证充分,但缺少大规模定量评估
- 写作质量: ⭐⭐⭐⭐⭐ 物理推导清晰严谨,Roger Shepard 错觉示例极其直观
- 价值: ⭐⭐⭐⭐⭐ 开辟了光-热互补性在视觉中的新范式,可为学习方法提供大规模实世界标注
相关论文¶
- [CVPR 2026] PAD-Hand: Physics-Aware Diffusion for Hand Motion Recovery
- [NeurIPS 2025] VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image
- [CVPR 2026] Unsafe2Safe: Controllable Image Anonymization for Downstream Utility
- [CVPR 2026] Bilevel Layer-Positioning LoRA for Real Image Dehazing
- [CVPR 2026] Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback