VT-Intrinsic: Physics-Based Decomposition of Reflectance and Shading using a Single Visible-Thermal Image Pair¶

会议: CVPR 2026
arXiv: 2509.10388
代码: https://vt-intrinsic.github.io
领域: 3D视觉 / 计算摄影
关键词: 内在图像分解, 可见光-热成像, 反射率估计, 光照分解, 序数约束

一句话总结¶

VT-Intrinsic 利用可见光和热红外图像之间的物理互补关系（未反射的光被吸收变为热量），推导出可见光-热成像强度的序数关系（ordinality）直接对应反射率和光照的序数关系，以此为自监督信号驱动神经网络优化，实现了无需预训练数据的高质量内在图像分解。

研究背景与动机¶

领域现状：内在图像分解（IID）旨在将图像分解为反射率（albedo）和光照（shading）两个分量。这是计算机视觉和图形学的经典问题。主流方法分为：基于优化的方法（Retinex 等，依赖强先验假设）和基于学习的方法（在合成数据上训练，存在 sim-to-real gap）。
现有痛点：
- 获取真实场景的反射率和光照 ground truth 极其困难，需要专用设备和受控程序
- 基于学习的方法受限于合成训练数据，在真实场景中常过度平滑或产生幻觉（diffusion-based 方法尤其严重）
- 优化方法依赖强先验假设（平滑光照、色度不变等），对复杂真实场景泛化差
- 使用 NIR 辅助图像的方法受限于 NIR 反射率仍有显著材料变化，且 LED 照明缺少 NIR 成分
核心矛盾：IID 本身是欠约束的逆问题——仅凭单张可见光图像无法唯一确定 albedo 和 shading 的分解。现有方法要么使用不够可靠的先验，要么需要大量标注数据。
本文目标 利用一张额外的热红外图像提供物理上有意义的约束，无需预训练数据或受控照明即可实现高质量 IID。
切入角度：一个关键物理洞察——对于不透明物体，入射光中未被反射的部分被吸收为热量。因此低反射率区域在可见光中较暗，但在热图中较亮（吸收更多热量）；而光照变化在两者中同向变化。这种"序数关系"可以直接区分反射率边缘和光照边缘。
核心 idea：利用可见光和热红外图像的强度序数关系（同向=光照主导，反向=反射率主导）作为密集自监督信号来分解反射率和光照。

方法详解¶

整体框架¶

输入为一对对齐的可见光图像 \(I_v\) 和热红外图像 \(I_t\)。通过物理推导建立两种序数约束——局部（边缘）约束和非局部（点对）约束。这些约束与重建损失共同驱动 Double Deep Image Prior（DDIP）网络优化，输出 3 通道 albedo \(\hat{\rho}\) 和单通道 shading \(\hat{\eta}\)。整个过程无需预训练或外部数据。

关键设计¶

可见光-热成像序数理论:
- 功能：从物理第一性原理推导出可用于区分反射率和光照变化的约束
- 核心思路：Lambertian 场景中，可见光强度 \(I_v = g\rho\eta\)，吸收热量 \(\mathcal{H} = (1-\rho)\eta\)。对于两个像素 \(x_i, x_j\)：若 \(I_v(x_i) > I_v(x_j)\) 且 \(I_t(x_i) > I_t(x_j)\)（同向），则 \(\eta(x_i) > \eta(x_j)\)（光照主导）；若 \(I_v(x_i) > I_v(x_j)\) 且 \(I_t(x_i) < I_t(x_j)\)（反向），则 \(\rho(x_i) > \rho(x_j)\)（反射率主导）。关键过渡：热图 \(I_t\) 在热平衡条件下是吸收热量 \(\mathcal{H}\) 的单调代理（忽略导热项后 \(\mathcal{H} = c_1 I_t - c_3\)）
- 设计动机：这是本文最核心的理论贡献——将 albedo/shading 的不可观测序数关系转化为可直接从图像测量的可见光/热红外序数关系
对宽带光源的扩展:
- 功能：将理论从纯可见光光源扩展到含红外成分的光源（如日光、白炽灯）
- 核心思路：当光源含不可见成分时，热源变为 \(\mathcal{H} = (\beta - \rho_v)\eta\)，其中 \(\beta = 1 + (1-\rho_i)l_i/l_v\)。关键假设：红外波段的反射率 \(\rho_i\) 在局部区域近似恒定（因为红外反射率的材料间变化远小于可见光）。在此假设下 \(\beta\) 为局部常数，序数关系仍然成立
- 设计动机：作者通过 USGS 光谱反射率数据库的 427 种材料统计验证，94.2% 的材料对满足序数一致性
局部（边缘）损失:
- 功能：利用可见光和热图的梯度方向关系分类边缘为 albedo 边缘或 shading 边缘
- 核心思路：计算 \(\nabla I_v\) 和 \(\nabla I_t\) 的余弦相似度——若梯度反向（余弦 < \(-\epsilon_p\)）则为 albedo 边缘，同向（> \(\epsilon_p\)）则为 shading 边缘。对 albedo 边缘惩罚 \(\|\nabla\hat{\eta}\|^2\)（光照不应变），对 shading 边缘惩罚 \(\|\nabla\bar{\rho}\|^2\)（反射率不应变）
- 设计动机：边缘是最直观的 albedo/shading 分界信号，梯度方向比较是一种非常鲁棒的判别方式
非局部（点对）损失:
- 功能：提供跨图像的长程约束，捕获边缘无法覆盖的信息
- 核心思路：通过 Poisson 盘采样生成随机点对 \((x_i, x_j)\)，根据归一化强度差 \(\delta I_v\) 和 \(\delta I_t\) 的符号分为 4 类（\(S_+, S_-, A_+, A_-\)），然后用 hinge loss 强制预测的 albedo/shading 满足对应序数关系。例如若分类为 \(S_+\)（两者均为正→光照主导），则惩罚 \(\max(\hat{\eta}_j - \hat{\eta}_i + \varepsilon_m, 0)\)
- 设计动机：仅靠边缘约束是局部的，无法确定绝对值。点对约束提供全局排序信息，填充序数约束的覆盖范围
Double Deep Image Prior 正则化:
- 功能：为 albedo 和 shading 提供结构先验，防止过拟合噪声
- 核心思路：使用两个随机初始化的编码器-解码器网络分别参数化 albedo 和 shading，利用网络架构本身的隐式正则化（DIP）来约束解空间。albedo 输出通过 sigmoid 限制在 [0,1]，shading 有非负性惩罚
- 设计动机：序数约束仅限制相对顺序，无法完全确定绝对值。DIP 的频率偏好（先拟合低频再拟合高频）提供了自然的正则化

损失函数¶

总损失 \(\mathcal{L} = \|\hat{\rho} \cdot \hat{\eta} - I_v\|_2 + \lambda_1 \mathcal{L}_{edge} + \lambda_2 \mathcal{L}_{ord}\)，第一项为重建损失，后两项为序数约束。热图仅参与边缘和点对损失的标签生成，不参与重建。

实验关键数据¶

主实验（si-MSE × \(10^{-2}\)，↓ 越低越好）¶

方法	类别	涂色面具 Albedo	色卡 Albedo	白LED Albedo	白炽灯 Albedo	日光 Albedo
RGB-Retinex	优化	25	3.4	2.42	2.33	2.73
Intrinsic-v2	学习	27	2.8	1.25	4.36	4.17
CRefNet	学习	38	8.8	1.79	2.29	1.98
JoLHT-Video	物理	8.4	2.0	N/A	✗	✗
VT-Intrinsic	物理	11	2.7	0.37	1.06	1.19

序数验证实验¶

验证场景	准确率
20 种材料贴片 + 日光	98.59%（albedo 99.37%，shading 97.01%）
20 种材料贴片 + 白 LED	96.82%（albedo 94.62%，shading 100%）
100 个真实场景 1063 标注点对	98.95%（albedo 96.96%，shading 99.62%）
USGS 427 种材料光谱统计	94.2% 的材料对满足序数一致性

关键发现¶

VT-Intrinsic 在所有照明条件下均超越所有学习方法，且无需任何预训练数据
与 JoLHT-Video（需要热视频 + 受控照明 + 标定）性能接近，但仅需单张热图
专家标注验证序数准确率超过 98%，证明理论在实际材料和场景中高度可靠
学习方法容易过度平滑 albedo/shading（如草地光照被平坦化），diffusion 方法会产生幻觉纹理
白炽灯和日光实验证明了对含红外光源的鲁棒性

亮点与洞察¶

物理互补性的巧妙利用：可见光捕获反射光，热成像捕获吸收热量——这对"互为补充"的信号天然编码了 albedo 和 shading 的区分信息，这一洞察极其优雅
从热传导方程到序数代理的推导链：从能量守恒 → 热传输方程 → 热平衡 → 热图是吸收量的单调代理——整个理论推导环环相扣，物理直觉清晰
零样本超越预训练模型：仅靠单对图像的物理约束就超越了在大规模数据上训练的学习方法，说明正确的物理归纳偏置可以胜过统计学习

局限与展望¶

假设 Lambertian 反射，金属、透明物体和镜面会导致失败
假设热量主要来自光吸收——发动机、人体等非光源热源会干扰
不支持多色照明
依赖廉价微测辐射计热相机，在弱照明或动态场景下 SNR 不足
热相机分辨率低于可见光相机，可能影响细节恢复
可扩展方向：(1) 利用 VT-Intrinsic 的高质量伪 GT 为大规模学习方法提供训练数据；(2) 将序数理论扩展到多光谱成像

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次利用热红外序数约束做 IID，物理理论原创且优雅
实验充分度: ⭐⭐⭐⭐ 多照明条件、多材料、多场景验证，序数理论验证充分，但缺少大规模定量评估
写作质量: ⭐⭐⭐⭐⭐ 物理推导清晰严谨，Roger Shepard 错觉示例极其直观
价值: ⭐⭐⭐⭐⭐ 开辟了光-热互补性在视觉中的新范式，可为学习方法提供大规模实世界标注