跳转至

VT-Intrinsic: Physics-Based Decomposition of Reflectance and Shading using a Single Visible-Thermal Image Pair

会议: CVPR 2026
arXiv: 2509.10388
代码: https://vt-intrinsic.github.io
领域: 3D视觉 / 计算摄影
关键词: 内在图像分解, 可见光-热成像, 反射率估计, 光照分解, 序数约束

一句话总结

VT-Intrinsic 利用可见光和热红外图像之间的物理互补关系(未反射的光被吸收变为热量),推导出可见光-热成像强度的序数关系(ordinality)直接对应反射率和光照的序数关系,以此为自监督信号驱动神经网络优化,实现了无需预训练数据的高质量内在图像分解。

研究背景与动机

  1. 领域现状:内在图像分解(IID)旨在将图像分解为反射率(albedo)和光照(shading)两个分量。这是计算机视觉和图形学的经典问题。主流方法分为:基于优化的方法(Retinex 等,依赖强先验假设)和基于学习的方法(在合成数据上训练,存在 sim-to-real gap)。

  2. 现有痛点

    • 获取真实场景的反射率和光照 ground truth 极其困难,需要专用设备和受控程序
    • 基于学习的方法受限于合成训练数据,在真实场景中常过度平滑或产生幻觉(diffusion-based 方法尤其严重)
    • 优化方法依赖强先验假设(平滑光照、色度不变等),对复杂真实场景泛化差
    • 使用 NIR 辅助图像的方法受限于 NIR 反射率仍有显著材料变化,且 LED 照明缺少 NIR 成分
  3. 核心矛盾:IID 本身是欠约束的逆问题——仅凭单张可见光图像无法唯一确定 albedo 和 shading 的分解。现有方法要么使用不够可靠的先验,要么需要大量标注数据。

  4. 本文目标 利用一张额外的热红外图像提供物理上有意义的约束,无需预训练数据或受控照明即可实现高质量 IID。

  5. 切入角度:一个关键物理洞察——对于不透明物体,入射光中未被反射的部分被吸收为热量。因此低反射率区域在可见光中较暗,但在热图中较亮(吸收更多热量);而光照变化在两者中同向变化。这种"序数关系"可以直接区分反射率边缘和光照边缘。

  6. 核心 idea:利用可见光和热红外图像的强度序数关系(同向=光照主导,反向=反射率主导)作为密集自监督信号来分解反射率和光照。

方法详解

整体框架

输入为一对对齐的可见光图像 \(I_v\) 和热红外图像 \(I_t\)。通过物理推导建立两种序数约束——局部(边缘)约束和非局部(点对)约束。这些约束与重建损失共同驱动 Double Deep Image Prior(DDIP)网络优化,输出 3 通道 albedo \(\hat{\rho}\) 和单通道 shading \(\hat{\eta}\)。整个过程无需预训练或外部数据。

关键设计

  1. 可见光-热成像序数理论:

    • 功能:从物理第一性原理推导出可用于区分反射率和光照变化的约束
    • 核心思路:Lambertian 场景中,可见光强度 \(I_v = g\rho\eta\),吸收热量 \(\mathcal{H} = (1-\rho)\eta\)。对于两个像素 \(x_i, x_j\):若 \(I_v(x_i) > I_v(x_j)\)\(I_t(x_i) > I_t(x_j)\)(同向),则 \(\eta(x_i) > \eta(x_j)\)(光照主导);若 \(I_v(x_i) > I_v(x_j)\)\(I_t(x_i) < I_t(x_j)\)(反向),则 \(\rho(x_i) > \rho(x_j)\)(反射率主导)。关键过渡:热图 \(I_t\) 在热平衡条件下是吸收热量 \(\mathcal{H}\) 的单调代理(忽略导热项后 \(\mathcal{H} = c_1 I_t - c_3\)
    • 设计动机:这是本文最核心的理论贡献——将 albedo/shading 的不可观测序数关系转化为可直接从图像测量的可见光/热红外序数关系
  2. 对宽带光源的扩展:

    • 功能:将理论从纯可见光光源扩展到含红外成分的光源(如日光、白炽灯)
    • 核心思路:当光源含不可见成分时,热源变为 \(\mathcal{H} = (\beta - \rho_v)\eta\),其中 \(\beta = 1 + (1-\rho_i)l_i/l_v\)。关键假设:红外波段的反射率 \(\rho_i\) 在局部区域近似恒定(因为红外反射率的材料间变化远小于可见光)。在此假设下 \(\beta\) 为局部常数,序数关系仍然成立
    • 设计动机:作者通过 USGS 光谱反射率数据库的 427 种材料统计验证,94.2% 的材料对满足序数一致性
  3. 局部(边缘)损失:

    • 功能:利用可见光和热图的梯度方向关系分类边缘为 albedo 边缘或 shading 边缘
    • 核心思路:计算 \(\nabla I_v\)\(\nabla I_t\) 的余弦相似度——若梯度反向(余弦 < \(-\epsilon_p\))则为 albedo 边缘,同向(> \(\epsilon_p\))则为 shading 边缘。对 albedo 边缘惩罚 \(\|\nabla\hat{\eta}\|^2\)(光照不应变),对 shading 边缘惩罚 \(\|\nabla\bar{\rho}\|^2\)(反射率不应变)
    • 设计动机:边缘是最直观的 albedo/shading 分界信号,梯度方向比较是一种非常鲁棒的判别方式
  4. 非局部(点对)损失:

    • 功能:提供跨图像的长程约束,捕获边缘无法覆盖的信息
    • 核心思路:通过 Poisson 盘采样生成随机点对 \((x_i, x_j)\),根据归一化强度差 \(\delta I_v\)\(\delta I_t\) 的符号分为 4 类(\(S_+, S_-, A_+, A_-\)),然后用 hinge loss 强制预测的 albedo/shading 满足对应序数关系。例如若分类为 \(S_+\)(两者均为正→光照主导),则惩罚 \(\max(\hat{\eta}_j - \hat{\eta}_i + \varepsilon_m, 0)\)
    • 设计动机:仅靠边缘约束是局部的,无法确定绝对值。点对约束提供全局排序信息,填充序数约束的覆盖范围
  5. Double Deep Image Prior 正则化:

    • 功能:为 albedo 和 shading 提供结构先验,防止过拟合噪声
    • 核心思路:使用两个随机初始化的编码器-解码器网络分别参数化 albedo 和 shading,利用网络架构本身的隐式正则化(DIP)来约束解空间。albedo 输出通过 sigmoid 限制在 [0,1],shading 有非负性惩罚
    • 设计动机:序数约束仅限制相对顺序,无法完全确定绝对值。DIP 的频率偏好(先拟合低频再拟合高频)提供了自然的正则化

损失函数

总损失 \(\mathcal{L} = \|\hat{\rho} \cdot \hat{\eta} - I_v\|_2 + \lambda_1 \mathcal{L}_{edge} + \lambda_2 \mathcal{L}_{ord}\),第一项为重建损失,后两项为序数约束。热图仅参与边缘和点对损失的标签生成,不参与重建。

实验关键数据

主实验(si-MSE × \(10^{-2}\),↓ 越低越好)

方法 类别 涂色面具 Albedo 色卡 Albedo 白LED Albedo 白炽灯 Albedo 日光 Albedo
RGB-Retinex 优化 25 3.4 2.42 2.33 2.73
Intrinsic-v2 学习 27 2.8 1.25 4.36 4.17
CRefNet 学习 38 8.8 1.79 2.29 1.98
JoLHT-Video 物理 8.4 2.0 N/A
VT-Intrinsic 物理 11 2.7 0.37 1.06 1.19

序数验证实验

验证场景 准确率
20 种材料贴片 + 日光 98.59%(albedo 99.37%,shading 97.01%)
20 种材料贴片 + 白 LED 96.82%(albedo 94.62%,shading 100%)
100 个真实场景 1063 标注点对 98.95%(albedo 96.96%,shading 99.62%)
USGS 427 种材料光谱统计 94.2% 的材料对满足序数一致性

关键发现

  • VT-Intrinsic 在所有照明条件下均超越所有学习方法,且无需任何预训练数据
  • 与 JoLHT-Video(需要热视频 + 受控照明 + 标定)性能接近,但仅需单张热图
  • 专家标注验证序数准确率超过 98%,证明理论在实际材料和场景中高度可靠
  • 学习方法容易过度平滑 albedo/shading(如草地光照被平坦化),diffusion 方法会产生幻觉纹理
  • 白炽灯和日光实验证明了对含红外光源的鲁棒性

亮点与洞察

  • 物理互补性的巧妙利用:可见光捕获反射光,热成像捕获吸收热量——这对"互为补充"的信号天然编码了 albedo 和 shading 的区分信息,这一洞察极其优雅
  • 从热传导方程到序数代理的推导链:从能量守恒 → 热传输方程 → 热平衡 → 热图是吸收量的单调代理——整个理论推导环环相扣,物理直觉清晰
  • 零样本超越预训练模型:仅靠单对图像的物理约束就超越了在大规模数据上训练的学习方法,说明正确的物理归纳偏置可以胜过统计学习

局限与展望

  • 假设 Lambertian 反射,金属、透明物体和镜面会导致失败
  • 假设热量主要来自光吸收——发动机、人体等非光源热源会干扰
  • 不支持多色照明
  • 依赖廉价微测辐射计热相机,在弱照明或动态场景下 SNR 不足
  • 热相机分辨率低于可见光相机,可能影响细节恢复
  • 可扩展方向:(1) 利用 VT-Intrinsic 的高质量伪 GT 为大规模学习方法提供训练数据;(2) 将序数理论扩展到多光谱成像

相关工作与启发

  • vs JoLHT-Video: JoLHT-Video 使用热视频的瞬态过程直接估计吸收光强度,需要受控照明和热视频;VT-Intrinsic 仅用稳态热图的序数关系,适用范围大大扩展
  • vs NIR-Priors: NIR 方法假设 NIR 反射率变化小将其作为 shading 代理,但 NIR 反射率仍有显著材料变化且 LED 不发 NIR;VT-Intrinsic 利用热吸收的互补关系更本质
  • vs Intrinsic-v2: 最新学习方法虽然在某些 indoor 场景表现不错,但在白炽灯/日光下反而变差(si-MSE 4.17-4.36),说明学习的先验对照明变化不够鲁棒

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次利用热红外序数约束做 IID,物理理论原创且优雅
  • 实验充分度: ⭐⭐⭐⭐ 多照明条件、多材料、多场景验证,序数理论验证充分,但缺少大规模定量评估
  • 写作质量: ⭐⭐⭐⭐⭐ 物理推导清晰严谨,Roger Shepard 错觉示例极其直观
  • 价值: ⭐⭐⭐⭐⭐ 开辟了光-热互补性在视觉中的新范式,可为学习方法提供大规模实世界标注

相关论文