跳转至

Learning Latent Proxies for Controllable Single-Image Relighting

会议: CVPR 2026 arXiv: 2603.15555 代码: 无 领域: 图像重光照 / 扩散模型 关键词: 单图重光照, PBR 先验, 潜在代理编码器, DPO 后训练, 光照感知掩码

一句话总结

提出 LightCtrl,一个基于扩散模型的单图重光照框架,通过小样本潜在代理编码器(few-shot latent proxy)提供轻量材质-几何先验、光照感知掩码引导空间选择性去噪、DPO 后训练增强物理一致性,实现对光照方向/强度/色温的精确连续控制,在合成和真实场景上均优于现有方法。

研究背景与动机

单图重光照是一个严重欠约束问题:阴影、高光和漫反射依赖不可观测的几何和材质,且光照的微小变化可导致外观的大幅非线性变化。现有方法存在明确的能力边界:

  1. Intrinsic/G-buffer 方法(如 Neural LightRig)需要密集 PBR 监督,脆弱且成本高
  2. 纯潜空间方法(如 LBM)缺乏物理基础,方向/强度控制不可靠
  3. 端到端方法(如 IC-Light)在肖像上效果好但缺乏几何感知,难泛化到复杂场景

关键洞察:精确重光照不需要完整的 intrinsic 分解;稀疏但物理有意义的线索——指示哪里光照应变化、材质如何响应——就足以引导扩散模型。这催生了轻量 proxy + mask 的设计思路。

方法详解

整体框架

LightCtrl 基于 Stable Diffusion 骨干: - 输入:源图像 \(x_s^{\ell_s}\) + 相对光照编码 \(\Delta\ell\)(方向/强度/色温差异) - 输出:目标光照下的重光照结果 \(\hat{x}_s^{\ell_t} = f_\theta(x_s^{\ell_s}, \Delta\ell)\) - 条件注入:appearance token \(t_{\mathrm{img}}\)、lighting token \(t_{\mathrm{light}}\)、physics proxy token \(t_{\mathrm{phys}}\)

扩散损失加权:\(\mathcal{L}_{\mathrm{diff}} = \|W \odot (\epsilon - \epsilon_\theta(z_t, t \mid t_{\mathrm{img}}, t_{\mathrm{light}}, t_{\mathrm{phys}}))\|_2^2\)

关键设计

  1. Few-shot Latent Proxy Conditioning

轻量编码器-解码器 \(E_\phi\) 从源图预测紧凑潜在代理 \(\hat{\mathcal{B}} = \{a, n, r, m\} \in \mathbb{R}^{H \times W \times 8}\)(albedo、法线、粗糙度、金属度)。仅在少量样本上使用 PBR 监督训练:

$\(\mathcal{L}_{\text{proxy}} = \lambda_a\|a-\hat{a}\|_1 + \lambda_n(1-\langle n, \hat{n}\rangle) + \lambda_r\|r-\hat{r}\|_1 + \lambda_m \mathrm{BCE}(m, \hat{m})\)$

Proxy maps 经空间池化+投射为条件 token \(t_{\text{proxy}} = f_{\text{proj}}(E_\phi(x_s^{\ell_s})) \in \mathbb{R}^{1 \times 768}\) 注入去噪器。设计动机:不追求精确 intrinsic 重建,只需"够用"的材质-几何暗示来约束去噪轨迹。

  1. Lighting-Aware Mask Prediction

光照变化通常仅影响少量像素(阴影边界、高光区域)。基于源-目标对的线性亮度差异导出软 ground-truth mask:

$\(M_{\mathrm{gt}} = \mathcal{N}\left(\alpha|\log Y_t - \log Y_s| + (1-\alpha)D_{\mathrm{robust}}(Y_s, Y_t)\right)\)$

训练时无法访问目标图,因此轻量预测器 \(M_\theta = m_\theta(x_s^{\ell_s}, \Delta\ell)\) 从源图+光照变化推断 mask(BCE+Dice loss 监督)。Mask 转化为空间权重图 \(W\) 调制噪声重建损失,引导去噪器关注光照敏感区域。

  1. DPO Post-training for Latent Encoder

为补偿 PBR 监督的稀疏性,冻结主扩散骨干,对 PBR 编码器 \(E_\phi\) 进行 DPO 风格后训练:GT PBR maps 为正样本 \(y_{\text{pos}}\),当前编码器输出为负样本 \(y_{\text{neg}}\),物理奖励 \(\Delta r = r(y_{\text{pos}}) - r(y_{\text{neg}})\) 聚合 L1/角度/BCE 度量,冻结参考编码器提供稳定似然估计。DPO 目标增加高奖励预测的似然,显著改善代理的物理一致性。

损失函数 / 训练策略

  • 主干在 ScaLight 上全量微调学习泛化光传输先验
  • Proxy 分支小样本训练,DPO 后训练增强稳定性
  • 最终扩散目标使用 lighting-aware 空间加权
  • 构建 ScaLight 数据集:30万+可控3D物体、100万+渲染图像,系统变化光照方向/强度/色温,配有完整相机-灯光元数据

实验关键数据

主实验

ScaLight 测试集,三类光照变化(色温/方向/强度):

方法 条件类型 Temp RMSE↓/PSNR↑ Pos RMSE↓/PSNR↑ Energy RMSE↓/PSNR↑
IC-Light text 0.397/8.21 0.375/8.65 0.380/8.63
LBM image 0.064/27.8 0.084/23.1 0.073/25.3
LumiNet image 0.172/15.8 0.146/17.8 0.164/16.2
Ours (full) Light Info 0.053/30.2 0.074/25.6 0.083/27.1

场景级(MIIW)评测:

方法 RMSE↓ SSIM↑ PSNR↑
IC-Light 0.413 0.337 7.94
LumiNet 0.139 0.904 17.20
Ours 0.167 0.655 18.30

用户偏好研究(N=35):场景级 55.73%,物体级 81.45%

消融实验

配置 Temp RMSE↓ Pos PSNR↑ Energy PSNR↑
w/o proxy 0.062 22.4 18.0
w/o mask 0.073 20.5 23.2
w/o DPO 0.114 19.8 17.5
Full 0.053 25.6 27.1

关键发现

  • DPO 后训练对所有光照变化类型的提升最显著(移除后 RMSE 翻倍),是体系中最关键的组件
  • Lighting-aware mask 对方向变化特别重要(阴影边界精确性)
  • 用户偏好率在物体级达 81.45%,远超 IC-Light(11.45%) 和 LumiNet(4.3%)

亮点与洞察

  • "中间路线"哲学:不追求完整 intrinsic 分解,也不放弃物理基础,用稀疏物理线索约束扩散
  • DPO 引入 PBR 质量优化:将 RLHF 范式引入 intrinsic 估计是新颖的跨领域应用
  • ScaLight 大规模数据集:30万物体+系统光照参数变化,填补了可控物体级重光照数据的空白

局限性 / 可改进方向

  • 场景级性能仍与物体级有差距,复杂全局光传输(长距离阴影投射)是薄弱环节
  • 高频几何和强高光区域易被过度平滑,proxy 缺少足够高频约束
  • 训练主要在合成数据,真实场景泛化依赖 fine-tuning

相关工作与启发

  • IC-Light:端到端扩散重光照,在肖像上强但缺物理建模,本文补充了物理先验
  • Neural LightRig:密集 G-buffer 管线,本文用小样本 proxy 替代
  • LBM:潜空间光照插值,物理基础弱,本文通过 proxy+mask 增强可控性

评分

  • 新颖性: ★★★★☆ — Latent proxy + DPO post-training 的组合新颖
  • 技术深度: ★★★★☆ — 三模块互补设计清晰,消融充分验证各组件贡献
  • 实验充分度: ★★★★★ — 合成/真实/用户研究/消融全面,ScaLight 数据集有持久价值
  • 实用性: ★★★★☆ — 连续光照控制实用性强,但复杂场景仍需改进

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评