Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps¶
会议: ICLR2026
arXiv: 2602.21820
代码: 待确认
领域: 3d_vision
关键词: shadow generation, relighting, light-geometry interaction, bridge matching, monocular depth
一句话总结¶
提出 Light-Geometry Interaction (LGI) maps,一种从单目深度估计中编码光照-遮挡关系的 2.5D 表示,嵌入 bridge matching 生成框架中实现阴影生成与物体重光照的联合建模,在合成和真实图像上均取得 SOTA 效果。
背景与动机¶
阴影生成(shadow generation)和重光照(relighting)在虚拟产品放置、增强现实、图像编辑等场景中至关重要。传统方法依赖完整 3D 重建和光线追踪,计算成本高且在单视图设定下不可行。近年来基于扩散模型和 bridge matching 的生成式方法可以从 RGB 输入合成阴影,但由于缺乏物理约束,常产生以下问题:
- 浮空阴影(floating shadows):阴影与物体几何不一致
- 光照不一致:重光照方向与阴影方向矛盾
- 不合理的阴影几何:在复杂遮挡场景下失效
更关键的是,现有方法将阴影生成和重光照视为独立任务分别处理,忽视了二者之间的内在耦合——准确的建模需要同时考虑直接光照、二次反射和互反射。
核心问题¶
如何在单视图场景中,仅从单目深度高效地编码光照与几何的交互关系,并将其作为物理先验嵌入生成模型,实现阴影生成与重光照的联合建模?
方法详解¶
整体框架¶
基于 Latent Bridge Matching (LBM) 框架,将无阴影图像 \(x_0\) 转化为有阴影图像 \(x_1\)。核心创新在于引入 LGI maps 作为条件信号,提供光照感知的遮挡线索。编码器和解码器来自预训练的 Stable Diffusion XL,训练时冻结不动。
漂移网络 \(v_\theta\) 的条件 \(c = \{c^l, c^m\}\),其中 \(c^l\) 为全局光照参数(光色、半径、距离、强度、方位角、仰角),\(c^m\) 为 LGI maps。
LGI Maps 生成(五步流程)¶
Step 1 — 深度估计:使用现成单目深度估计方法获取深度图 \(D\),并重缩放到与光源坐标一致的尺度。
Step 2 — 2D 到 3D 提升:通过逆相机投影将每个像素提升到 3D 空间:
Step 3 — 光线采样:从每个 3D 点 \(p\) 向光源 \(l\) 投射光线,在光线上均匀采样 \(N=16\) 个点,将这些采样点重投影回图像平面获取对应深度值。
Step 4 — 仰角差计算:对每个采样点计算其仰角 \(e^s_n\) 与光线仰角 \(e^l\) 之差 \(e^d_n = e^s_n - e^l\)。若某方向上的表面仰角超过光线仰角,说明该点被遮挡,处于阴影区域。
Step 5 — 三通道 LGI Maps 构建:
- \(c^m_1 = \min e^d_n\):最小仰角差,表示遮挡开始
- \(c^m_2 = \max e^d_n\):最大仰角差,表示遮挡结束
- \(c^m_3 = e^d_{i^*}\),其中 \(i^* = \arg\min |e^d_n|\):绝对值最小的差,表示最可能的直接遮挡点
LGI 值自然被限制在 \((-\pi, \pi)\) 范围内,有利于网络输入的稳定性。
损失函数¶
用加权 L1 损失替代标准像素级损失,通过亮度变化阈值 \(\tau=0.01\) 和膨胀操作聚焦于阴影变化区域:
最终损失结合潜空间匹配和加权像素损失,权重 \(\lambda=10\)。
图像协调扩展¶
同时扩展到 image harmonization 任务:引入额外的光照估计网络,从合成图像中推断光照条件。由于 LGI maps 完全可微,可利用阴影掩码实现自监督光照估计。
ShadRel 数据集¶
构建了首个面向联合阴影-重光照任务的大规模数据集:
- 817K 个由专业 3D 艺术家制作的虚拟物体
- 使用 Blender Cycles 路径追踪渲染
- 包含光泽、金属、透明等多种材质(基于 principled BSDF)
- 每个物体采样 4 个随机相机视角 × 5 种光照配置 = 20 张目标图
- 覆盖软阴影、反射、透明度和互反射等挑战场景
实验关键数据¶
联合阴影生成与重光照(ShadRel 数据集)¶
| 方法 | Overall RMSE↓ | Overall SSIM↑ | Shadow BER↓ | Shadow IoU↑ | Object RMSE↓ |
|---|---|---|---|---|---|
| LBM | 0.0417 | 0.7148 | 0.0847 | 0.7166 | 0.0298 |
| 本文 | 0.0334 | 0.7227 | 0.0588 | 0.8096 | 0.0282 |
阴影区域 RMSE 从 0.1543 降至 0.0898(改进 42%),BER 从 0.1549 降至 0.1103。
干净背景阴影生成(CSG 基准)¶
三个控制轨道上 IoU 均优于 CSG(0.821 vs 0.818, 0.798 vs 0.780, 0.785 vs 0.776)。
图像协调(DESOBAv2)¶
与最佳方法 SGDGP 整体性能相当,但在阴影区域精度更高(Local RMSE 44.753 vs 46.713)。
消融实验关键发现¶
- LGI maps 是最关键组件,移除后 Shadow BER 从 0.0588 恶化到 0.0940
- 直接用深度图替代 LGI 仅带来边际改进(-LGI+Depth: BER 0.0932 vs baseline 0.1012)
- 三通道 LGI 优于仅用第三通道(BER 0.0588 vs 0.0670)
- 换用 DepthAnythingV2 或 GT 深度结果变化极小,证明对深度估计器的鲁棒性
- 计算开销几乎可忽略:参数仅增加 0.0004%,FLOPs 增加 0.0011%
亮点¶
- LGI maps 设计精巧:将光线追踪的核心思想简化为可微的 2.5D 表示,无需完整 3D 重建即可编码光照-遮挡关系,兼具物理直觉和计算效率
- 联合建模范式:首次将阴影生成和重光照统一到同一框架,捕获直接光照、二次反射和互反射的耦合效应
- 泛化能力突出:仅在合成数据上训练,在真实图像(含人像)上表现优异,无需任何真实世界数据微调
- 计算高效:LGI 模块几乎零额外计算成本,天然可扩展到多物体和多光源场景
局限性 / 可改进方向¶
- 基于 2.5D 深度的固有局限:无法处理遮挡区域的深度信息缺失,导致歧义阴影(论文 Fig. 3d 所示)
- 训练数据为纯合成,虽然泛化尚可但可能在极端真实场景下失效
- 单目深度估计缺乏度量尺度,依赖与光源坐标的一致性假设
- 目前仅支持点光源建模,未扩展到面光源或环境光照
- 图像协调扩展需要额外的光照估计网络,增加了系统复杂度
与相关工作的对比¶
| 维度 | CSG / LBM | SGDGP | SwitchLight | 本文 |
|---|---|---|---|---|
| 阴影生成 | ✓ | ✓ | ✗ | ✓ |
| 重光照 | ✗ | ✗ | ✓ | ✓ |
| 联合建模 | ✗ | ✗ | ✗ | ✓ |
| 几何先验 | 无/2D模板 | 旋转框+模板 | 无 | LGI maps (2.5D) |
| 物理约束 | 弱 | 中 | 弱 | 强 |
| 真实图像泛化 | 一般 | 较好 | 人像为主 | 好(含人像) |
启发与关联¶
- LGI maps 的核心思想——将光线追踪过程简化为仰角差的统计量——可迁移到其他需要光照建模的任务(如 intrinsic decomposition、光照估计)
- 三通道设计(min/max/closest)巧妙编码了遮挡的不确定性程度,为处理 2.5D 深度歧义提供了有效策略
- 完全可微的设计使其可以自然嵌入任何端到端框架,不局限于 bridge matching
- ShadRel 数据集填补了联合阴影-重光照训练数据的空白,可作为后续研究的重要基准
评分¶
- 新颖性: ⭐⭐⭐⭐ — LGI maps 表示新颖,联合建模范式有清晰贡献
- 实验充分度: ⭐⭐⭐⭐ — 多基准对比、消融全面,含真实图像定性分析
- 写作质量: ⭐⭐⭐⭐ — 思路清晰,公式推导完整,图示直观
- 价值: ⭐⭐⭐⭐ — 实用性强,计算高效,数据集贡献有价值