跳转至

Twinner: Shining Light on Digital Twins in a Few Snaps

会议: CVPR 2025
arXiv: 2503.08382
代码: 无
领域: 3d_vision
关键词: 数字孪生, PBR材质重建, 环境光照估计, 大型重建模型, 体素网格表示

一句话总结

提出 Twinner,首个能从少量图像同时恢复场景光照、物体几何和 PBR 材质属性的大型前馈重建模型,通过 tricolumn 表示、程序化合成数据和可微 PBR 渲染器在真实数据上微调,在 StanfordORB 上超越前馈方法并媲美逐场景优化方法。

研究背景与动机

数字孪生需要恢复几何、材质和光照,但现有方法存在以下问题:

  1. 光照烘焙问题:NeRF、3D-GS 等方法将光照烘焙到辐射场中,无法重光照
  2. 逐场景优化太慢:NVDiffRec 等方法需要长时间优化且依赖手工先验
  3. 高质量 PBR 数据稀缺:MetalLRM 等前馈方法需要大量高质量 PBR 纹理的 3D 资产训练,但这些数据不丰富
  4. 合成-真实域差距:仅用合成数据训练的模型在真实图像上泛化差

本文解决数据稀缺和域差距两个核心挑战。

方法详解

整体框架

Twinner 扩展 LightplaneLRM 架构:输入图像经 DINO ViT 编码,DiT transformer 预测 tricolumn 3D 表示(编码 albedo、roughness、metalness、法线),另一个 DiT 预测环境光照 cubemap。可微 PBR 渲染器将预测的材质和光照渲染为着色图像,与真实图像比较提供间接 PBR 监督。

关键设计

1. Tricolumn 体素网格表示

  • 功能:在保持体素直接表示优势的同时将 token 数量降为二次方级
  • 核心思路:将 \(R \times R \times R\) 体素网格沿三个轴展开为三个平面 \(V_{xy} \in \mathbb{R}^{(CR) \times R \times R}\),每个平面的特征向量维度为 \(CR\)(堆叠了 \(R\) 个体素的 \(C\) 维特征)。查询点 \((x,y,z)\) 的特征通过三维插值获取:\(V(x,y,z) = f(V_{xy}(x,y;z), V_{yz}(y,z;x), V_{zx}(z,x;y))\)
  • 设计动机:triplane 将不同体素的信息混合导致伪影;tricolumn 保持每个体素的独立表示,token 数仅 \(3R^2\)(二次方),避免 \(R^3\)(三次方)的 transformer 内存问题

2. 程序化 PBR 数据集 + 真实数据微调

  • 功能:解决高质量 PBR 训练数据稀缺的问题
  • 核心思路:受 Zeroverse 启发,程序化生成带 PBR 纹理和已知环境图的合成物体,提供直接的材质和光照监督 \(\mathcal{L}_S\)。然后在真实数据(如 CO3Dv2)上通过可微 PBR 渲染器的光度损失间接微调——渲染的着色图像与真实图像比较,无需真实 PBR 标注
  • 设计动机:程序化数据虽不真实但提供干净的 PBR GT;真实数据弥补域差距。两阶段结合互补

3. 环境光照预测

  • 功能:从少量输入视图预测场景的 cubemap 环境光照
  • 核心思路:额外的 DiT 模块接收图像特征 token,预测 cubemap 的六个面。cubemap 经可微 mipmap 处理后用于 split-sum 近似的 PBR 渲染,光度损失提供间接光照监督
  • 设计动机:准确的光照估计是材质与光照解耦的关键。直接从输入视图预测比逐场景优化快得多

损失函数

合成数据阶段:直接材质监督 $\(\mathcal{L}_S = \ell_\mathcal{M}(\mathcal{I}_a, \hat{\mathcal{I}}_a) + \ell_\mathcal{M}(\mathcal{I}_r, \hat{\mathcal{I}}_r) + \ell_\mathcal{M}(\mathcal{I}_m, \hat{\mathcal{I}}_m) + \ell_\mathcal{M}(\mathcal{I}_n, \hat{\mathcal{I}}_n)\)$

真实数据阶段:光度损失(含 LPIPS + L2 + mask BCE + depth L1)+ 法线一致性损失 \(\mathcal{L}_N\)

实验关键数据

StanfordORB 基准测试

方法 类型 Novel Relight PSNR↑ NVS PSNR↑ 光照角误差↓ 时间
NVDiffRec 优化 22.5 26.8 18.2° ~小时
MetalLRM 前馈 20.1 24.5 22.4° ~秒
Twinner 前馈 21.8 25.9 13.1° ~秒

光照预测性能

方法 光照角误差↓
基线前馈方法 22.4°
优化方法 18.2°
Twinner 13.1°

关键发现

  • Twinner 光照估计角误差比现有方法改善 28%(22.4°→13.1°)
  • 重光照质量(PSNR)超越前馈方法 MetalLRM ~1.7 dB,接近优化方法 NVDiffRec
  • 推理速度为秒级,比逐场景优化快数百倍
  • Tricolumn 相比 triplane 在几何细节和材质恢复上有明显提升

亮点与洞察

  1. Tricolumn 表示优雅:在 triplane 的计算效率和体素网格的表达力之间找到了完美折中
  2. 两阶段训练策略务实:程序化合成数据提供 PBR GT + 真实数据缩小域差距
  3. 首个同时预测几何+材质+光照的 LRM:为实际数字孪生流水线提供了端到端解决方案

局限与展望

  • 不考虑物体自遮挡投影的阴影
  • PBR 模型是 Disney 微面模型的简化版本
  • 环境光假设为空间不变,不适用于复杂室内光照
  • 仅支持 4 个输入视图,更多视图可能进一步提升

相关工作与启发

  • LRM/LightplaneLRM:前馈重建模型基础,但只恢复辐射
  • NVDiffRec:逐场景优化的 PBR 重建,质量高但速度慢
  • MetalLRM:前馈 PBR 预测先驱,但受合成-真实域差距限制

评分

⭐⭐⭐⭐⭐ — 技术贡献全面:tricolumn 架构创新、程序化数据+真实微调策略、首个完整数字孪生 LRM。在 StanfordORB 上的结果证明了前馈方法可以媲美优化方法。

相关论文