WildCap: Facial Albedo Capture in the Wild via Hybrid Inverse Rendering¶
会议: CVPR2026 arXiv: 2512.11237 代码: 已开源(论文中声明 code released) 领域: others(面部外观捕捉 / 逆渲染) 关键词: facial albedo capture, inverse rendering, diffusion prior, texel grid lighting, in-the-wild
一句话总结¶
提出 WildCap,通过混合逆渲染框架(数据驱动 SwitchLight 去光照 + 基于模型的 texel grid lighting 优化 + 扩散先验采样),从手机野外视频中重建高质量 4K 面部漫反射 albedo 贴图,大幅缩小野外捕捉与受控光照方法之间的质量差距。
背景与动机¶
- 面部 albedo 捕捉是数字人核心步骤:将真人克隆到数字世界需要高质量面部反射率贴图,此问题已被研究超过二十年
- 现有高质量方法依赖受控光照:从 Light Stage 专业设备到手机闪光灯,都需要对场景光照做假设,增加捕捉成本、限制可用性
- 基于模型的逆渲染方法在复杂光照下不稳定:优化光照和反射率贴图以匹配观测图像,在存在阴影等复杂光传输效应时优化不稳定且高度病态
- 数据驱动方法鲁棒但存在 baking 瑕疵:如 SwitchLight 等网络虽能直接预测反射率分量,但不可避免地将部分光照效应(如阴影)烘焙到预测结果中
- 两类方法各有优缺需互补:基于模型方法可产生物理合理的分解但不鲁棒,数据驱动方法鲁棒但不完美,二者结合是自然思路
- 野外捕捉的实用价值巨大:如果能从手机随手拍的视频中完成高质量面部捕捉,将极大降低数字人制作门槛
方法详解¶
整体框架:混合逆渲染(Hybrid Inverse Rendering)¶
流程分为三步: 1. 数据预处理:从手机环绕视频中均匀采样 300 帧(960×720),用 COLMAP 标定相机参数,2DGS 重建精细网格,Wrap3D 配准 ICT 模板,最终选取 V=16 帧用于反射率估计 2. 数据驱动去光照:用 SwitchLight 预测每帧的漫反射 albedo 图像 \(\{I^i\}\),将复杂野外光照转化为更受约束的条件 3. 基于模型的优化:在 UV 空间中将 SwitchLight 的 baking 瑕疵解释为光照效应,联合优化 texel grid lighting 和扩散先验采样,得到干净的 albedo 贴图 \(A\)
核心设计 1:Texel Grid Lighting Model¶
SwitchLight 的预测图像并非物理光源照射产生,传统 SH 环境光模型无法解释其非物理的阴影 baking 瑕疵。
- 设计思想:为有 baking 瑕疵的面部区域分配局部 SH 光照,使瑕疵可被解释为"干净 albedo + 暗色局部光照"
- 具体结构:
- 全局 SH 光照 \(\gamma^g \in \mathbb{R}^{N_c}\) 建模整个面部的基础光照
- UV 空间 2D 网格 \(V \in \mathbb{R}^{\frac{H}{g} \times \frac{W}{g} \times N_c}\) 存储局部 SH 参数
- 通过二值 mask \(M\) 调制:\(\gamma = \gamma^g + \gamma^V \cdot M[u][v]\)
- 网格大小 \(g=96\),采用 2 阶 SH(\(N_c=27\)),通过双线性插值查询
- mask 获取:支持手动(Photoshop 多边形套索)或自动(DiFaReli 阴影检测 + UV 空间提升)
核心设计 2:扩散先验 + 后验采样优化¶
增强光照模型的表达力使优化更加病态(光照与 albedo 的 scale ambiguity),需引入先验约束:
- Patch 级扩散先验训练:在 48 个 Light Stage 扫描上训练 64×64 分辨率的 patch 级扩散模型,建模 7 通道信号(3ch diffuse albedo + 3ch normal + 1ch specular albedo)
- 初始化策略:从训练集中选择肤色最接近的扫描 \(x_0^{ref}\),加 \(T_{init}=0.6T\) 步噪声后开始采样(而非从纯噪声开始),减少采样步数
- 联合优化:每个扩散时间步中同时更新反射率贴图 \(x_t\)(扩散去噪 + 光度梯度引导)和光照参数 \(\theta_t\)(梯度下降 + 正则化)
损失函数¶
- 光度损失:\(\mathcal{L}_{pho} = \|I_{UV} - \Gamma_\theta(A, N_c)\|_2^2\)
- 光照正则化:\(\mathcal{L}_{reg} = 0.1 \cdot \mathcal{L}_{TV} + \mathcal{L}_{neg}\)
- TV 正则化保证光照空间平滑
- 负着色正则化 \(\mathcal{L}_{neg}\) 确保局部光照产生暗色着色(解释阴影 baking)
- 纹理图构建:最小化 LPIPS + 梯度空间 L1 损失
后处理:4K 超分¶
用 RCAN 超分网络将 1K 反射率贴图上采样至 4K。相比 DoRA 直接采样 4K 贴图需 508 分钟,WildCap 仅需 8 分钟(24GB RTX 4090)。
实验关键数据¶
定量对比(面部重建,6 个被试平均)¶
| 方法 | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|---|---|---|---|
| DeFace* | 22.20 | 0.9279 | 0.1192 |
| FLARE* | 27.81 | 0.9411 | 0.0929 |
| WildCap (Ours) | 28.79 | 0.9520 | 0.0610 |
定量对比(合成数据 Digital Emily,albedo 重建)¶
| 方法 | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|---|---|---|---|
| DeFace* | 28.43 | 0.9791 | 0.0826 |
| FLARE* | 22.48 | 0.9742 | 0.0571 |
| WildCap (Ours) | 28.71 | 0.9802 | 0.0388 |
消融实验¶
- w/o Hybrid(直接对原始图像优化):无法有效分离复杂光照下的高光和阴影
- w/o TGL(仅全局 SH 光照):无法解释非物理 baking 瑕疵,阴影残留明显
- w/o Prior(无扩散先验,直接 Adam 优化每个 texel):产生严重伪影,无法保证收敛到合理反射率贴图
- Grid size 消融:\(g=1/24\) 表达力不足,\(g=384\) 过于平滑丢失细节,\(g=96\) 取得最佳平衡
亮点¶
- 巧妙的混合逆渲染框架:将数据驱动方法的鲁棒性与基于模型方法的物理合理性有机结合,思路简洁优雅
- Texel Grid Lighting Model 新颖且有效:突破物理光照模型的局限,用非物理但更具表达力的局部 SH 网格解释网络预测中的 baking 瑕疵
- 扩散先验优雅解决 scale ambiguity:在合理分布中采样 albedo,同时联合优化光照,将病态问题转化为良定问题
- 效率高:仅需 8 分钟(vs DoRA 508 分钟),同时质量与受控光照方法(DoRA)可比
- 实验充分:包含多种消融、合成数据定量评估、与 DoRA 的跨设置对比、多样化场景展示、失败案例分析
局限性 / 可改进方向¶
- 依赖 SwitchLight 预处理:SwitchLight 是闭源商业模型仅提供 API,限制了方法的可复现性和扩展性
- 自动阴影检测依赖 DiFaReli:迭代扩散采样速度慢,且可能遗漏环境遮挡等效应
- 光照表示连续性限制:当 SwitchLight 预测中存在尖锐阴影边界时(如正午阳光),连续网格表示难以完全去除
- 训练数据规模有限:扩散先验仅训练于 48 个 Light Stage 扫描,种族/肤色多样性欠佳(33 白人 / 9 非裔 / 6 亚裔)
- 需提供目标肤色:虽可手动或自动获取,但增加了额外步骤
与相关工作的对比¶
- vs DeFace:DeFace 将面部分割为有限区域(5-10 个),每区域对应一个可训练网络,表达力有限;WildCap 的 texel grid 更细粒度
- vs FLARE:FLARE 使用 split-sum 近似建模光照,物理模型无法解释非物理 baking 瑕疵
- vs DoRA(受控光照方法):WildCap 在更具挑战性的野外设置下达到与 DoRA 可比的质量,且能更好保留个人特征(如痣),同时效率提升约 63 倍
- vs Rainer et al.:使用小型 MLP 建模着色,在扩散后验采样框架内优化困难;WildCap 的网格表示更易优化
- vs Xu et al. / Rainer et al. 的测试场景:先前方法仅在轻度阴影场景测试,WildCap 处理了更具挑战性的强投射阴影
评分¶
- 新颖性: ⭐⭐⭐⭐ — 混合逆渲染框架和 texel grid lighting model 思路新颖,扩散先验联合优化有技巧性
- 实验充分度: ⭐⭐⭐⭐⭐ — 消融全面、定量/定性对比充分、含合成数据评估和失败案例分析
- 写作质量: ⭐⭐⭐⭐ — 整体清晰,动机铺陈合理,补充材料详实
- 价值: ⭐⭐⭐⭐ — 显著降低面部外观捕捉门槛,对数字人制作有实际意义