Using Gaussian Splats to Create High-Fidelity Facial Geometry and Texture¶

会议: CVPR2026 arXiv: 2512.16397 代码: 未开源（Epic Games / Stanford）领域: 3D视觉 / 人脸重建 关键词: Gaussian Splatting, 人脸几何重建, 去光照纹理, 语义分割约束, 神经纹理, MetaHuman

一句话总结¶

提出一套基于改进 Gaussian Splatting 的人脸重建管线：通过软约束和语义分割监督将高斯与三角网格紧耦合，从仅 11 张未标定图像重建高精度三角面片几何，并利用 PCA 先验 + 可重光照高斯模型分离光照获取去光照 albedo 纹理，最终兼容标准图形管线（MetaHuman）。

背景与动机¶

需求驱动：VR/游戏/影视对高保真、可控、可重光照的人脸数字化需求持续增长，但现有方法通常依赖多相机标定或光舞台，难以大规模民主化使用
NeRF 的局限：NeRF 隐式表示难以精确分离几何与纹理，且不直接产出三角网格，无法无缝接入标准图形管线
原始 3DGS 的不足：标准 Gaussian Splatting 虽然显式但高斯与底层几何解耦——高斯可以自由形变来拟合图像，导致生成的网格质量差
纹理光照耦合：在无光舞台条件下，从少量图像中分离 albedo 与光照是严重欠约束问题，现有方法常产生烘焙阴影
标准管线兼容性：工业图形管线经过数十年软硬件优化已高度成熟，神经渲染方法需要转化为网格+纹理才能在实时应用中发挥价值
少量输入的挑战：相比长视频或多视角设置，仅使用 11 张图像重建高质量人脸几何和纹理，对正则化和约束设计提出更高要求

方法详解¶

整体框架¶

输入 → iPhone 后置摄像头拍摄单目视频 → 选取 11 个预定义姿态的帧 → 初始化粗几何（MetaHuman Animator）→ 改进的 Gaussian Splatting 训练 → 几何细化 → 纹理重建与去光照 → 输出三角网格 + 去光照纹理 → MetaHuman 转换

改进的 Gaussian Splatting 模型¶

核心设计：每个三角面片绑定恰好一个高斯，禁用密集化和剪枝，保持高斯与面片的一一对应。训练过程中不联合优化网格顶点，将高斯优化与网格变形解耦。

软约束正则化 (\(\mathcal{L}_{\text{reg}}\))：基于 Laplacian 平滑思想，对每个高斯的几何特征 \(\mathbf{z}_i\) 鼓励其与边邻域高斯的均值一致：

\[\mathcal{L}_{\text{reg}} = \sum_i \left\| \mathbf{z}_i - \frac{1}{|\mathcal{E}(i)|} \sum_{j \in \mathcal{E}(i)} \mathbf{z}_j \right\|^2\]

分别对三种特征施加约束：

中心位移 \(\mathcal{L}_{\text{reg}}^{\text{center}}\)：高斯中心与面片质心的偏移量保持邻域平滑
局部法线 \(\mathcal{L}_{\text{reg}}^{\text{normal}}\)：高斯局部法线跨网格平滑变化（用 UV 坐标重建一致坐标系解决不一致问题）
边界位移 \(\mathcal{L}_{\text{reg}}^{\text{boundary}}\)：高斯外边界点到面片质心的距离保持邻域平滑，约束高斯形状和轮廓

语义分割监督 (\(\mathcal{L}_{\text{seg}}\))：训练 Mask2Former 分割网络（1600 个 MetaHuman 合成数据），将面部分为面部/鼻/唇/眼/耳等语义区域。每个高斯继承其所属三角面的标签，通过 alpha 混合构建预测分割图，与网络预测对比计算损失。这防止高斯"滑动"到错误语义区域。

眼球正则化 (\(\mathcal{L}_{\text{eyes}}\))：惩罚眼球高斯与眼窝高斯的交叉干涉，防止眼球高斯遮挡眼窝导致几何不准。

三角面片几何细化¶

训练完成后固定相机外参，迭代细化网格：

重新优化高斯参数获取监督信息（高斯外边界点 \(\mathbf{x}_i^*\)）
通过最小化 \(\mathcal{L}_{\text{centroid}} = \sum_i \| \mathbf{v}_i^{\text{centroid}} - \mathbf{x}_i^* \|^2\) 变形网格顶点
两轮迭代：第一轮优化 MetaHuman PCA 系数，第二轮优化单个顶点位置

神经纹理方案¶

将高斯从世界空间变换到 UV 纹理空间，用正交相机沿法线方向 splatting，颜色仍依赖世界空间视角方向。这允许在标准图形管线中以视角依赖神经纹理的形式使用 Gaussian Splatting，无需修改管线其他部分。

损失函数体系¶

图像重建：\(\mathcal{L}_{\text{img}} = 0.8 \cdot \mathcal{L}_1 + 0.2 \cdot \mathcal{L}_{\text{D-SSIM}}\)
几何约束：\(\mathcal{L}_{\text{reg}}^{\text{center/normal/boundary}}\)、\(\mathcal{L}_{\text{scale}}\)
语义：\(\mathcal{L}_{\text{seg}}\)（\(\lambda=50\)）
眼球：\(\mathcal{L}_{\text{eyes}}\)（\(\lambda=20\)）
光照/纹理：\(\mathcal{L}_{\text{lighting}}\)、\(\mathcal{L}_{\text{rotation}}\)、\(\mathcal{L}_{\text{blending}}\)、\(\mathcal{L}_{\text{view}}\)

去光照纹理生成¶

用球谐函数建模环境光照，含遮挡图和法线图修正
PCA 先验（MetaHuman 前 20 个基函数）正则化 albedo 纹理
可学习混合权重 \(\beta_p\) 控制高斯与网格纹理的贡献比例，正则化趋向零以偏好网格纹理
训练后关闭视角依赖颜色和光照，从目标图像高通滤波恢复高频细节

实验关键数据¶

几何重建对比¶

方法	语义对齐	侧视轮廓	中性表情	数据需求
Ours	✅ 精确	✅ 准确	✅ 直接获得	11张图像
NextFace	❌ 语义偏移	❌ 侧视失败	✅	多张图像
NHA	❌ 纹理滑动	⚠️ 一般	❌ 过拟合表情	多张图像
CoRA	⚠️ 鼻/下颌伪影	⚠️ 边界模糊	✅	闪光灯采集

消融实验¶

消融项	影响
去掉语义分割	高斯滑动到错误区域，几何出现伪构
去掉软约束	高斯与面片解耦，大小形状不规则，网格质量差
去掉眼球损失	眼球高斯遮挡眼窝，眼窝几何过小
去掉遮挡图	去光照纹理中残留烘焙阴影（鼻下、唇缝）

去光照纹理质量¶

不同光照条件下去光照结果高度一致（Fig.16 两列 de-lit 纹理视觉接近）
在新光照条件下重光照效果优于 CoRA（CoRA 纹理残留更多烘焙光照）
支持异构数据联合训练（户外+闪光灯），进一步提升刚性对齐和几何精度

亮点¶

极少数据：仅需 11 张 iPhone 自拍图像即可重建高质量人脸，真正实现"民主化"人脸数字化
软约束设计精妙：中心/法线/边界三组 Laplacian 约束让高斯与网格紧耦合，既保留 3DGS 的拟合能力又确保几何质量
语义分割监督：利用 MetaHuman 合成数据训练分割网络，零成本获取语义标注，防止纹理滑动
神经纹理创新：将高斯变换到纹理空间作为视角依赖神经纹理，对工业图形管线零侵入
去光照管线完整：PCA 先验 + 球谐光照 + 遮挡图 + 高频恢复，在无光舞台条件下获得高质量 albedo
端到端 MetaHuman 兼容：输出直接可用于 UE5 标准管线，支持动画和重光照
text-driven 扩展：演示了 ChatGPT 生成图像 → Veo 3 生成视频 → 管线重建的文本驱动资产创建

局限性 / 可改进方向¶

去光照精度有限：无光舞台条件下仍难完全去除阴影，细粒度几何细节（如皱纹）在去光照过程中被牺牲
眼部重建困难：眼睛和眼睑区域高斯重叠严重，分割粒度不够精细，需要更好的 landmark 预测
头发/颈部未处理：框架聚焦面部，头发和颈部区域的高斯无结构化约束，不参与几何优化
依赖 MetaHuman 拓扑：整个管线与 MetaHuman 模板强绑定，泛化到其他拓扑需要额外工作
合成数据域差距：分割网络在 MetaHuman 合成数据上训练，对真实世界极端光照/遮挡场景的鲁棒性未充分验证

与相关工作的对比¶

vs. NeRF 方法（HeadNeRF, HQ3DAvatar 等）：NeRF 隐式表示无法直接输出网格，本文显式约束高斯到三角面片，直接获得标准管线兼容输出
vs. Gaussian Avatar（Qian et al.）：Gaussian Avatars 联合优化网格和高斯，本文解耦两者，独立约束后再用高斯驱动网格变形，更灵活且几何更精确
vs. 2DGS / SuGaR：2DGS 用扁平高斯+深度蒸馏，SuGaR 用 SDF 正则化；本文用语义分割+软约束，更直接地建立语义对应
vs. CoRA（Han et al.）：CoRA 需要闪光灯采集且结果有鼻/颌伪影和残留光照；本文仅需普通拍摄，去光照更彻底
vs. NextFace / NHA：NextFace 侧视失败，NHA 表情过拟合导致中性表情不可用；本文在所有视角和中性表情上均优

评分¶

新颖性: ⭐⭐⭐⭐ — 软约束+语义分割+神经纹理的组合设计新颖，尤其是将高斯变换到纹理空间的想法有原创性
实验充分度: ⭐⭐⭐⭐ — 消融全面，多种对比方法，但缺少定量指标（PSNR/SSIM 等）和更大规模的用户研究
写作质量: ⭐⭐⭐⭐⭐ — 行文清晰，公式推导严谨，图示丰富且信息量大
价值: ⭐⭐⭐⭐ — 对工业界（尤其 Epic/MetaHuman 生态）有直接落地价值，学术贡献在于系统化整合多项技术