跳转至

MGGTalk: Monocular and Generalizable Gaussian Talking Head Animation

会议: CVPR 2025
arXiv: 2504.00665
代码: 项目主页
领域: 3D Vision
关键词: 说话头生成, 3D高斯溅射, 单目训练, 面部对称先验, 深度估计, 可泛化

一句话总结

提出MGGTalk框架,仅用单目数据集训练即可泛化到未见身份,核心思路是利用深度估计和面部对称先验来弥补单目数据中几何与外观信息的不完整性,实现基于3DGS的高质量说话头动画。

研究背景与动机

一镜说话头生成(One-shot talking head generation)旨在从单张参考图像和驱动源(音频或运动)合成逼真的说话头视频,在视频配音、电影制作和视频会议中有广泛应用。

现有方法分为两大类:(1) 2D生成器方法(GAN/扩散模型),缺乏3D面部建模,容易产生面部扭曲和身份不一致问题;(2) 3D渲染方法(NeRF/3DGS),虽然建模质量更高,但NeRF计算成本高,而3DGS方法要么需要多视角数据集(获取困难),要么需要针对特定个体的个性化训练(无法泛化到新身份)。

核心矛盾:如何在仅使用单目数据(易获取)的前提下,构建一个能泛化到未见身份的3DGS说话头系统?关键挑战在于——单目数据信息不完整,无法提供面部不可见区域的几何和外观信息。

MGGTalk的解决思路是利用两个先验:(1) 深度估计提供像素级几何信息;(2) 面部左右对称性补充不可见区域的几何与纹理。

方法详解

整体框架

MGGTalk由三个核心阶段组成:给定分割后的头部图像 → (1) DSGR模块利用深度估计和对称操作生成可见区域点云和镜像点云 → (2) 变形网络根据表情特征(来自驱动图像的3DMM或音频编码)调整点云 → (3) SGP模块结合身份编码和变形点云预测完整高斯参数 → 渲染与合成最终图像。

关键设计

1. 深度感知对称几何重建(DSGR)

此模块解决"单目图像如何获取完整3D几何"的问题。首先使用GeoWizard预训练模型从输入图像估计深度图和法线图,通过BINI算法进行表面重建获得粗糙点云。然后引入基于2D UNet的几何精炼网络,学习深度偏移量来修正初始深度估计的误差。对于不可见的面部区域(如侧脸时遮挡的另一侧),在canonical姿态空间中翻转x坐标进行镜像操作。最后通过体素滤波器去除镜像点云与原始点云的重叠区域,避免相互干扰。

2. 对称高斯预测(SGP)

此模块解决"如何为不可见区域生成可靠的高斯参数"的问题。采用两阶段策略:第一阶段用Gaussian Decoder从可见区域点云和身份编码生成高斯参数(有标注监督,学习更精准);第二阶段用Sym-Gaussian Decoder,将第一阶段的高斯参数作为额外输入,结合身份编码和对称点云,预测不可见区域的高斯参数。这种"用可见指导不可见"的策略降低了预测难度。最后通过父子节点稠密化增加高斯点的密度,提升渲染细节。

3. 变形网络与驱动机制

支持视频驱动和音频驱动两种模式。视频驱动时使用3DMM估计器提取驱动图像的表情系数;音频驱动时用audio-to-expression网络将音频编码为表情特征。MLP变形网络以表情特征为输入,学习点云的位移来实现面部表情的控制。

损失函数

训练时在稠密化前后分别渲染面部图像,使用三种损失的组合:L1重建损失、SSIM结构相似性损失(λ_ssim=0.2)、感知损失(λ_p=0.01)。分别对稠密化前后的渲染结果计算损失,确保两个阶段都能产生高质量输出。

实验关键数据

主实验:视频驱动说话头生成(Table 1)

方法 HDTF Self-PSNR↑ HDTF Self-FID↓ HDTF Cross-FID↓ NeRS-Mono Self-FID↓
Portrait4D-v2 30.12 36.57 42.82 54.95
Real3DPortrait 31.62 33.26 51.36 79.09
DaGAN 30.94 33.23 48.20 82.50
MGGTalk 32.40 18.95 27.85 51.35

MGGTalk在FID上大幅领先,HDTF self-reenactment FID仅18.95(第二名33.23),cross-reenactment FID 27.85(第二名42.82),证明图像质量和身份保持的优越性。

消融实验(Table 3,HDTF Self-Reenactment)

变体 PSNR↑ FID↓ AED↓
w/o Geo. Refine. 29.98 24.82 0.157
w/o Sym. 31.24 20.23 0.112
w/o Gauss. Filter 29.56 27.42 0.148
w/o Sym. Gauss. Dec. 32.12 19.74 0.116
w/o Densify 30.32 21.58 0.138
Full model 32.40 18.95 0.102
  • 去掉体素滤波的影响最大(FID从18.95→27.42),说明重叠点云干扰严重
  • 去掉几何精炼PSNR下降2.4dB,深度修正对质量至关重要
  • 去掉稠密化出现明显摩尔纹

关键发现

  • 训练数据量不到其他方法的1/10(约400+300视频片段),但在wild数据上仍有竞争力
  • 推理速度超过40 FPS(RTX 4090),支持实时生成
  • 音频驱动场景中FID 18.73,远优于所有一站式方法
  • 用户研究中45%的参与者在身份保持方面偏好MGGTalk

亮点与洞察

  1. 对称先验是解锁单目泛化的关键:人脸的自然左右对称性被巧妙利用,将"不可见区域补全"转化为"可见区域镜像+去重",避免了对多视角数据的依赖
  2. 两阶段高斯预测:"先可见后不可见,用前者指导后者"的策略非常自然,降低了不可见区域的预测难度
  3. 体素滤波的重要性:消融实验显示,简单的镜像操作会导致严重重叠,体素滤波虽然简单但对最终质量影响巨大

局限性

  • 对称假设在非正面角度时效果较好,但极端侧脸时可见区域极少,对称补全的信息量有限
  • 依赖GeoWizard深度估计的准确性,深度估计的系统性误差会传播到后续模块
  • 仅建模头部区域,躯干和背景由单独的Inpainter处理,可能存在接缝不自然的问题
  • 未显式处理头发、饰品等非对称区域,对称假设在这些部位可能失效

相关工作与启发

  • GaussianAvatars/SplattingAvatar: 基于3DMM mesh绑定3DGS,需要多视角或视频,MGGTalk证明了深度+对称是更轻量的替代方案
  • GeoWizard深度估计: 为单目3D重建提供了像素级几何先验
  • 启发: 对称性是面部特有的先验,推广到一般物体需要寻找新的"补全策略";该框架易扩展音频到表情的映射质量

评分

⭐⭐⭐⭐ — 在单目说话头生成方向上取得了实质性突破,对称先验的利用优雅有效,实验全面。

相关论文