TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting¶

会议: ECCV 2024
arXiv: 2404.15264
代码: 无
领域: 3D视觉
关键词: 说话人头部合成, 3D高斯溅射, 形变场, 面部-口腔分解, 音频驱动

一句话总结¶

提出TalkingGaussian，基于3D高斯溅射的形变驱动说话人头部合成框架，通过对持久性高斯基元施加平滑形变表示面部运动，并分解面部和口腔内部区域以解决运动不一致问题。

研究背景与动机¶

现有NeRF-based说话头方法（如RAD-NeRF、ER-NeRF）通过直接修改点的颜色和密度来表示面部运动，但面部相邻区域可能呈现显著不同的颜色和结构变化，连续平滑的神经场难以拟合这种跳跃的外观变化，导致口部模糊、眼睑透明等严重畸变。形变是更平滑、连续的运动表示方式，但之前的形变方法缺乏精细的点控制能力。

方法详解¶

整体框架¶

TalkingGaussian包含：(1) Persistent Gaussian Field——保持不变外观和稳定几何的静态头部结构；(2) Grid-based Motion Field——基于tri-plane hash编码的运动场，预测条件驱动的逐点形变；(3) Face-Mouth Decomposition——将模型分为面部分支和口腔内部分支。

关键设计¶

形变范式: 每个高斯基元保持颜色\(f\)和不透明度\(\alpha\)不变，仅通过形变\(\delta_i = \{\Delta\mu_i, \Delta s_i, \Delta q_i\}\)改变位置、缩放和旋转，形变后参数\(\theta_D = \{\mu+\Delta\mu, s+\Delta s, q+\Delta q, \alpha, f\}\)。

增量采样策略: 解决形变学习中梯度消失的问题。使用滑动窗口按面部动作度量\(m_j\)渐进采样训练帧：\(m_j \in [B_{lower}+k \times T, B_{upper}+k \times T]\)，从嘴巴闭合逐步到张开，从眼睛睁开到闭合。

面部-口腔分解: 唇部和口腔内部空间接近但运动不一致，用单一运动场难以准确表示。使用语义掩码将两个区域分离，面部分支接受音频\(\mathbf{a}\)和上脸表情\(\mathbf{e}\)条件，口腔分支仅接受音频条件且只预测平移。最终通过前后遮挡关系融合：\(\mathcal{C}_{head} = \mathcal{C}_{face} \times \mathcal{A}_{face} + \mathcal{C}_{mouth} \times (1-\mathcal{A}_{face})\)。

损失函数¶

静态初始化: \(\mathcal{L}_C = \mathcal{L}_1 + \lambda\mathcal{L}_{D-SSIM}\)
运动学习: \(\mathcal{L}_D = \mathcal{L}_1 + \lambda\mathcal{L}_{D-SSIM}\)（使用形变后参数渲染）
融合微调: \(\mathcal{L}_F = \mathcal{L}_1 + \lambda\mathcal{L}_{D-SSIM} + \gamma\mathcal{L}_{LPIPS}\)（\(\lambda=0.2, \gamma=0.5\)）

实验关键数据¶

自重建设置¶

4个人物视频（Macron/Lieu/Obama/May）平均结果：

方法	PSNR↑	LPIPS↓	SSIM↑	LMD↓	Sync-C↑	训练时间	FPS
AD-NeRF	31.87	0.0942	0.877	2.791	5.353	18.7h	0.11
RAD-NeRF	33.07	0.0530	0.887	2.761	5.052	5.3h	28.7
ER-NeRF	32.83	0.0289	0.889	2.676	5.295	2.1h	31.2
ER-NeRF+e	33.14	0.0271	0.902	2.623	5.754	-	-
Ours	33.61	0.0259	0.910	2.586	6.516	0.5h	108

唇同步设置¶

跨域音频驱动的Sync-C/Sync-E评估（Audio A驱动Obama）：

方法	Obama Sync-E↓	Obama Sync-C↑	May Sync-E↓	May Sync-C↑
AD-NeRF	9.742	5.195	9.517	4.757
ER-NeRF	-	-	-	-
TalkingGaussian	最优	最优	最优	最优

关键发现¶

训练仅需0.5小时 vs ER-NeRF的2.1小时，渲染108 FPS vs 31.2 FPS，效率提升巨大
LPIPS从0.0289降至0.0259，说明形变范式产生更清晰锐利的面部细节
Sync-C从5.295提升至6.516（GT为7.584），唇音同步显著改善

亮点与洞察¶

形变 vs 外观修改的对比分析很有说服力——形变空间更平滑连续，避免了颜色跳变导致的畸变
Face-Mouth分解抓住了一个被忽略的核心矛盾：唇部外侧和口腔内部运动可能完全不同
增量采样策略解决了形变学习中的梯度消失问题，思路值得借鉴

局限性¶

依赖预训练的面部解析模型获取口腔掩码
仅支持单人场景的person-specific训练
极端头部姿态变化的泛化能力有限

评分¶

新颖性: ⭐⭐⭐⭐
实用性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐