FlexAvatar: Learning Complete 3D Head Avatars with Partial Supervision¶

会议: CVPR 2026
arXiv: 2512.15599
代码: 有
领域: Human Understanding / 3D 头部化身生成
关键词: 3D 头部化身, 单图重建, 偏置吸收器, 3D Gaussian Splatting, Transformer

一句话总结¶

提出 FlexAvatar，通过引入可学习的"偏置吸收器"（bias sinks）token 统一单目和多视角数据训练，解决了驱动信号与目标视角的纠缠问题，从单张图像生成完整、高质量、可动画的 3D 头部化身。

研究背景与动机¶

从单张图像创建高质量可动画的 3D 头部化身是一个极具挑战性的问题。挑战来自两个方面：（1）大量不可观测区域使 3D 重建严重欠约束；（2）模型必须在未见过任何表情的情况下推断出逼真的面部动画。

现有方法的困境：

多视角数据能提供完整的 3D 监督，但规模有限、难以获取
单目视频数据（如从互联网抓取的人脸视频）覆盖身份广泛，但只有单一视角，存在强烈的正面偏置，导致训练出的模型只能重建不完整的 3D 头部
3DMM 先验（如 FLAME）提供粗略几何和动画能力，但限制了表达力

核心发现：作者识别出问题的根源在于单目训练数据中驱动信号与目标视角的纠缠。具体来说，在单目自重演设定中，表情控制信号从目标图像本身提取，模型可以利用表情输入来猜测视角——这鼓励模型只预测部分 3D 头部即可满足损失函数。简单混合单目和多视角训练数据并不能解决这一纠缠。

方法详解¶

整体框架¶

FlexAvatar 采用编码器-解码器架构：

编码器 E：从输入图像 \(I\) 提取紧凑的化身编码 \(\mathcal{A} \in \mathbb{R}^{H_l \times W_l \times D}\)（UV 空间中的 2D 隐编码）
解码器 D：将面部表情 \(z_{exp}\) 融入化身表征，生成带动画的 3D 高斯属性
渲染器 \(\mathcal{R}\)：基于 3DGS 的可微光栅化从任意视角渲染

关键设计¶

1. 编码器：投影到化身流形¶

使用预训练 DINOv2 + 浅层可学习 ViT 提取图像特征 \(f_{img}\)
在模板头部网格的 UV 空间中定义查询 \(Q\)（通过正弦位置编码）
通过 cross-attention 将图像特征映射到 UV 空间，得到视角和表情无关的化身编码 \(\mathcal{A}\)

核心思路：将 3D 空间中的查询点锚定在 UV 空间上，利用交叉注意力从图像特征中检索信息。

2. 偏置吸收器（Bias Sinks）—— 核心贡献¶

问题本质：单目数据中 \(I_{drive} = I_{target}\)，表情编码 \(z_{target}\) 泄露了目标视角 \(\pi_{target}\) 的信息。

解决方案：引入两个可学习 token——\(z_{2D}\)（单目数据用）和 \(z_{3D}\)（多视角数据用），拼接到表情编码序列 \(s_{exp}\) 上：

\[s_{exp} \leftarrow [s_{exp}, z_{bias}]\]

设计动机与工作原理： - 训练时：单目样本使用 \(z_{2D}\)，多视角样本使用 \(z_{3D}\)，让解码器显式感知样本来源 - 模型学会用 \(z_{2D}\) 预测不完整的 3D 头部，用 \(z_{3D}\) 预测完整化身 - 关键在于：知识仍然跨数据集类型共享，\(z_{3D}\) 路径受益于单目数据带来的泛化能力 - 推理时：始终使用 \(z_{3D}\)，同时获得良好的泛化性和3D 完整性

3. 解码器 + StyleGAN-PixelShuffle 上采样器¶

通过 cross-attention 将化身编码与序列化的表情编码交互，实现无模型依赖的动画
使用 PixelShuffle + StyleGAN2 CNN 块的混合上采样架构，总上采样率为 8x
最终通过 grid sampling 和 MLP 解码每个 3D 高斯的属性
高斯位置初始化在模板网格表面上，学习残差偏移

4. 化身潜空间拟合¶

训练过程自然产生了光滑的化身潜空间，支持额外功能： - 少样本化身创建：编码一张图获取初始 \(\mathcal{A}^{init}\)，然后对所有观测进行优化拟合 - 单目视频化身创建：同样的拟合流程，仅优化 \(\mathcal{A}\)，冻结解码器 - 与 Autodecoder 方法不同，有编码器提供初始估计，加速优化过程

损失函数 / 训练策略¶

重建损失结合四项：

\[\mathcal{L}_{rec} = \mathcal{L}_1 + \mathcal{L}_{SSIM} + \mathcal{L}_{DINO} + \mathcal{L}_{SAM}\]

损失项	说明
\(\mathcal{L}_1\)	L1 像素损失
\(\mathcal{L}_{SSIM}\)	结构相似性损失
\(\mathcal{L}_{DINO}\)	DINOv2 中间特征图的感知损失
\(\mathcal{L}_{SAM}\)	SAM 中间特征图的感知损失

训练细节： - 5 个数据集联合训练（2 个单目 + 2 个多视角 + 1 个合成多视角） - Adam 优化器，学习率 1e-4 - 感知损失在 400k 步后引入（避免早期过拟合于高频细节） - 总计 1M 步，batch size 20，单块 A100 训练约 3 周

实验关键数据¶

3D 人像动画（VFHQ 数据集）¶

方法	PSNR↑	SSIM↑	LPIPS↓	CSIM↑
GAGAvatar	21.83	0.818	0.122	0.816
LAM	22.65	0.829	0.109	0.822
FlexAvatar	23.47	0.837	0.099	0.830

单图化身创建（Ava256 数据集）¶

方法	PSNR↑	SSIM↑	LPIPS↓	AKD↓	CSIM↑
Portrait4Dv2	11.9	0.671	0.404	7.77	0.578
GAGAvatar	12.7	0.709	0.371	7.45	0.555
LAM	13.1	0.702	0.399	11.2	0.411
FlexAvatar	16.9	0.762	0.265	5.52	0.695

PSNR 提升 3.8+ dB，LPIPS 大幅领先，说明生成的 3D 头部完整度和质量显著优于现有方法。

消融实验¶

配置	2D	3D	Bias Sinks	StyleGAN	PSNR↑	CSIM↑
only 2D	✓			✓	13.7	0.593
only 3D		✓		✓	13.2	0.119
w/o bias sinks	✓	✓		✓	14.5	0.583
w/o StyleGAN	✓	✓	✓		17.1	0.614
Ours_ref	✓	✓	✓	✓	17.2	0.621
Ours + fitting	✓	✓	✓	✓	16.9	0.682

关键发现¶

仅用单目数据：泛化好但 3D 不完整（纠缠问题导致）
仅用多视角数据：3D 完整但泛化极差（CSIM 仅 0.119）
简单混合两类数据（无 bias sinks）：不能解决纠缠问题，与 only 2D 表现接近
Bias sinks 有效：让模型学会在不同数据源上采用不同策略
拟合进一步提升：身份保持（CSIM）和表情保真度（AKD）明显改善，仅耗时约 1 分钟

亮点与洞察¶

巧妙的问题诊断：准确识别出"驱动信号-目标视角纠缠"这一核心障碍，比简单堆积更多数据更有洞察力
Bias sinks 设计极简而有效：仅两个可学习 token 就能解耦数据集偏差，无需复杂的架构修改
摆脱 3DMM 限制：通过数据驱动方式学习面部动画，不再受限于 FLAME 的预定义表情空间
统一框架覆盖多场景：单图/少样本/单目视频三种化身创建场景，用一个模型应对
在 NeRSemble 基准上：10 分钟拟合超越了 CAP4D 的 4 小时拟合

局限与展望¶

光照从输入图像中"烘焙"，无法显式控制——放入不同虚拟环境可能显得不自然
虽然架构不依赖 3DMM，但实验都用 FLAME 表情编码，舌头等细节受限
可扩展到人体全身或通用动态新视角合成，但目前仅验证了头部场景
训练需要约 3 周（单 A100），计算成本较高

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 问题诊断精准（视角-表情纠缠），bias sinks 方案简洁而原创
实验充分度: ⭐⭐⭐⭐⭐ — 4 个任务、3 个数据集、详细消融验证了每个设计选择
写作质量: ⭐⭐⭐⭐ — 论文逻辑清晰，图示直观，问题阐释透彻
价值: ⭐⭐⭐⭐⭐ — 单图 3D 化身创建的实质性突破，bias sinks 的通用设计理念值得推广