AdaHuman: Animatable Detailed 3D Human Generation with Compositional Multiview Diffusion¶

会议: ICCV 2025
arXiv: 2505.24877
代码: https://nvlabs.github.io/AdaHuman (将公开)
领域: 3D人体重建与生成 / 3D Gaussian Splatting / 扩散模型
关键词: 3D人体生成, 多视角扩散, 3DGS, 姿态条件生成, 组合式细化

一句话总结¶

提出AdaHuman框架，通过姿态条件的联合3D扩散模型（在扩散过程中同步进行多视角图像生成与3DGS重建以保证3D一致性）和组合式3DGS细化模块（利用crop-aware camera ray map融合局部精细细节），从单张野外图片生成高保真可动画的3D人体avatar，在重建和重姿态任务上全面超越现有SOTA。

背景与动机¶

从单张图片生成高质量可动画的3D人体模型是游戏、动画和VR的核心需求。现有方法存在两大痛点：

SDS蒸馏方法（DreamFusion等）虽灵活，但存在过饱和伪影、生成速度极慢（几十分钟到小时级），不适合大规模avatar创建。
多视角生成+重建的流水线方法（如Human3Diffusion）虽然更快更真实，但生成的avatar通常保持输入图像的原始姿态，导致自遮挡严重，难以绑骨动画；且输出分辨率受限于前馈3DGS生成器的固定分辨率（如LGM的256×256），丢失精细细节。

此外，基于SMPL模板的mesh重建方法（SiTH、SIFU）受限于固定拓扑结构，在松散衣物上表现不佳。

核心问题¶

如何从单张野外图片生成同时具备高保真细节和可动画能力的3D人体avatar？需要解决两个子问题：(1) 如何在姿态变化时保持多视角一致性并恢复遮挡区域的几何与外观？(2) 如何突破前馈3DGS生成器的分辨率瓶颈，获得精细局部细节？

方法详解¶

整体框架¶

AdaHuman是一个两阶段pipeline： - 第一阶段：姿态条件联合3D扩散（Pose-Conditioned 3D Joint Diffusion）——输入单张图片，通过在扩散过程中每一步交替进行多视角LDM去噪和3DGS重建，生成粗糙但3D一致的全身3DGS avatar \(\mathcal{G}_{\text{coarse}}\)，支持重建原姿态或生成标准A-pose。 - 第二阶段：组合式3DGS细化（Compositional 3DGS Refinement）——将粗糙avatar的局部身体部位（头部、上半身、下半身）通过SDEdit精细化，再用visibility-aware组合策略融合成高细节的完整avatar \(\mathcal{G}_{\text{refined}}\)。

关键设计¶

姿态条件联合3D扩散：基于Stable Diffusion的U-Net架构，将2D自注意力替换为3D跨视角注意力。以SMPL语义pose map和camera ray map作为额外条件输入。关键创新在于每个去噪步\(t\)都插入3DGS生成器\(\mathbf{G}\)：先由LDM预测clean图像\(\mathbf{x}^{t \to 0}\), 用\(\mathbf{G}\)生成3DGS \(\mathcal{G}_t\)，再渲染得到3D一致的clean图像\(\hat{\mathbf{x}}^{t \to 0}\)用于下一步去噪。通过简单切换pose条件即可生成任意目标姿态的avatar，无需标准姿态训练数据。
Crop-aware Camera Ray Map：解决局部视角与全局视角的3D坐标对应问题。对于局部裁切视角中的像素\((u,v)\)，通过裁切框坐标映射回全局视角坐标\((i,j)\)，然后用全局camera ray map方程计算Plücker ray embedding。这使得3DGS生成器能在统一的全局空间中同时处理全身和局部视角的输入。
Visibility-aware 3DGS组合：通过两个准则智能合并局部和全局3DGS：(1) View Coverage——统计每个Gaussian被多少输入视角覆盖，覆盖不足的视为不可靠而丢弃；(2) Visibility Salience——计算alpha通道在所有渲染视角上的梯度幅值，梯度低的视为噪声。同时：若某splat在更精细的部位（如头部优先于上身）有良好覆盖，则从较粗部位中删除冗余splat，避免重叠冲突。

损失函数 / 训练策略¶

LDM损失：标准MSE噪声预测损失 \(\mathcal{L}_{\text{LDM}} = \mathcal{L}_{\text{MSE}}(\epsilon, \epsilon_\theta)\)
3DGS生成器损失：\(\mathcal{L}_\mathbf{G} = \lambda_{\text{MSE}} \mathcal{L}_{\text{MSE}} + \lambda_{\text{LPIPS}} \mathcal{L}_{\text{LPIPS}} + \lambda_{\text{reg}} \mathcal{L}_{\text{reg}}\)（含表面正则化）
额外采样12个辅助视角对3DGS提供稠密监督
训练数据：MVHumanNet（6209个subject的多相机视频）+ CustomHumans（589个mesh渲染）
训练流程：先在全身视角训练20k步→加入局部视角训练30k步→重姿态微调10k步
16张A100 80GB，batch size=128，lr=5e-5

实验关键数据¶

Avatar重建（CustomHumans数据集）¶

方法	PSNR↑	SSIM↑	LPIPS↓	FID↓
LGM	18.99	0.8445	0.1664	122.3
SiTH	20.77	0.8727	0.1277	42.9
SIFU	20.59	0.8853	0.1359	92.6
Human3Diffusion	21.08	0.8728	0.1364	35.3
AdaHuman	21.46	0.8925	0.1087	27.3

新姿态合成（MVHumanNet数据集）¶

方法	PSNR↑	SSIM↑	LPIPS↓
SiTH	21.21	0.8742	0.1261
SIFU	21.27	0.8722	0.1244
AdaHuman + deform	23.01	0.8825	0.1100
AdaHuman	24.64	0.9046	0.0863

用户偏好研究（SHHQ数据集，28人参与）¶

对比方法	AdaHuman偏好率
vs SiTH	88.3%
vs SIFU	99.2%
vs Human3Diffusion	79.7%
vs Coarse 3DGS（消融）	93.8%

消融实验要点¶

去掉组合细化（Coarse 3DGS only）：FID从27.3退化到31.9，面部等精细区域明显模糊
直接合并（Direct Composition）：FID上升至36.2，产生大量浮动伪影
可学习合并（Learnable Composition）：FID=28.0，略有改善但仍有伪影且计算量增大
去掉联合扩散（No Joint Diffusion）：PSNR从21.46降到20.79，视角不一致性增加
添加GT Pose条件：PSNR可进一步提升至23.00，说明姿态估计精度仍有改善空间
更多身体部位（加middle部位）：与3部位（upper/lower/head）效果相当（21.43 vs 21.46 PSNR），但效率更低

亮点¶

扩散过程中嵌入3DGS重建是保证多视角一致性的优雅解法，比后处理式重建更有效
姿态条件生成可以无需标准姿态训练数据就泛化到A-pose，是零样本泛化的有趣体现
Crop-aware ray map用极简方式（坐标映射）解决了局部-全局视角在3D空间中的对应问题，无需复杂网络
Visibility-aware组合基于view coverage和alpha梯度的两个简单准则，有效避免了naïve合并的伪影问题
在松散衣物的重姿态上表现出色，能生成逼真的衣物形变效果

局限性 / 可改进方向¶

手部和手臂等遮挡严重区域的局部细化效果较差，容易产生伪影
动画能力仍依赖SMPL的skinning weights对齐，面部表情、手势和衣物形变受限
推理时间约70秒（A100），相比前馈方法（LHM等秒级推理）较慢
姿态估计误差会传播影响重建质量（GT pose可提升约1.5 dB PSNR）
两种动画模式各有trade-off：直接重姿态更逼真但慢且时序不连贯，LBS动画快但衣物形变受限

与相关工作的对比¶

vs Human3Diffusion：同为联合扩散+3DGS路线，但H3D无姿态条件（不能重姿态），无局部细化（细节模糊）。AdaHuman在PSNR上高约0.4dB，FID低约8分，且额外支持动画。
vs SiTH/SIFU：基于SMPL模板的mesh方法，受限于固定拓扑，松散衣物重建质量差。用户偏好研究中AdaHuman以88-99%的压倒性优势胜出。SiTH/SIFU在重姿态时依赖LBS，衣物形变不真实。
vs IDOL/LHM（同期工作）：IDOL和LHM走前馈路线追求效率，AdaHuman基于扩散模型利用更强的生成先验，牺牲速度换取更高的生成质量。

启发与关联¶

与扩散模型幻想视角增强3DGS的关联：AdaHuman的"扩散过程中进行3DGS重建"和该idea的"扩散增强稀疏视角3DGS"思路类似，都是用扩散模型弥补视角稀疏的问题。AdaHuman进一步证明了在扩散步骤中嵌入3D重建（而非后处理式重建）的有效性。该idea中关于不确定性加权（对幻想视角施加方差估计权重）的思想，或可引入AdaHuman的组合策略中。
组合式细化的通用性：crop-aware ray map + visibility-aware composition的方案不局限于人体，理论上可扩展到任何需要多尺度3DGS重建的场景（如大场景中的细节物体重建）。
与过程感知对齐的关联：AdaHuman在扩散过程的中间步骤引入3D约束，本质上也是一种过程感知的生成策略。若将过程感知的偏好对齐引入avatar质量评估，可能进一步提升细节质量。

评分¶

新颖性: ⭐⭐⭐⭐ 姿态条件联合扩散+组合式3DGS细化的双重创新有明确技术贡献，但联合扩散框架基于H3D的扩展
实验充分度: ⭐⭐⭐⭐⭐ 两个benchmark定量评测、用户研究、重姿态评测、详尽消融、in-the-wild展示，实验非常全面
写作质量: ⭐⭐⭐⭐ 论文结构清晰，方法描述详细，图表质量高。个别地方有typo
价值: ⭐⭐⭐⭐ 在单图3D人体生成领域推进了state-of-the-art，但推理速度是实际应用的瓶颈