跳转至

MAD-Avatar: Motion-Aware Animatable Gaussian Avatars Deblurring

会议: CVPR 2026
arXiv: 2411.16758
代码: GitHub
领域: 3D视觉 / 人体重建 / 去模糊
关键词: 3D human avatar, Gaussian splatting, motion blur, SMPL, deblurring

一句话总结

首次实现从模糊视频直接重建清晰可驱动3D高斯人体avatar:提出3D感知的物理模糊形成模型(将模糊分解为子帧SMPL运动+canonical 3DGS),用B-spline插值+位姿变形网络建模子帧运动,帧间正则化解决运动方向歧义,在合成和真实数据集上大幅超越"2D去模糊+3DGS"两阶段方案(PSNR提升约2.5dB)。

背景与动机

3D人体avatar重建(如GauHuman)依赖清晰多视角视频输入,但实际场景中人体运动不可避免地产生运动模糊,导致:(1) 3DGS学到畸形的3D表示(模糊的歧义性使同一模糊图可对应多种运动);(2) SMPL参数从模糊帧估计不准确。已有两阶段方案(先2D去模糊再训3DGS)不足:2D去模糊缺乏3D结构信息导致多视角不一致,反而限制3DGS重建质量。

核心问题

如何从多视角模糊视频中直接重建清晰、可驱动的3D人体avatar?关键困难是模糊引入的运动歧义(同一模糊效果可由多种运动产生)和SMPL初始化误差。

方法详解

整体框架

输入:多视角模糊视频 + 从模糊帧粗估的SMPL参数。模型同时优化两个目标:(1) canonical空间的清晰3DGS avatar;(2) 每帧曝光期内的子帧SMPL运动序列。将canonical 3DGS按估计的子帧motion warp到观测空间,渲染T个虚拟清晰帧后平均得到模拟模糊帧,与观测模糊帧计算L1 loss。

关键设计

  1. 3D Blur Formation Model: 将传统2D模糊形成公式(曝光积分)扩展到3D:模糊帧 = 1/T Σ R(W(G_canonical, S_t), R, K)。不再在像素层面做模糊核卷积,而是在3D空间做3DGS的SMPL驱动变形后渲染取平均。这使得去模糊自然地利用3D结构和多视角一致性。

  2. Sub-frame Motion Model: 由两部分组成——(a) B-spline刚体位姿插值:用P个控制节点参数化24个SMPL关节在曝光期内的连续旋转轨迹,保证运动平滑性;(b) 位姿变形网络G_disp:CNN预测每个时间步每个关节的residual displacement,捕获B-spline无法表达的高频非刚性变化。

  3. Inter-frame Motion Regularization: 解决运动方向歧义(图1(c)中展示的问题——两个对称方向的运动可产生相似模糊)。约束当前帧最后时间步的位姿与下一帧第一时间步的位姿接近(测地线距离),利用视频帧间连续性打破对称歧义。

  4. SMPL参数联合优化: shape β、LBS权重(初始+CNN偏移)、每帧子帧pose都作为可学习参数联合优化,不依赖精确的初始SMPL估计。

损失函数 / 训练策略

L = L1(合成模糊帧, 观测模糊帧) + L_reg(帧间位姿连续性正则)。Adam优化器,学习率和decay follow原始3DGS设置。输入512×512(合成)/612×512(真实),单卡RTX 4090。

实验关键数据

合成数据集(ZJU-MoCap, K_blur=5)

方法 PSNR↑ SSIM↑ LPIPS↓
GauHuman (直接用模糊帧) 23.08 0.766 0.228
BSST + GauHuman (最佳两阶段) 23.08 0.770 0.221
Ours 25.55 0.829 0.148

真实数据集(360°混合曝光相机)

方法 PSNR↑ SSIM↑ LPIPS↓
BSST + GauHuman 25.57 0.807 0.234
Ours 27.01 0.827 0.167

消融实验要点

  • 去掉B-spline插值(独立优化每步位姿): PSNR降1.5dB,因为无约束的各时间步位姿优化导致无序运动估计
  • 去掉位姿变形网络: PSNR降0.25dB,B-spline单独不足以捕获复杂运动细节
  • 去掉帧间正则化: 中间时间步(t=0.5)几乎无差别,但非中间时间步性能显著下降(PSNR降约1dB),因为运动方向误判
  • 去掉SMPL优化: PSNR降3.9dB(合成)和1.9dB(真实),说明从模糊帧的粗SMPL极不准确,联合优化必不可少
  • B-spline vs Linear vs Slerp插值: 差异很小(B-spline略优),因为位姿变形网络弥补了插值精度差异
  • 对初始SMPL扰动的鲁棒性: 即使加入较大随机扰动(ξ=0.4),PSNR仅降0.4dB,证明方法不依赖精确初始化
  • 不同模糊强度: K_blur=5/7/9/11均大幅超越baseline,说明方法对不同程度模糊鲁棒

亮点 / 我学到了什么

  • "3D-aware blur formation"范式: 不在2D做去模糊,而是在3D空间建模模糊形成过程,让去模糊和3D重建互相增强。这个思路可以迁移到其他动态3D重建任务
  • 运动方向歧义的巧妙解决: 帧间连续性正则是一个简单但关键的设计——不加它中间帧毫无差别,但非中间帧崩溃,说明方向歧义是真实存在的瓶颈
  • 360°混合曝光相机系统构建: 实际搭建了12台同步相机(4模糊+8清晰)的benchmark,对该方向有持续价值
  • iPhone Demo展示泛化性: 从单目iPhone视频+TRAM做SMPL估计也能工作,说明方法实用性较好

局限性 / 可改进方向

  • 基于SMPL,无法处理手持物体和宽松服装的运动模糊
  • 在sRGB空间做平均而非线性辐射空间,高对比度区域会有物理不准确
  • 无法恢复几何(法向/BRDF),因为基于3DGS表示
  • 训练开销未详细讨论(多个子帧渲染+平均可能较慢)

与相关工作的对比

  • vs BAD-NeRF/Deblur-NeRF: 这些方法处理静态场景的相机运动模糊或defocus blur,不适用于动态人体的运动模糊
  • vs DyBluRF/BARD-GS: 处理动态场景模糊但无法输出可驱动的avatar
  • vs GauHuman/3DGS-Avatar: 清晰输入的avatar方法,遇到模糊输入严重退化

与我的研究方向的关联

  • 3D人体重建非核心关注方向,但"3D-aware blur formation"的思路在视频理解中可能有用——通过物理建模模糊来增强对真实场景的鲁棒性
  • 与ideas/3d_vision中的3DGS相关idea有间接关联

评分

  • 新颖性: ⭐⭐⭐⭐ 首次做"模糊视频→清晰可驱动avatar"的问题设定,3D blur formation model设计优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据集,10+种消融,多种鲁棒性测试(扰动/blur强度/视角数/mask方法),还有iPhone demo
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表信息量丰富,问题动机交代得很好
  • 对我的价值: ⭐⭐⭐ 3D blur formation的方法论可借鉴,不过人体avatar方向本身非核心