MAD-Avatar: Motion-Aware Animatable Gaussian Avatars Deblurring¶
会议: CVPR 2026
arXiv: 2411.16758
代码: GitHub
领域: 3D视觉 / 人体重建 / 去模糊
关键词: 3D human avatar, Gaussian splatting, motion blur, SMPL, deblurring
一句话总结¶
首次实现从模糊视频直接重建清晰可驱动3D高斯人体avatar:提出3D感知的物理模糊形成模型(将模糊分解为子帧SMPL运动+canonical 3DGS),用B-spline插值+位姿变形网络建模子帧运动,帧间正则化解决运动方向歧义,在合成和真实数据集上大幅超越"2D去模糊+3DGS"两阶段方案(PSNR提升约2.5dB)。
背景与动机¶
3D人体avatar重建(如GauHuman)依赖清晰多视角视频输入,但实际场景中人体运动不可避免地产生运动模糊,导致:(1) 3DGS学到畸形的3D表示(模糊的歧义性使同一模糊图可对应多种运动);(2) SMPL参数从模糊帧估计不准确。已有两阶段方案(先2D去模糊再训3DGS)不足:2D去模糊缺乏3D结构信息导致多视角不一致,反而限制3DGS重建质量。
核心问题¶
如何从多视角模糊视频中直接重建清晰、可驱动的3D人体avatar?关键困难是模糊引入的运动歧义(同一模糊效果可由多种运动产生)和SMPL初始化误差。
方法详解¶
整体框架¶
输入:多视角模糊视频 + 从模糊帧粗估的SMPL参数。模型同时优化两个目标:(1) canonical空间的清晰3DGS avatar;(2) 每帧曝光期内的子帧SMPL运动序列。将canonical 3DGS按估计的子帧motion warp到观测空间,渲染T个虚拟清晰帧后平均得到模拟模糊帧,与观测模糊帧计算L1 loss。
关键设计¶
-
3D Blur Formation Model: 将传统2D模糊形成公式(曝光积分)扩展到3D:模糊帧 = 1/T Σ R(W(G_canonical, S_t), R, K)。不再在像素层面做模糊核卷积,而是在3D空间做3DGS的SMPL驱动变形后渲染取平均。这使得去模糊自然地利用3D结构和多视角一致性。
-
Sub-frame Motion Model: 由两部分组成——(a) B-spline刚体位姿插值:用P个控制节点参数化24个SMPL关节在曝光期内的连续旋转轨迹,保证运动平滑性;(b) 位姿变形网络G_disp:CNN预测每个时间步每个关节的residual displacement,捕获B-spline无法表达的高频非刚性变化。
-
Inter-frame Motion Regularization: 解决运动方向歧义(图1(c)中展示的问题——两个对称方向的运动可产生相似模糊)。约束当前帧最后时间步的位姿与下一帧第一时间步的位姿接近(测地线距离),利用视频帧间连续性打破对称歧义。
-
SMPL参数联合优化: shape β、LBS权重(初始+CNN偏移)、每帧子帧pose都作为可学习参数联合优化,不依赖精确的初始SMPL估计。
损失函数 / 训练策略¶
L = L1(合成模糊帧, 观测模糊帧) + L_reg(帧间位姿连续性正则)。Adam优化器,学习率和decay follow原始3DGS设置。输入512×512(合成)/612×512(真实),单卡RTX 4090。
实验关键数据¶
合成数据集(ZJU-MoCap, K_blur=5)¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| GauHuman (直接用模糊帧) | 23.08 | 0.766 | 0.228 |
| BSST + GauHuman (最佳两阶段) | 23.08 | 0.770 | 0.221 |
| Ours | 25.55 | 0.829 | 0.148 |
真实数据集(360°混合曝光相机)¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| BSST + GauHuman | 25.57 | 0.807 | 0.234 |
| Ours | 27.01 | 0.827 | 0.167 |
消融实验要点¶
- 去掉B-spline插值(独立优化每步位姿): PSNR降1.5dB,因为无约束的各时间步位姿优化导致无序运动估计
- 去掉位姿变形网络: PSNR降0.25dB,B-spline单独不足以捕获复杂运动细节
- 去掉帧间正则化: 中间时间步(t=0.5)几乎无差别,但非中间时间步性能显著下降(PSNR降约1dB),因为运动方向误判
- 去掉SMPL优化: PSNR降3.9dB(合成)和1.9dB(真实),说明从模糊帧的粗SMPL极不准确,联合优化必不可少
- B-spline vs Linear vs Slerp插值: 差异很小(B-spline略优),因为位姿变形网络弥补了插值精度差异
- 对初始SMPL扰动的鲁棒性: 即使加入较大随机扰动(ξ=0.4),PSNR仅降0.4dB,证明方法不依赖精确初始化
- 不同模糊强度: K_blur=5/7/9/11均大幅超越baseline,说明方法对不同程度模糊鲁棒
亮点 / 我学到了什么¶
- "3D-aware blur formation"范式: 不在2D做去模糊,而是在3D空间建模模糊形成过程,让去模糊和3D重建互相增强。这个思路可以迁移到其他动态3D重建任务
- 运动方向歧义的巧妙解决: 帧间连续性正则是一个简单但关键的设计——不加它中间帧毫无差别,但非中间帧崩溃,说明方向歧义是真实存在的瓶颈
- 360°混合曝光相机系统构建: 实际搭建了12台同步相机(4模糊+8清晰)的benchmark,对该方向有持续价值
- iPhone Demo展示泛化性: 从单目iPhone视频+TRAM做SMPL估计也能工作,说明方法实用性较好
局限性 / 可改进方向¶
- 基于SMPL,无法处理手持物体和宽松服装的运动模糊
- 在sRGB空间做平均而非线性辐射空间,高对比度区域会有物理不准确
- 无法恢复几何(法向/BRDF),因为基于3DGS表示
- 训练开销未详细讨论(多个子帧渲染+平均可能较慢)
与相关工作的对比¶
- vs BAD-NeRF/Deblur-NeRF: 这些方法处理静态场景的相机运动模糊或defocus blur,不适用于动态人体的运动模糊
- vs DyBluRF/BARD-GS: 处理动态场景模糊但无法输出可驱动的avatar
- vs GauHuman/3DGS-Avatar: 清晰输入的avatar方法,遇到模糊输入严重退化
与我的研究方向的关联¶
- 3D人体重建非核心关注方向,但"3D-aware blur formation"的思路在视频理解中可能有用——通过物理建模模糊来增强对真实场景的鲁棒性
- 与ideas/3d_vision中的3DGS相关idea有间接关联
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次做"模糊视频→清晰可驱动avatar"的问题设定,3D blur formation model设计优雅
- 实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据集,10+种消融,多种鲁棒性测试(扰动/blur强度/视角数/mask方法),还有iPhone demo
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表信息量丰富,问题动机交代得很好
- 对我的价值: ⭐⭐⭐ 3D blur formation的方法论可借鉴,不过人体avatar方向本身非核心