MAD-Avatar: Motion-Aware Animatable Gaussian Avatars Deblurring¶

会议: CVPR 2026
arXiv: 2411.16758
代码: GitHub
领域: 3D视觉 / 人体重建 / 去模糊
关键词: 3D human avatar, Gaussian splatting, motion blur, SMPL, deblurring

一句话总结¶

首次实现从模糊视频直接重建清晰可驱动3D高斯人体avatar：提出3D感知的物理模糊形成模型(将模糊分解为子帧SMPL运动+canonical 3DGS)，用B-spline插值+位姿变形网络建模子帧运动，帧间正则化解决运动方向歧义，在合成和真实数据集上大幅超越"2D去模糊+3DGS"两阶段方案(PSNR提升约2.5dB)。

背景与动机¶

3D人体avatar重建(如GauHuman)依赖清晰多视角视频输入，但实际场景中人体运动不可避免地产生运动模糊，导致：(1) 3DGS学到畸形的3D表示(模糊的歧义性使同一模糊图可对应多种运动)；(2) SMPL参数从模糊帧估计不准确。已有两阶段方案(先2D去模糊再训3DGS)不足：2D去模糊缺乏3D结构信息导致多视角不一致，反而限制3DGS重建质量。

核心问题¶

如何从多视角模糊视频中直接重建清晰、可驱动的3D人体avatar？关键困难是模糊引入的运动歧义(同一模糊效果可由多种运动产生)和SMPL初始化误差。

方法详解¶

整体框架¶

输入：多视角模糊视频 + 从模糊帧粗估的SMPL参数。模型同时优化两个目标：(1) canonical空间的清晰3DGS avatar；(2) 每帧曝光期内的子帧SMPL运动序列。将canonical 3DGS按估计的子帧motion warp到观测空间，渲染T个虚拟清晰帧后平均得到模拟模糊帧，与观测模糊帧计算L1 loss。

关键设计¶

3D Blur Formation Model: 将传统2D模糊形成公式(曝光积分)扩展到3D：模糊帧 = 1/T Σ R(W(G_canonical, S_t), R, K)。不再在像素层面做模糊核卷积，而是在3D空间做3DGS的SMPL驱动变形后渲染取平均。这使得去模糊自然地利用3D结构和多视角一致性。
Sub-frame Motion Model: 由两部分组成——(a) B-spline刚体位姿插值：用P个控制节点参数化24个SMPL关节在曝光期内的连续旋转轨迹，保证运动平滑性；(b) 位姿变形网络G_disp：CNN预测每个时间步每个关节的residual displacement，捕获B-spline无法表达的高频非刚性变化。
Inter-frame Motion Regularization: 解决运动方向歧义(图1(c)中展示的问题——两个对称方向的运动可产生相似模糊)。约束当前帧最后时间步的位姿与下一帧第一时间步的位姿接近(测地线距离)，利用视频帧间连续性打破对称歧义。
SMPL参数联合优化: shape β、LBS权重(初始+CNN偏移)、每帧子帧pose都作为可学习参数联合优化，不依赖精确的初始SMPL估计。

损失函数 / 训练策略¶

L = L1(合成模糊帧, 观测模糊帧) + L_reg(帧间位姿连续性正则)。Adam优化器，学习率和decay follow原始3DGS设置。输入512×512(合成)/612×512(真实)，单卡RTX 4090。

实验关键数据¶

合成数据集(ZJU-MoCap, K_blur=5)¶

方法	PSNR↑	SSIM↑	LPIPS↓
GauHuman (直接用模糊帧)	23.08	0.766	0.228
BSST + GauHuman (最佳两阶段)	23.08	0.770	0.221
Ours	25.55	0.829	0.148

真实数据集(360°混合曝光相机)¶

方法	PSNR↑	SSIM↑	LPIPS↓
BSST + GauHuman	25.57	0.807	0.234
Ours	27.01	0.827	0.167

消融实验要点¶

去掉B-spline插值(独立优化每步位姿): PSNR降1.5dB，因为无约束的各时间步位姿优化导致无序运动估计
去掉位姿变形网络: PSNR降0.25dB，B-spline单独不足以捕获复杂运动细节
去掉帧间正则化: 中间时间步(t=0.5)几乎无差别，但非中间时间步性能显著下降(PSNR降约1dB)，因为运动方向误判
去掉SMPL优化: PSNR降3.9dB(合成)和1.9dB(真实)，说明从模糊帧的粗SMPL极不准确，联合优化必不可少
B-spline vs Linear vs Slerp插值: 差异很小(B-spline略优)，因为位姿变形网络弥补了插值精度差异
对初始SMPL扰动的鲁棒性: 即使加入较大随机扰动(ξ=0.4)，PSNR仅降0.4dB，证明方法不依赖精确初始化
不同模糊强度: K_blur=5/7/9/11均大幅超越baseline，说明方法对不同程度模糊鲁棒

亮点 / 我学到了什么¶

"3D-aware blur formation"范式: 不在2D做去模糊，而是在3D空间建模模糊形成过程，让去模糊和3D重建互相增强。这个思路可以迁移到其他动态3D重建任务
运动方向歧义的巧妙解决: 帧间连续性正则是一个简单但关键的设计——不加它中间帧毫无差别，但非中间帧崩溃，说明方向歧义是真实存在的瓶颈
360°混合曝光相机系统构建: 实际搭建了12台同步相机(4模糊+8清晰)的benchmark，对该方向有持续价值
iPhone Demo展示泛化性: 从单目iPhone视频+TRAM做SMPL估计也能工作，说明方法实用性较好

局限性 / 可改进方向¶

基于SMPL，无法处理手持物体和宽松服装的运动模糊
在sRGB空间做平均而非线性辐射空间，高对比度区域会有物理不准确
无法恢复几何(法向/BRDF)，因为基于3DGS表示
训练开销未详细讨论(多个子帧渲染+平均可能较慢)

与相关工作的对比¶

vs BAD-NeRF/Deblur-NeRF: 这些方法处理静态场景的相机运动模糊或defocus blur，不适用于动态人体的运动模糊
vs DyBluRF/BARD-GS: 处理动态场景模糊但无法输出可驱动的avatar
vs GauHuman/3DGS-Avatar: 清晰输入的avatar方法，遇到模糊输入严重退化

与我的研究方向的关联¶

3D人体重建非核心关注方向，但"3D-aware blur formation"的思路在视频理解中可能有用——通过物理建模模糊来增强对真实场景的鲁棒性
与ideas/3d_vision中的3DGS相关idea有间接关联

评分¶

新颖性: ⭐⭐⭐⭐ 首次做"模糊视频→清晰可驱动avatar"的问题设定，3D blur formation model设计优雅
实验充分度: ⭐⭐⭐⭐⭐ 合成+真实数据集，10+种消融，多种鲁棒性测试(扰动/blur强度/视角数/mask方法)，还有iPhone demo
写作质量: ⭐⭐⭐⭐ 逻辑清晰，图表信息量丰富，问题动机交代得很好
对我的价值: ⭐⭐⭐ 3D blur formation的方法论可借鉴，不过人体avatar方向本身非核心