MIGS: Multi-Identity Gaussian Splatting via Tensor Decomposition¶
会议: ECCV 2024
arXiv: 2407.07284
代码: 项目页面
领域: 3D视觉
关键词: 3D Gaussian Splatting, 多身份表示, 张量分解, 人体动画, 单目视频
一句话总结¶
提出MIGS,通过CP张量分解将多个人体身份的3DGS参数统一到一个低秩张量中,在大幅减少参数量的同时实现了对未见姿态的鲁棒动画。
研究背景与动机¶
领域现状: 3D Gaussian Splatting (3DGS) 已成功应用于人体avatar建模,能实现实时渲染且视觉质量高。现有方法如3DGS-Avatar、GauHuman等将3DGS与SMPL人体先验结合,从单目视频学习可动画的人体表示。
现有痛点: 当前所有3DGS人体方法都是单身份(per-identity)优化——每个人需要独立训练一个模型。这导致:(a) 多人场景时参数量线性增长,\(N_i\)个人需要\(N_i \times N_g \times M\)个参数;(b) 单个身份的训练数据有限,面对分布外(OOD)姿态时动画质量急剧下降。
核心矛盾: 单身份模型只能学到有限的人体变形模式,但真实应用需要在极端姿态(如高难度舞蹈)下保持动画鲁棒性。多身份联合学习可以共享变形知识,但如何在不爆炸参数量的前提下实现?
本文目标: 从单目视频学习多身份统一的3DGS表示,既能压缩参数,又能通过跨身份知识共享提升OOD姿态下的动画鲁棒性。
切入角度: 借鉴经典TensorFaces的思路,将所有身份的Gaussian参数组织成高阶张量,利用CP分解实现低秩近似。
核心 idea: 不同人体共享相似的结构特征,因此多身份Gaussian参数张量具有低秩结构,可以用CP分解高效表示。
方法详解¶
整体框架¶
MIGS的管线分为三步:(1) 为每个身份\(i\)定义canonical空间下的3D Gaussians,参数包括位置\(\boldsymbol{\mu}\)、缩放\(\boldsymbol{s}\)、旋转四元数\(\boldsymbol{q}\)、特征向量\(\boldsymbol{f}\)和不透明度\(\alpha\);(2) 将所有身份的Gaussian参数堆叠成三阶张量\(\boldsymbol{\mathcal{W}} \in \mathbb{R}^{N_i \times N_g \times M}\);(3) 对该张量进行CP分解,只学习分解后的因子矩阵。动画时使用非刚性变形网络\(f_d\)和基于LBS的刚性变换将canonical Gaussians变换到观察空间。
关键设计¶
- 高阶张量构建: 对于\(N_i\)个身份,每个有\(N_g\)个Gaussians,每个Gaussian有\(M=43\)维参数(3位置+3缩放+4旋转+32特征+1不透明度),构建张量:
这样能自然地将"身份"、"Gaussian索引"、"参数类型"三个维度解耦。
- CP张量分解: 对张量\(\boldsymbol{\mathcal{W}}\)进行CANDECOMP/PARAFAC分解。先沿第二维展开得到\(\boldsymbol{W}_{(2)} \in \mathbb{R}^{N_g \times (N_i M)}\),然后近似:
其中\(\boldsymbol{U}_1 \in \mathbb{R}^{M \times R}\)、\(\boldsymbol{U}_2 \in \mathbb{R}^{N_i \times R}\)、\(\boldsymbol{U}_3 \in \mathbb{R}^{N_g \times R}\),\(\odot\)为Khatri-Rao积。实际只需学习\((M + N_i + N_g)R\)个参数,而非\(M \cdot N_i \cdot N_g\)个。当\(R=100, N_g=5 \times 10^4, N_i=30\)时,参数量从\(6.5 \times 10^7\)降至\(5 \times 10^6\),降低一个数量级。
-
非刚性-刚性变形: 非刚性变形网络\(f_d\)输出位置/缩放/旋转的偏移量:\((\delta\boldsymbol{\mu}, \delta\boldsymbol{s}, \delta\boldsymbol{q}, \boldsymbol{z}) = f_d(\boldsymbol{\mu}_c; \boldsymbol{z}_p)\)。刚性变换基于SMPL的LBS:\(\boldsymbol{T} = \sum_{b=1}^{B} f_r(\boldsymbol{\mu}_d)_b \boldsymbol{B}_b\)。颜色通过MLP \(f_c\) 从特征向量和球谐基预测。
-
初始化策略: 用第一个身份的SMPL mesh采样初始化\(N_g\)个点,对其参数矩阵用TensorLy的CPPower算法计算CP分解,得到\(\boldsymbol{U}_1, \boldsymbol{U}_3\)和\(\boldsymbol{U}_2\)的第一行,然后将\(\boldsymbol{U}_2\)第一行复制到所有行。
-
个性化与新身份: (a) 个性化:冻结其他参数,仅微调颜色MLP \(f_c\)来恢复高频细节;(b) 新身份:在\(\boldsymbol{U}_2\)中添加新行,仅优化新行和\(f_c\),不破坏已学到的多身份变形知识。
损失函数 / 训练策略¶
沿用3DGS-Avatar的损失函数:RGB光度损失 + mask损失 + 蒙皮权重正则化 + as-isometric-as-possible正则化。训练时交替从不同身份采样帧进行渲染优化。特别地,不使用per-frame latent code以避免对训练帧的过拟合。
实验关键数据¶
主实验¶
ZJU-MoCap新视角合成 (6个身份训练):
| 方法 | 377 PSNR↑ | 386 PSNR↑ | 392 PSNR↑ | 394 PSNR↑ |
|---|---|---|---|---|
| HumanNeRF | 30.41 | 33.20 | 31.04 | 30.31 |
| 3DGS-Avatar | 30.64 | 33.63 | 31.66 | 30.54 |
| MIGS (Ours) | 32.85 | 34.98 | 33.88 | 32.28 |
AIST++ 舞蹈数据集 (30个身份训练):
| 方法 | Basic PSNR↑ | Basic LPIPS*↓ | Advanced PSNR↑ | Advanced LPIPS*↓ |
|---|---|---|---|---|
| HumanNeRF | 24.58 | 29.20 | 22.01 | 39.01 |
| 3DGS-Avatar | 28.89 | 18.20 | 25.51 | 28.86 |
| MIGS | 29.82 | 17.73 | 26.54 | 26.02 |
消融实验¶
CP分解秩R的影响 (AIST++ Advanced Test, LPIPS*↓):
| 身份数 | R=10 | R=100 | R=200 |
|---|---|---|---|
| 10 | ~28 | ~26 | ~26 |
| 20 | ~32 | ~27 | ~27 |
| 30 | ~38 | ~28 | ~27 |
R=10不足以捕获多身份的多样性,R=100已经足够,R=200无显著提升。个性化微调后R=100和R=200效果几乎一致。
关键发现¶
- 增加训练身份数量→提升OOD姿态鲁棒性(LPIPS降低),但结果变平滑→个性化微调可以恢复细节
- 在AIST++的高难度舞蹈姿态上,MIGS显著优于所有单身份方法,尤其在四肢交叉等极端姿态下
- 新身份学习仅需10秒短视频 + 优化\(\boldsymbol{U}_2\)的新行即可
亮点与洞察¶
- 低秩假设的物理直觉: 不同人体共享骨骼结构和运动模式,因此参数张量的低秩结构有很好的先验支撑
- 参数效率极高: 30个身份仅需单一身份1/13的参数量
- 可扩展设计: 新身份只需添加一行,不需要重新训练整个模型
- 将经典的张量分解方法(TensorFaces思想)优雅地迁移到3DGS时代
局限与展望¶
- 身份数很多时结果变平滑,需要依赖个性化微调
- 所有身份共享同样数量的Gaussians \(N_g\),无法适应不同体型差异
- 当前仅验证到30个身份,千级规模的可扩展性未验证
- 非刚性变形网络仍然是共享MLP,可能限制极端变形的表达
相关工作与启发¶
- TensorFaces (2002): 多线性张量分解表示人脸变化模式的开创性工作,MIGS的直接灵感来源
- 3DGS-Avatar: MIGS的单身份基线,去掉了per-frame latent code以增强泛化性
- SNARF: 可微前向蒙皮方法,用于MIGS的刚性变换模块
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将CP张量分解引入3DGS多身份建模
- 实验充分度: ⭐⭐⭐⭐ — 两个数据集+详细消融+新身份泛化实验
- 写作质量: ⭐⭐⭐⭐ — 清晰的数学推导和直觉解释
- 价值: ⭐⭐⭐⭐ — 多身份高效表示有实际应用潜力
相关论文¶
- [ECCV 2024] 3iGS: Factorised Tensorial Illumination for 3D Gaussian Splatting
- [ECCV 2024] MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images
- [ECCV 2024] GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing
- [CVPR 2026] Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery
- [CVPR 2026] QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition