MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting¶
会议: ICLR 2026
arXiv: 2510.19210
代码: https://cvsp-lab.github.io/MoE-GS
领域: 3D视觉 / 动态场景重建
关键词: 3D Gaussian Splatting, dynamic scene, mixture of experts, novel view synthesis, knowledge distillation
一句话总结¶
提出 MoE-GS,首个将混合专家架构引入动态高斯泼溅的框架,通过 Volume-aware Pixel Router 自适应融合多种异构变形先验(HexPlane/逐高斯/多项式/插值),在 N3V 和 Technicolor 数据集上一致超越 SOTA,并通过单次渲染、门控剪枝和知识蒸馏保持效率。
研究背景与动机¶
-
领域现状:动态场景的新视角合成已从 NeRF 扩展到 3DGS,出现了多种动态高斯方法:MLP 变形网络(4DGaussians, E-D3DGS)、多项式运动模型(STG)、插值方法(Ex4DGS)等。
-
现有痛点:作者通过实证分析发现三个层面的不一致性:(a) 场景级——不同方法在不同场景上表现差异大,没有通用最优方法;(b) 空间级——同一场景中不同区域由不同方法重建最佳;(c) 时间级——同一视频中最优方法随帧动态变化。
-
核心矛盾:每种变形模型有特定的归纳偏置——HexPlane 适合低运动区域、逐高斯嵌入适合快速一致流、多项式适合全局平滑运动、插值适合局部多样运动。真实场景通常包含混合运动模式,单一方法无法全面覆盖。
-
本文要解决什么? 自适应地融合多种异构动态高斯专家,使模型在不同空间/时间区域自动选择最合适的变形先验。
-
切入角度:借鉴 MoE 架构,将每种动态 GS 方法作为一个 expert,设计路由器在像素级别自适应融合。但关键挑战是路由器需要同时感知 3D 体积信息和 2D 像素信息。
-
核心idea一句话:通过可微权重泼溅将逐高斯 3D 路由权重投射到像素空间,实现体积感知的自适应专家融合。
方法详解¶
整体框架¶
Stage 1: 各专家独立训练 → Stage 2: 冻结专家参数,训练 Volume-aware Pixel Router → 推理时:路由器自适应融合 N 个专家的渲染输出。可选后处理:剪枝 or 蒸馏。
关键设计¶
- Volume-aware Pixel Router:
- 做什么:在像素级别自适应分配专家权重,同时感知 3D 体积信息
- 核心思路:为每个高斯学习 per-Gaussian 权重 \(\bm{w}_i^{per} = [w_i, w_i^{dir}, (t \cdot w_i^{time})]^T\)(编码视角和时间依赖),通过高斯泼溅投射到 2D 像素空间得到 \(w_{2D}(u)\),再经轻量 MLP 精修后用 softmax 得到门控权重 \(G'_k(u)\)
- 设计动机:Pixel Router(纯 2D MLP)缺乏体积感知,结果过度平滑;Volume Router(直接在 3D 空间调整透明度)优化困难不稳定。Volume-aware Pixel Router 在 2D 空间优化(稳定)但使用 3D 特征(有体积上下文)
-
对比:PSNR Pixel Router 31.12 < Volume Router 32.05 < VA Pixel Router 33.23
-
单次多专家渲染 (Single-Pass Rendering):
- 做什么:将所有专家的高斯合并为一批,只做一次投影和光栅化
- 核心思路:每个高斯附加 one-hot 专家身份 \(e_j \in \mathbb{R}^K\),在 alpha blending 时按专家身份分离颜色 \(C_k(u) = \sum_j T_j(u) \alpha_j(u) c_j \cdot (e_j)_k\)
-
效果:FPS 从 40 提升到 68(Table 5)
-
门控感知高斯剪枝 (Gate-Aware Pruning):
- 做什么:移除对 MoE 输出贡献低的高斯
- 核心思路:累积门控权重对逐高斯权重的梯度 \(\mathcal{E}_i = \frac{1}{|\mathcal{D}|} \sum_v \|\frac{\partial G'_k(v)}{\partial \bm{w}_i^{per}(v)}\|\),低于阈值的高斯被剪枝
-
效果:55% 剪枝后 PSNR 仅降 0.02dB,FPS 从 44→83,内存从 878→351MB
-
知识蒸馏:
- 做什么:将 MoE 性能迁移到单个专家,实现轻量部署
- 核心思路:\(\mathcal{L}_k^{KD} = \lambda \cdot \mathcal{L}(G'_k \cdot I_{E_k}, G'_k \cdot I_{GT}) + (1-\lambda) \cdot \mathcal{L}((1-G'_k) \cdot I_{E_k}, (1-G'_k) \cdot I_{MoE})\),路由器权重高的区域用 GT 监督,低的区域用 MoE 输出作伪标签
- 设计动机:当 N≥4 时多专家推理开销大,蒸馏到单专家可保持接近 MoE 的性能
损失函数 / 训练策略¶
- 训练损失:L1 + SSIM(标准 3DGS 损失)
- 两阶段训练:Stage 1 独立训练各 expert,Stage 2 冻结 expert 只训练 router
- 专家可用较少训练预算:20% 训练预算的 MoE 仍优于 100% 预算的单专家
实验关键数据¶
主实验¶
| 方法 | N3V 平均 PSNR↑ | Technicolor 平均 PSNR↑ |
|---|---|---|
| 4DGaussians | 31.43 | 30.79 |
| E-D3DGS | 32.33 | 33.06 |
| STG | 31.92 | 33.69 |
| Ex4DGS | 32.10 | 33.45 |
| MoE-GS (N=3) | 33.23 | 34.55 |
| MoE-GS (N=4) | 33.27 | - |
MoE-GS (N=3) 比最强单专家 E-D3DGS 提升 0.9 dB PSNR。
消融实验¶
| Router 变体 | PSNR↑ | SSIM↑ |
|---|---|---|
| Pixel Router | 31.12 | 0.952 |
| Volume Router | 32.05 | 0.951 |
| Volume-aware Pixel Router | 33.23 | 0.954 |
| 效率策略 | PSNR | FPS | Memory (MB) |
|---|---|---|---|
| w/o 两者 | 32.54 | 36 | 747 |
| Full MoE-GS (N=3) | 33.23 | 68 | 270 |
关键发现¶
- 专家多样性很重要:N=2→3 提升显著(+0.69 dB),N=3→4 提升较小(+0.04 dB)
- 低训练预算仍有效:20% 训练预算的 MoE-GS(32.60)仍优于 100% 的任何单专家
- 路由器可视化表明路由权重与运动模式语义对应——高运动区域倾向选择逐高斯变形专家
- 蒸馏后的单专家可达到接近 MoE 的性能(具体数值在附录中)
亮点与洞察¶
- 泼溅即路由:巧妙复用 3DGS 的泼溅机制进行路由权重传播——学习 3D 权重但在 2D 空间优化和融合,兼得体积感知和优化稳定性
- 异构专家互补:不同变形先验(嵌入/多项式/插值)在不同运动区域各有优势,MoE 架构天然适合这种互补关系
- 效率工具箱完整:从单次渲染、门控剪枝到完整蒸馏,提供了从高质量到高效率的完整部署路径
局限性 / 可改进方向¶
- MoE 框架本身增加了参数量和训练成本(N 个专家 = N 倍训练时间,虽然可降低到 20%)
- 两阶段训练(先训专家后训 router)不是联合端到端优化,可能未达到最优
- 专家组合是手动选择的固定集合,未探索自动化的专家选择/构造
- 仅在视频级别多视角数据集上验证,未扩展到单目动态场景
相关工作与启发¶
- vs 4DGaussians: 4DGaussians 使用 HexPlane 嵌入做变形,在低运动场景好但高运动场景差;MoE-GS 可自动选择合适专家
- vs STG: STG 用多项式模型描述轨迹,全局平滑但局部细节不足;作为 MoE 专家之一可以贡献其全局先验
- vs E-D3DGS: E-D3DGS 单独是最强 baseline(32.33),但 MoE-GS 融合多专家后达到 33.23
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个将 MoE 引入动态 GS,Volume-aware Pixel Router 设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ 两个标准 benchmark、多种 N 配置、全面消融、效率分析、蒸馏评估
- 写作质量: ⭐⭐⭐⭐ 动机深入(三层面分析),方法描述清晰
- 价值: ⭐⭐⭐⭐ MoE+GS 是有前景的方向,但通用性待进一步验证