跳转至

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

会议: ICLR 2026
arXiv: 2510.19210
代码: https://cvsp-lab.github.io/MoE-GS
领域: 3D视觉 / 动态场景重建
关键词: 3D Gaussian Splatting, dynamic scene, mixture of experts, novel view synthesis, knowledge distillation

一句话总结

提出 MoE-GS,首个将混合专家架构引入动态高斯泼溅的框架,通过 Volume-aware Pixel Router 自适应融合多种异构变形先验(HexPlane/逐高斯/多项式/插值),在 N3V 和 Technicolor 数据集上一致超越 SOTA,并通过单次渲染、门控剪枝和知识蒸馏保持效率。

研究背景与动机

  1. 领域现状:动态场景的新视角合成已从 NeRF 扩展到 3DGS,出现了多种动态高斯方法:MLP 变形网络(4DGaussians, E-D3DGS)、多项式运动模型(STG)、插值方法(Ex4DGS)等。

  2. 现有痛点:作者通过实证分析发现三个层面的不一致性:(a) 场景级——不同方法在不同场景上表现差异大,没有通用最优方法;(b) 空间级——同一场景中不同区域由不同方法重建最佳;(c) 时间级——同一视频中最优方法随帧动态变化。

  3. 核心矛盾:每种变形模型有特定的归纳偏置——HexPlane 适合低运动区域、逐高斯嵌入适合快速一致流、多项式适合全局平滑运动、插值适合局部多样运动。真实场景通常包含混合运动模式,单一方法无法全面覆盖。

  4. 本文要解决什么? 自适应地融合多种异构动态高斯专家,使模型在不同空间/时间区域自动选择最合适的变形先验。

  5. 切入角度:借鉴 MoE 架构,将每种动态 GS 方法作为一个 expert,设计路由器在像素级别自适应融合。但关键挑战是路由器需要同时感知 3D 体积信息和 2D 像素信息。

  6. 核心idea一句话:通过可微权重泼溅将逐高斯 3D 路由权重投射到像素空间,实现体积感知的自适应专家融合。

方法详解

整体框架

Stage 1: 各专家独立训练 → Stage 2: 冻结专家参数,训练 Volume-aware Pixel Router → 推理时:路由器自适应融合 N 个专家的渲染输出。可选后处理:剪枝 or 蒸馏。

关键设计

  1. Volume-aware Pixel Router:
  2. 做什么:在像素级别自适应分配专家权重,同时感知 3D 体积信息
  3. 核心思路:为每个高斯学习 per-Gaussian 权重 \(\bm{w}_i^{per} = [w_i, w_i^{dir}, (t \cdot w_i^{time})]^T\)(编码视角和时间依赖),通过高斯泼溅投射到 2D 像素空间得到 \(w_{2D}(u)\),再经轻量 MLP 精修后用 softmax 得到门控权重 \(G'_k(u)\)
  4. 设计动机:Pixel Router(纯 2D MLP)缺乏体积感知,结果过度平滑;Volume Router(直接在 3D 空间调整透明度)优化困难不稳定。Volume-aware Pixel Router 在 2D 空间优化(稳定)但使用 3D 特征(有体积上下文)
  5. 对比:PSNR Pixel Router 31.12 < Volume Router 32.05 < VA Pixel Router 33.23

  6. 单次多专家渲染 (Single-Pass Rendering):

  7. 做什么:将所有专家的高斯合并为一批,只做一次投影和光栅化
  8. 核心思路:每个高斯附加 one-hot 专家身份 \(e_j \in \mathbb{R}^K\),在 alpha blending 时按专家身份分离颜色 \(C_k(u) = \sum_j T_j(u) \alpha_j(u) c_j \cdot (e_j)_k\)
  9. 效果:FPS 从 40 提升到 68(Table 5)

  10. 门控感知高斯剪枝 (Gate-Aware Pruning):

  11. 做什么:移除对 MoE 输出贡献低的高斯
  12. 核心思路:累积门控权重对逐高斯权重的梯度 \(\mathcal{E}_i = \frac{1}{|\mathcal{D}|} \sum_v \|\frac{\partial G'_k(v)}{\partial \bm{w}_i^{per}(v)}\|\),低于阈值的高斯被剪枝
  13. 效果:55% 剪枝后 PSNR 仅降 0.02dB,FPS 从 44→83,内存从 878→351MB

  14. 知识蒸馏:

  15. 做什么:将 MoE 性能迁移到单个专家,实现轻量部署
  16. 核心思路:\(\mathcal{L}_k^{KD} = \lambda \cdot \mathcal{L}(G'_k \cdot I_{E_k}, G'_k \cdot I_{GT}) + (1-\lambda) \cdot \mathcal{L}((1-G'_k) \cdot I_{E_k}, (1-G'_k) \cdot I_{MoE})\),路由器权重高的区域用 GT 监督,低的区域用 MoE 输出作伪标签
  17. 设计动机:当 N≥4 时多专家推理开销大,蒸馏到单专家可保持接近 MoE 的性能

损失函数 / 训练策略

  • 训练损失:L1 + SSIM(标准 3DGS 损失)
  • 两阶段训练:Stage 1 独立训练各 expert,Stage 2 冻结 expert 只训练 router
  • 专家可用较少训练预算:20% 训练预算的 MoE 仍优于 100% 预算的单专家

实验关键数据

主实验

方法 N3V 平均 PSNR↑ Technicolor 平均 PSNR↑
4DGaussians 31.43 30.79
E-D3DGS 32.33 33.06
STG 31.92 33.69
Ex4DGS 32.10 33.45
MoE-GS (N=3) 33.23 34.55
MoE-GS (N=4) 33.27 -

MoE-GS (N=3) 比最强单专家 E-D3DGS 提升 0.9 dB PSNR。

消融实验

Router 变体 PSNR↑ SSIM↑
Pixel Router 31.12 0.952
Volume Router 32.05 0.951
Volume-aware Pixel Router 33.23 0.954
效率策略 PSNR FPS Memory (MB)
w/o 两者 32.54 36 747
Full MoE-GS (N=3) 33.23 68 270

关键发现

  • 专家多样性很重要:N=2→3 提升显著(+0.69 dB),N=3→4 提升较小(+0.04 dB)
  • 低训练预算仍有效:20% 训练预算的 MoE-GS(32.60)仍优于 100% 的任何单专家
  • 路由器可视化表明路由权重与运动模式语义对应——高运动区域倾向选择逐高斯变形专家
  • 蒸馏后的单专家可达到接近 MoE 的性能(具体数值在附录中)

亮点与洞察

  • 泼溅即路由:巧妙复用 3DGS 的泼溅机制进行路由权重传播——学习 3D 权重但在 2D 空间优化和融合,兼得体积感知和优化稳定性
  • 异构专家互补:不同变形先验(嵌入/多项式/插值)在不同运动区域各有优势,MoE 架构天然适合这种互补关系
  • 效率工具箱完整:从单次渲染、门控剪枝到完整蒸馏,提供了从高质量到高效率的完整部署路径

局限性 / 可改进方向

  • MoE 框架本身增加了参数量和训练成本(N 个专家 = N 倍训练时间,虽然可降低到 20%)
  • 两阶段训练(先训专家后训 router)不是联合端到端优化,可能未达到最优
  • 专家组合是手动选择的固定集合,未探索自动化的专家选择/构造
  • 仅在视频级别多视角数据集上验证,未扩展到单目动态场景

相关工作与启发

  • vs 4DGaussians: 4DGaussians 使用 HexPlane 嵌入做变形,在低运动场景好但高运动场景差;MoE-GS 可自动选择合适专家
  • vs STG: STG 用多项式模型描述轨迹,全局平滑但局部细节不足;作为 MoE 专家之一可以贡献其全局先验
  • vs E-D3DGS: E-D3DGS 单独是最强 baseline(32.33),但 MoE-GS 融合多专家后达到 33.23

评分

  • 新颖性: ⭐⭐⭐⭐ 首个将 MoE 引入动态 GS,Volume-aware Pixel Router 设计精巧
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个标准 benchmark、多种 N 配置、全面消融、效率分析、蒸馏评估
  • 写作质量: ⭐⭐⭐⭐ 动机深入(三层面分析),方法描述清晰
  • 价值: ⭐⭐⭐⭐ MoE+GS 是有前景的方向,但通用性待进一步验证