MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting¶

会议: ICLR 2026
arXiv: 2510.19210
代码: https://cvsp-lab.github.io/MoE-GS
领域: 3D视觉 / 动态场景重建
关键词: 3D Gaussian Splatting, dynamic scene, mixture of experts, novel view synthesis, knowledge distillation

一句话总结¶

提出 MoE-GS，首个将混合专家架构引入动态高斯泼溅的框架，通过 Volume-aware Pixel Router 自适应融合多种异构变形先验（HexPlane/逐高斯/多项式/插值），在 N3V 和 Technicolor 数据集上一致超越 SOTA，并通过单次渲染、门控剪枝和知识蒸馏保持效率。

研究背景与动机¶

领域现状：动态场景的新视角合成已从 NeRF 扩展到 3DGS，出现了多种动态高斯方法：MLP 变形网络（4DGaussians, E-D3DGS）、多项式运动模型（STG）、插值方法（Ex4DGS）等。
现有痛点：作者通过实证分析发现三个层面的不一致性：(a) 场景级——不同方法在不同场景上表现差异大，没有通用最优方法；(b) 空间级——同一场景中不同区域由不同方法重建最佳；(c) 时间级——同一视频中最优方法随帧动态变化。
核心矛盾：每种变形模型有特定的归纳偏置——HexPlane 适合低运动区域、逐高斯嵌入适合快速一致流、多项式适合全局平滑运动、插值适合局部多样运动。真实场景通常包含混合运动模式，单一方法无法全面覆盖。
本文要解决什么？ 自适应地融合多种异构动态高斯专家，使模型在不同空间/时间区域自动选择最合适的变形先验。
切入角度：借鉴 MoE 架构，将每种动态 GS 方法作为一个 expert，设计路由器在像素级别自适应融合。但关键挑战是路由器需要同时感知 3D 体积信息和 2D 像素信息。
核心idea一句话：通过可微权重泼溅将逐高斯 3D 路由权重投射到像素空间，实现体积感知的自适应专家融合。

方法详解¶

整体框架¶

Stage 1: 各专家独立训练 → Stage 2: 冻结专家参数，训练 Volume-aware Pixel Router → 推理时：路由器自适应融合 N 个专家的渲染输出。可选后处理：剪枝 or 蒸馏。

关键设计¶

Volume-aware Pixel Router:
做什么：在像素级别自适应分配专家权重，同时感知 3D 体积信息
核心思路：为每个高斯学习 per-Gaussian 权重 \(\bm{w}_i^{per} = [w_i, w_i^{dir}, (t \cdot w_i^{time})]^T\)（编码视角和时间依赖），通过高斯泼溅投射到 2D 像素空间得到 \(w_{2D}(u)\)，再经轻量 MLP 精修后用 softmax 得到门控权重 \(G'_k(u)\)
设计动机：Pixel Router（纯 2D MLP）缺乏体积感知，结果过度平滑；Volume Router（直接在 3D 空间调整透明度）优化困难不稳定。Volume-aware Pixel Router 在 2D 空间优化（稳定）但使用 3D 特征（有体积上下文）
对比：PSNR Pixel Router 31.12 < Volume Router 32.05 < VA Pixel Router 33.23
单次多专家渲染 (Single-Pass Rendering):
做什么：将所有专家的高斯合并为一批，只做一次投影和光栅化
核心思路：每个高斯附加 one-hot 专家身份 \(e_j \in \mathbb{R}^K\)，在 alpha blending 时按专家身份分离颜色 \(C_k(u) = \sum_j T_j(u) \alpha_j(u) c_j \cdot (e_j)_k\)
效果：FPS 从 40 提升到 68（Table 5）
门控感知高斯剪枝 (Gate-Aware Pruning):
做什么：移除对 MoE 输出贡献低的高斯
核心思路：累积门控权重对逐高斯权重的梯度 \(\mathcal{E}_i = \frac{1}{|\mathcal{D}|} \sum_v \|\frac{\partial G'_k(v)}{\partial \bm{w}_i^{per}(v)}\|\)，低于阈值的高斯被剪枝
效果：55% 剪枝后 PSNR 仅降 0.02dB，FPS 从 44→83，内存从 878→351MB
知识蒸馏:
做什么：将 MoE 性能迁移到单个专家，实现轻量部署
核心思路：\(\mathcal{L}_k^{KD} = \lambda \cdot \mathcal{L}(G'_k \cdot I_{E_k}, G'_k \cdot I_{GT}) + (1-\lambda) \cdot \mathcal{L}((1-G'_k) \cdot I_{E_k}, (1-G'_k) \cdot I_{MoE})\)，路由器权重高的区域用 GT 监督，低的区域用 MoE 输出作伪标签
设计动机：当 N≥4 时多专家推理开销大，蒸馏到单专家可保持接近 MoE 的性能

损失函数 / 训练策略¶

训练损失：L1 + SSIM（标准 3DGS 损失）
两阶段训练：Stage 1 独立训练各 expert，Stage 2 冻结 expert 只训练 router
专家可用较少训练预算：20% 训练预算的 MoE 仍优于 100% 预算的单专家

实验关键数据¶

主实验¶

方法	N3V 平均 PSNR↑	Technicolor 平均 PSNR↑
4DGaussians	31.43	30.79
E-D3DGS	32.33	33.06
STG	31.92	33.69
Ex4DGS	32.10	33.45
MoE-GS (N=3)	33.23	34.55
MoE-GS (N=4)	33.27	-

MoE-GS (N=3) 比最强单专家 E-D3DGS 提升 0.9 dB PSNR。

消融实验¶

Router 变体	PSNR↑	SSIM↑
Pixel Router	31.12	0.952
Volume Router	32.05	0.951
Volume-aware Pixel Router	33.23	0.954

效率策略	PSNR	FPS	Memory (MB)
w/o 两者	32.54	36	747
Full MoE-GS (N=3)	33.23	68	270

关键发现¶

专家多样性很重要：N=2→3 提升显著（+0.69 dB），N=3→4 提升较小（+0.04 dB）
低训练预算仍有效：20% 训练预算的 MoE-GS（32.60）仍优于 100% 的任何单专家
路由器可视化表明路由权重与运动模式语义对应——高运动区域倾向选择逐高斯变形专家
蒸馏后的单专家可达到接近 MoE 的性能（具体数值在附录中）

亮点与洞察¶

泼溅即路由：巧妙复用 3DGS 的泼溅机制进行路由权重传播——学习 3D 权重但在 2D 空间优化和融合，兼得体积感知和优化稳定性
异构专家互补：不同变形先验（嵌入/多项式/插值）在不同运动区域各有优势，MoE 架构天然适合这种互补关系
效率工具箱完整：从单次渲染、门控剪枝到完整蒸馏，提供了从高质量到高效率的完整部署路径

局限性 / 可改进方向¶

MoE 框架本身增加了参数量和训练成本（N 个专家 = N 倍训练时间，虽然可降低到 20%）
两阶段训练（先训专家后训 router）不是联合端到端优化，可能未达到最优
专家组合是手动选择的固定集合，未探索自动化的专家选择/构造
仅在视频级别多视角数据集上验证，未扩展到单目动态场景

评分¶

新颖性: ⭐⭐⭐⭐ 首个将 MoE 引入动态 GS，Volume-aware Pixel Router 设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 两个标准 benchmark、多种 N 配置、全面消融、效率分析、蒸馏评估
写作质量: ⭐⭐⭐⭐ 动机深入（三层面分析），方法描述清晰
价值: ⭐⭐⭐⭐ MoE+GS 是有前景的方向，但通用性待进一步验证