GauDP: Reinventing Multi-Agent Collaboration through Gaussian-Image Synergy in Diffusion Policies¶

会议: NeurIPS 2025 arXiv: 2511.00998 代码: 有领域: 3D视觉 关键词: 3D Gaussian Splatting, 多智能体协作, 扩散策略, 模仿学习, 机器人操作

一句话总结¶

提出 GauDP，通过从多智能体的去中心化 RGB 观测中构建全局一致的 3D 高斯场，并将高斯属性动态分配回各智能体的局部视角，实现可扩展的、感知增强的多智能体协作模仿学习。

研究背景与动机¶

多智能体具身协作（如工业装配、手术机器人、家庭辅助）中，每个智能体需要在完成自己任务的同时与其他智能体保持同步。现有方法面临两个核心困境：

仅用局部观测：将所有智能体的局部视图拼接输入共享策略，但无法捕获联合协作状态，导致执行不同步（如一个机械臂在另一个还没打开锅盖时就尝试放食物）
仅用全局观测：提供一致的场景表示，但缺少高分辨率的智能体个体信息，导致精细控制（抓取、放置）性能下降

简单融合全局和局部信号缺乏 3D 结构约束，难以推理空间关系。因此需要一种统一表示，同时编码全局一致性和局部精度。

方法详解¶

整体框架¶

GauDP 的核心流程分为四步：

局部上下文提取：每个智能体从自身 2D 观测中提取局部特征
全局 3D 高斯场构建：从所有视图构建共享的 3D 高斯场作为全局上下文
全局上下文分配与融合：将全局上下文与局部上下文融合后通过编码器处理
动作预测：扩散策略通过交叉注意力处理融合后的每智能体特征来预测动作

问题形式化：给定多视角同步观测 \(\mathcal{O} = \{\mathcal{I}_1, \dots, \mathcal{I}_N\}\)，预测未来动作序列 \(\mathbf{a} = \{a_1, \dots, a_L\}\)。条件策略定义为 \(\pi_\Phi(\mathbf{a} | \mathcal{O}) := \pi_\Phi(\mathbf{a} | \mathcal{O}, \mathcal{G})\)，其中 \(\mathcal{G} = \mathcal{F}(\mathcal{O})\) 是从观测到高斯的映射。

关键设计¶

1. 全局上下文重建（Global Context Reconstruction）¶

目标：从多视角 2D RGB 构建统一的视角无关 3D 表示。传统 3DGS 需要密集视角+精确位姿+逐场景多分钟优化，不适合具身场景的快速适应需求。

解决方案：采用 NoPoSplat（前馈网络），直接从稀疏无位姿视图重建 3D 高斯表示，并在机器人操作场景上微调。具体流程：

每张 RGB 图像通过共享权重 ViT 编码器独立编码
跨视图 ViT 解码器通过跨注意力层融合不同视角信息
高斯参数预测头为每个像素估计 3D 高斯：\(\mathcal{G}_i = \mathcal{F}(\mathbf{x}_i)\)，\(\mathcal{G}_i \in \mathbb{R}^{C_\mathcal{G} \times H \times W}\)

引入额外深度监督：将每个高斯投影到相机坐标系后渲染深度图 \(\hat{D}\)，与真实深度 \(D\) 计算损失。重建质量提升显著（PSNR 17.9→23.4）。

关键点：深度和位姿仅在微调阶段使用，部署时只需 RGB 输入。

2. 全局上下文分配与像素级协同¶

将全局上下文全部送给每个智能体会引入无关信息。本文提出选择性分发机制：

利用重建过程中高斯与源像素的自然对齐关系
每个智能体仅接收与自身视图关联的高斯子集（已通过跨注意力整合了其他视图信息）
将选择的高斯变换回与原始图像空间维度匹配的 2D 网格
与局部图像特征拼接后通过轻量卷积融合模块完成像素级融合

这种设计确保每个智能体获得有针对性的全局表示，同时保持空间一致性。

3. 坐标系选择¶

消融实验表明，使用各智能体的局部相机坐标系优于统一世界坐标系——保留了智能体中心的空间关系，避免了跨视角的对齐误差。

损失函数 / 训练策略¶

重建损失（微调 NoPoSplat 阶段）：\(\mathcal{L}_{rec} = \mathcal{L}_{rgb} + \alpha \cdot \mathcal{L}_{depth}\)
扩散策略损失（策略训练阶段）：标准 DDPM 去噪损失
训练配置：动作预测水平 8，观测步数 3，动作执行步数 6；DDPM 100 步；Adam，\(lr=10^{-4}\)，warm-up + cosine decay；100 epochs，batch size 32，单卡 A800

实验关键数据¶

主实验¶

基于 RoboFactory benchmark，含 6 个 2-4 臂协作操作任务：

方法	Lift Barrier	Place Food	Stack Cube	Align Camera	Stack Cube(4)	Take Photo	平均
DP3(XYZ+RGB)	31%	25%	1%	18%	0%	11%	14.33%
3D Dense Policy	28%	18%	0%	0%	0%	7%	8.83%
DP	9%	12%	6%	3%	0%	0%	5.00%
GauDP	72%	15%	2%	26%	0%	3%	19.67%

3D 重建质量（2 视图重建）：

方法	PSNR↑	SSIM↑	LPIPS↓
Pretrain(NoPoSplat)	17.918	0.580	0.492
微调后	23.424	0.779	0.148

消融实验¶

配置	Lift Barrier	Place Food	Stack Cube	Align Camera	平均
统一世界坐标系	30%	1%	8%	26%	10.83%
粗粒度融合(w/o prefuse)	2%	4%	0%	1%	1.17%
仅高斯(w/o Image)	32%	7%	0%	28%	11.17%
仅图像(w/o Gaussian)	9%	12%	6%	3%	5.00%
完整模型	72%	15%	2%	26%	19.67%

真实机器人实验：GauDP 在 Card Box Stacking/Handover/Grab Roller 上分别达到 17/30、19/30、27/30，均优于 DP baseline。

关键发现¶

GauDP 仅用 RGB 输入即超越所有基线，平均成功率 19.67%（最高）
在 Lift Barrier 上达到 72%，大幅领先第二名 DP3 的 31%
移除像素级融合后性能暴跌至 1.17%，证明精细融合策略至关重要
图像和高斯缺一不可：图像提供外观线索，高斯提供全局结构

亮点与洞察¶

优雅的设计哲学：用 3DGS 作为桥梁统一局部精度和全局一致性，不需要额外传感模态
天然可扩展：高斯表示的灵活性使智能体数量增加时无需架构变更
自监督重建：利用训练扩散策略的相同多视角数据进行 3DGS 微调，无需额外数据
推理时无需位姿/深度：部署阶段仅需 RGB 输入

局限性 / 可改进方向¶

Stack Cube 等高精度任务成功率仍很低（2%），精细操作仍有较大提升空间
3-4 臂设置下整体成功率偏低，高复杂度协作仍具挑战
训练耗时略长（6.5 vs 4.8/2.5 GPU hours），推理速度略低（1.28 vs 1.49 FPS）
未探索与 VLA 模型结合，以及高斯在动态场景世界模型中的应用

评分¶

新颖性: ⭐⭐⭐⭐ 3DGS 与扩散策略结合用于多智能体场景是新颖的
实验充分度: ⭐⭐⭐⭐ 消融全面，包含仿真+真实机器人实验
写作质量: ⭐⭐⭐⭐ 框架设计清晰，动机阐述充分
价值: ⭐⭐⭐⭐ 为多智能体协作的视觉表示开辟了新方向