DOMINO: Towards Generalizable Robotic Manipulation in Dynamic Environments¶
日期: 2026-03-16
arXiv: 2603.15620
代码: GitHub
领域: 机器人操作 / 视频理解 / VLA模型
关键词: 动态操作, VLA, 光流, 时空推理, 动态环境
一句话总结¶
引入 DOMINO 大规模动态操作数据集(35 任务/110K+ 轨迹)和 PUMA 动态感知 VLA 架构(场景级历史光流 + 物体级未来状态预测),在动态环境下比基线提升 6.3% 成功率,且动态数据训练可迁移增强静态任务表现。
研究背景与动机¶
-
领域现状: Vision-Language-Action (VLA) 模型在静态操作中表现出色,但在动态环境(移动目标)中严重退化。这一差距的根源在于:(a) 缺乏大规模动态操作数据集;(b) 主流 VLA 依赖单帧观察,缺乏时空推理能力。
-
现有痛点: 现有机器人操作基准几乎全部集中在静态场景——目标物体固定不动。真实世界中大量操作任务涉及移动目标(传送带上的物体、人递过来的工具等),现有 VLA 无法处理。
-
核心 idea: 通过构建首个大规模动态操作数据集 + 设计融合历史与预测的动态感知架构,系统性提升 VLA 在动态环境中的泛化能力。
方法详解¶
DOMINO 数据集¶
- 规模: 35 个任务,分层复杂度,超过 110K 专家轨迹
- 任务分层: 从简单的单物体追踪到复杂的多物体动态交互
- 评估维度: 多维评估套件,覆盖不同动态难度等级
- 数据格式: 每条轨迹包含多帧观察、动作标注、目标状态等
PUMA 架构¶
PUMA (Predictive Understanding for Manipulation Actions) 是一个动态感知 VLA,核心设计:
-
场景级历史光流 (Scene-Centric Historical Optical Flow):
- 从连续帧中提取光流,编码场景的运动历史
- 提供全局运动上下文,帮助模型理解"什么在动、怎么动"
- 与单帧快照相比,光流提供了时间维度的运动信息
-
物体级未来状态预测 (Object-Centric World Queries):
- 引入专门的 world queries 来隐式预测目标物体的短期未来状态
- 不直接预测像素级未来帧,而是在特征空间预测物体将来的位置/状态
- 将历史感知与短期预测耦合,实现"看过去 + 预测未来"
-
History-Aware Perception + Short-Horizon Prediction:
- 历史光流提供运动轨迹记忆
- World queries 提供前瞻性预测
- 两者融合让策略网络能做出时空一致的动作决策
训练策略探索¶
- 系统评估了多种现有 VLA 在动态任务上的表现
- 探索了有效的动态感知训练策略
- 验证了动态数据的泛化性——在动态数据上训练可以提升静态任务表现
实验关键数据¶
动态操作性能¶
| 方法 | 动态任务成功率 | 相对提升 |
|---|---|---|
| 基线 VLA (单帧) | ~X% | - |
| PUMA | +6.3% 绝对提升 | SOTA |
关键发现¶
- 现有 VLA 在动态场景的系统性退化: 所有基于单帧观察的 VLA 在动态任务上严重下降
- 动态数据的正迁移: 在 DOMINO 上训练的模型在静态任务上也有提升,说明时空表示具有普遍价值
- 光流 + 预测的互补性: 历史光流和未来预测各自贡献不同维度的动态信息
亮点与洞察¶
- 首个大规模动态操作基准: 110K+ 轨迹、35 任务的系统性评估填补了领域空白
- 动态→静态正迁移: 打破了"需要大量静态数据训练静态任务"的假设,动态数据可以泛化
- 光流作为时空记忆: 简单但有效的方案,比复杂的视频编码器更轻量
- 开源全套代码和数据: 推动社区复现和后续研究
局限性 / 可改进方向¶
- 仿真到真实的迁移gap未充分讨论
- 光流质量依赖视觉编码器,遮挡和快速运动场景下可能退化
- 短期预测的时间窗口选择需要人工调参
- 35 个任务虽然全面,但真实世界动态场景的多样性远超此范围
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统性动态操作数据集 + 动态感知 VLA
- 实验充分度: ⭐⭐⭐⭐ 多维评估、多基线对比、消融验证
- 写作质量: ⭐⭐⭐⭐ 动机明确,数据集设计和方法逻辑清晰
- 价值: ⭐⭐⭐⭐⭐ 填补领域空白,开源数据集将推动后续研究