跳转至

Daily arXiv

DOMINO — Towards Generalizable Robot...

DOMINO: Towards Generalizable Robotic Manipulation in Dynamic Environments¶

日期: 2026-03-16
arXiv: 2603.15620
代码: GitHub
领域: 机器人操作 / 视频理解 / VLA模型
关键词: 动态操作, VLA, 光流, 时空推理, 动态环境

一句话总结¶

引入 DOMINO 大规模动态操作数据集（35 任务/110K+ 轨迹）和 PUMA 动态感知 VLA 架构（场景级历史光流 + 物体级未来状态预测），在动态环境下比基线提升 6.3% 成功率，且动态数据训练可迁移增强静态任务表现。

研究背景与动机¶

领域现状: Vision-Language-Action (VLA) 模型在静态操作中表现出色，但在动态环境（移动目标）中严重退化。这一差距的根源在于：(a) 缺乏大规模动态操作数据集；(b) 主流 VLA 依赖单帧观察，缺乏时空推理能力。
现有痛点: 现有机器人操作基准几乎全部集中在静态场景——目标物体固定不动。真实世界中大量操作任务涉及移动目标（传送带上的物体、人递过来的工具等），现有 VLA 无法处理。
核心 idea: 通过构建首个大规模动态操作数据集 + 设计融合历史与预测的动态感知架构，系统性提升 VLA 在动态环境中的泛化能力。

方法详解¶

DOMINO 数据集¶

规模: 35 个任务，分层复杂度，超过 110K 专家轨迹
任务分层: 从简单的单物体追踪到复杂的多物体动态交互
评估维度: 多维评估套件，覆盖不同动态难度等级
数据格式: 每条轨迹包含多帧观察、动作标注、目标状态等

PUMA 架构¶

PUMA (Predictive Understanding for Manipulation Actions) 是一个动态感知 VLA，核心设计：

场景级历史光流 (Scene-Centric Historical Optical Flow):
- 从连续帧中提取光流，编码场景的运动历史
- 提供全局运动上下文，帮助模型理解"什么在动、怎么动"
- 与单帧快照相比，光流提供了时间维度的运动信息
物体级未来状态预测 (Object-Centric World Queries):
- 引入专门的 world queries 来隐式预测目标物体的短期未来状态
- 不直接预测像素级未来帧，而是在特征空间预测物体将来的位置/状态
- 将历史感知与短期预测耦合，实现"看过去 + 预测未来"
History-Aware Perception + Short-Horizon Prediction:
- 历史光流提供运动轨迹记忆
- World queries 提供前瞻性预测
- 两者融合让策略网络能做出时空一致的动作决策

训练策略探索¶

系统评估了多种现有 VLA 在动态任务上的表现
探索了有效的动态感知训练策略
验证了动态数据的泛化性——在动态数据上训练可以提升静态任务表现

实验关键数据¶

动态操作性能¶

方法	动态任务成功率	相对提升
基线 VLA (单帧)	~X%	-
PUMA	+6.3% 绝对提升	SOTA

关键发现¶

现有 VLA 在动态场景的系统性退化: 所有基于单帧观察的 VLA 在动态任务上严重下降
动态数据的正迁移: 在 DOMINO 上训练的模型在静态任务上也有提升，说明时空表示具有普遍价值
光流 + 预测的互补性: 历史光流和未来预测各自贡献不同维度的动态信息

亮点与洞察¶

首个大规模动态操作基准: 110K+ 轨迹、35 任务的系统性评估填补了领域空白
动态→静态正迁移: 打破了"需要大量静态数据训练静态任务"的假设，动态数据可以泛化
光流作为时空记忆: 简单但有效的方案，比复杂的视频编码器更轻量
开源全套代码和数据: 推动社区复现和后续研究

局限性 / 可改进方向¶

仿真到真实的迁移gap未充分讨论
光流质量依赖视觉编码器，遮挡和快速运动场景下可能退化
短期预测的时间窗口选择需要人工调参
35 个任务虽然全面，但真实世界动态场景的多样性远超此范围

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性动态操作数据集 + 动态感知 VLA
实验充分度: ⭐⭐⭐⭐ 多维评估、多基线对比、消融验证
写作质量: ⭐⭐⭐⭐ 动机明确，数据集设计和方法逻辑清晰
价值: ⭐⭐⭐⭐⭐ 填补领域空白，开源数据集将推动后续研究