DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control¶
会议: ECCV2024
arXiv: 2407.14758
代码: AllenXuuu/DISCO
领域: robotics
关键词: embodied navigation, mobile manipulation, differentiable scene representation, affordance, dual-level control, ALFRED
一句话总结¶
提出 DISCO 框架,通过可微分场景语义表示和双层粗-细动作控制,在 ALFRED 基准上实现具身导航与交互的显著性能提升(未见场景成功率超越 SOTA +8.6%,且无需逐步指令)。
背景与动机¶
构建通用家庭助手智能体是具身 AI 的长期目标,要求代理具备任务规划、环境建模和物体交互能力。现有方法主要分为两类:
- 神经策略方法(如 Seq2Seq、E.T.、M-Track):端到端学习动作,但需要大量训练轨迹和标注,且存在长视野任务与无记忆感知之间的矛盾
- 基于地图的规划方法(如 HLSM、FILM、Prompter):构建场景模型辅助规划,但执行缺乏灵活性,难以在运行时自适应调整
两类方法各有局限:神经策略数据饥饿、泛化差;地图规划方法的离散 cell 表示对感知不完美敏感,需要手工规则修补。
核心问题¶
如何构建一个具身代理,使其能基于 verb-noun 指令对(如 "Pickup Lettuce")高效完成移动操控任务?具体需解决三个子问题:
- 如何建立兼具丰富语义、动态更新、可查询、可泛化的场景表示?
- 如何在有限模仿数据下实现高效的移动操控?
- 如何将原语任务整合到长视野具身指令跟随应用中?
方法详解¶
感知系统¶
从自我中心 RGB 帧出发,使用三个神经网络预测像素级信息:
- 深度估计:U-Net 架构,深度离散为 50 个 bin(每 bin 10cm),交叉熵损失训练
- 实例分割:Mask R-CNN,85 类物体,COCO 预训练后微调
- Affordance 估计:U-Net 架构,预测 1 类导航 + 7 类交互(如 pickable、openable),二值交叉熵损失
所有训练数据通过 AI2THOR 模拟器收集,严格禁止使用未见场景数据。
可微分场景表示¶
将场景建模为 20m × 20m 空间,离散为 80 × 80 网格(每格 25cm × 25cm)。每个网格分配 256 维嵌入 \(s_i\),同时初始化 \(N^o + N^a\) 个语义查询向量 \(q_j\)(物体类 + affordance 类)。
查询机制:通过内积 + sigmoid 计算网格 \(i\) 属于类别 \(j\) 的概率:
在线优化:每步将自我中心帧转为带语义的点云并投影到俯视图,生成软标签 \(y_i^j\)(归一化语义点比例)。对可见网格使用交叉熵损失,通过梯度下降同时更新 \(s_i\) 和 \(q_j\)(学习率 0.01,每步 10 次迭代)。
关键优势:相比离散 cell 表示,连续可微表示在历史与当前观测间做软权衡,缓解感知不完美问题,无需手工修补规则。
双层粗-细动作控制¶
对于一个 verb-noun 原语任务(如 "Pickup Lettuce"),执行三阶段:
- 随机游走:目标物体尚未被检测器发现时,利用导航 affordance 查询可达性地图,随机选取可达点并用 BFS 规划路径
- 粗控制(全局线索):目标物体被发现后,查询场景表示获取物体分布与 affordance 分布的联合概率图,选择最大概率网格为目标,BFS 规划到目标 1m 范围内
- 细控制(局部线索):用 ResNet50 神经策略,输入为 RGB + 深度 + 目标物体掩码的拼接,通过物体类别特定的分类器预测动作。仅处理短视野调整(4 步以内),通过模仿专家动作训练
细控制只需 316,935 帧训练数据(ALFRED 默认轨迹含 1,051,308 帧),更加数据高效。
应用:具身指令跟随¶
集成到 ALFRED 长视野任务中:用微调 BERT 解析自然语言指令为 ALFRED 内部参数,通过模板转为 verb-noun 子目标序列。例如 pick_clean_then_put 任务转为 (Pick, Lettuce) → (Clean, Lettuce) → (Put, DinningTable)。
实验关键数据¶
在 ALFRED 测试集上的主要结果:
| 设置 | 已见场景 SR | 未见场景 SR | 未见场景 GC |
|---|---|---|---|
| DISCO(含逐步指令) | 59.5% | 56.5% | 66.8% |
| DISCO(仅高层目标) | 58.0% | 54.7% | 65.5% |
| Prompter(含逐步指令) | 53.2% | 45.7% | 58.8% |
| CAPEAM(含逐步指令) | 51.8% | 46.1% | 57.3% |
关键发现:
- 未见场景成功率超 SOTA +10.4%(含指令)/ +11.0%(无指令)
- 无逐步指令的 DISCO 仍优于使用逐步指令的 SOTA(54.7% vs 46.1%)
- PLWSR 指标为 Prompter 的 1.57x-1.75x,证明执行效率更高
消融实验(验证集):
| 消融项 | 已见 SR 变化 | 未见 SR 变化 |
|---|---|---|
| 去除可微表示 → 离散 cell | -9.9% | -12.3% |
| 去除导航 affordance | -9.3% | -9.0% |
| 去除交互 affordance | -5.1% | -3.7% |
| 去除细控制 | -4.3% | -3.3% |
| 去除粗控制 | -43.8% | -45.9% |
亮点¶
- 可微场景表示设计精巧:用网格嵌入 + 语义查询的内积-sigmoid 机制,实现可微优化替代离散 cell 的手工更新规则,泛化能力显著更强(未见场景提升 12.3%)
- 双层控制范式实用:粗控制高效处理长距离导航,细控制仅聚焦短视野调整,数据需求降低 3x 以上
- 无需逐步指令即超越 SOTA:证明了方法的鲁棒性和规划能力,减少对细粒度人类标注的依赖
- Affordance 融合自然:将 openable 等属性自动融入决策,避免手写规则
局限性 / 可改进方向¶
- 依赖模拟器真值训练感知模块:深度、分割、affordance 均用 AI2THOR 真值训练,向真实世界迁移时感知质量可能大幅下降
- Affordance 类别固定:7 类交互 affordance 由模拟器定义,缺乏开放词汇泛化能力
- 场景表示为 2D 俯视图:忽略了高度维度信息,对多层环境或堆叠物体场景可能不足
- 仅在 AI2THOR/ALFRED 验证:离散动作空间、有限场景多样性,实际机器人部署差距较大
- 语言理解依赖模板匹配:BERT + 模板的指令解析方式较脆弱,不支持灵活的自然语言输入
与相关工作的对比¶
| 方法 | 场景表示 | 控制方式 | 未见 SR |
|---|---|---|---|
| FILM | 离散 2D cell | 手工规则 | 26.5% |
| HLSM | 3D voxel | 神经策略 | 16.3% |
| Prompter | 离散 2D cell + 搜索 | 手工规则 | 45.7% |
| CAPEAM | 上下文记忆 | 上下文规划 | 46.1% |
| DISCO | 可微连续嵌入 | 粗细双层 | 56.5% |
DISCO 的优势在于:(1) 可微表示比离散 cell 更鲁棒;(2) 双层控制兼具地图规划的全局效率和神经策略的局部灵活性;(3) affordance 融入消除手工规则。
启发与关联¶
- 可微场景表示的思路可迁移:内积查询 + 在线梯度优化的范式可应用于其他需要动态空间语义建模的任务(如语义 SLAM、场景图构建)
- 粗细控制范式通用性强:全局规划 + 局部调整的分层策略在更广泛的机器人操控场景中值得借鉴
- 与 foundation model 结合的潜力:当前用 BERT + 模板做指令解析,替换为 VLM/LLM 可能进一步提升规划灵活性和开放场景泛化能力
评分¶
- 新颖性: 8/10 — 可微场景表示和双层控制的结合具有新意,但各模块本身较为经典
- 实验充分度: 9/10 — 充分的消融实验和定性分析,结果有说服力
- 写作质量: 8/10 — 结构清晰,动机和方法阐述较好
- 价值: 8/10 — 在 ALFRED 上大幅推进 SOTA,但受限于模拟器环境