DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control¶

会议: ECCV 2024
arXiv: 2407.14758
代码: https://github.com/AllenXuuu/DISCO (有)
领域: Agent
关键词: Embodied Instruction Following, Differentiable Scene Representation, Dual-level Control, Mobile Manipulation, ALFRED

一句话总结¶

提出 DISCO，通过可微分场景语义表征（包含物体和 affordance）实现动态场景建模，结合全局-局部双层粗到细控制策略实现高效移动操作，在 ALFRED benchmark 的 unseen scenes 上以 +8.6% 成功率超越使用分步指令的 SOTA，且无需分步指令。

研究背景与动机¶

领域现状：室内具身智能体执行家务任务（如拿、放、开关）是具身 AI 的长期目标，ALFRED benchmark 是该领域的核心测试平台，要求智能体根据语言指令完成长序列导航-交互任务。
现有痛点：Neural policy 方法需要大量训练轨迹且缺乏长程记忆；Map-based planning 方法缺乏灵活性且难以自适应运行时变化。离散化场景表示（cell-based）不够鲁棒，需要手工规则修复感知错误。
核心矛盾：要高效完成移动操作任务，需要同时具备对全局场景的理解（知道物体在哪）和对局部状态的精细控制（如何操作物体），但现有方法难以兼顾。
本文要解决什么：构建能在动态场景中高效导航和交互的具身智能体，无需分步指令也能完成复杂长序列任务。
切入角度：可微分场景表征（动态、可查询、富语义）+ 粗到细双层控制（地图驱动粗导航 + 神经网络精细操作）。
核心 idea 一句话：用梯度下降动态优化场景语义表征实现鲁棒的全局规划，再用短序列神经策略进行局部精细操作。

方法详解¶

整体框架¶

DISCO 从自我中心 RGB 帧出发：(1) 感知系统预测深度、实例分割和 affordance；(2) 语义点云投影到场景表征并用梯度下降优化；(3) 粗控制基于语义地图导航接近目标；(4) 细控制用神经策略精调姿态并执行交互。

关键设计¶

Perception System（感知系统）
- 做什么：从自我中心 RGB 帧预测深度、实例分割（85 类）和 affordance（1 导航类 + 7 交互类）。
- 核心思路：Mask R-CNN 做实例分割（COCO 预训练 + 微调），两个 U-Net 分别估计深度（50 bins × 10cm）和 affordance。数据从 AI2THOR 模拟器收集。
- 设计动机：affordance 编码了"哪些区域可导航"、"哪些物体可拾取/打开"，直接指导规划。
Differentiable Scene Representations（可微分场景表征）
- 做什么：用连续特征建模 20m×20m 场景，支持语义查询和动态更新。
- 核心思路：场景离散化为 80×80 个 25cm 网格，每个网格一个 256 维 embedding \(s_i\)。初始化 \(N^o + N^a\) 个语义查询 \(q_j\)。通过 \(p_{i,j} = \sigma(s_i^T q_j)\) 查询任意位置的任意语义概率。每步将感知结果投影为语义点云，用交叉熵损失对可见网格梯度下降更新 \(s_i\) 和 \(q_j\)（10 次迭代，lr=0.01）。
- 设计动机：连续特征比离散 cell 更鲁棒；梯度优化比匹配更新更灵活；动态更新处理交互后的场景变化。
Coarse Control（粗控制）
- 做什么：基于全局语义地图导航接近目标物体。
- 核心思路：查询 object 和 affordance 分布，选择物体-affordance 乘积概率最大的网格作为目标。扩展目标位置 1m 范围内的网格为 destination，用 BFS 在导航可达地图上规划路径。
- 设计动机：地图级规划高效处理长距离导航，避免神经策略在长序列上的训练困难。
Fine Control（细控制）
- 做什么：用神经策略精调智能体姿态并执行物体交互。
- 核心思路：状态为 \((o, x, z, h)\)（目标物体、位置、相机仰角）。输入为 RGB + 估计深度 + 目标物体 mask 的拼接，用 ResNet50 编码特征，后接物体类别特定的分类器预测动作。仅在距交互 4 步内的短序列上训练，316,935 帧数据。
- 设计动机：先旋转到目标可见方向减少控制歧义；短序列策略比长序列更容易训练且数据高效。

损失函数 / 训练策略¶

场景表征：交叉熵损失 \(L(y_i^j, f(s_i, q_j)) = -(1-y_i^j)(1-f(s_i, q_j)) - y_i^j f(s_i, q_j)\)
感知模块：Mask R-CNN 默认损失 + 深度 CE 损失 + Affordance binary CE 损失
细控制策略：行为克隆 (CE loss)，AdamW lr=5e-5，40 epochs，batch 100
自指令规划：用微调 BERT 解析语言指令为 ALFRED 内部参数，模板转换为 verb-noun 子任务序列

实验关键数据¶

主实验¶

ALFRED Test 数据集结果：

方法	分步指令	Test Seen SR↑	Test Unseen SR↑
FILM	✔	27.7	26.5
LGS-RPA	✔	40.1	35.4
Prompter	✔	53.2	45.7
CAPEAM	✔	51.8	46.1
DISCO	✔	59.5	56.5
Prompter	✗	49.4	42.6
CAPEAM	✗	47.4	43.7
DISCO	✗	58.0	54.7

关键数字：DISCO 无分步指令的 SR (54.7%) 超过了所有有分步指令的 SOTA (46.1%)！

消融实验¶

消融分析（Valid splits）：

设置	Valid Seen SR	Valid Unseen SR
DISCO (默认，无分步指令)	57.3	55.0
+ 分步指令	65.1	59.1
+ gt. lang.	70.5	-

关键发现¶

DISCO 在 unseen scenes 上成功率 56.5%，比 SOTA 高 10.4%
无分步指令比有分步指令的 SOTA 还高 8.6%，证明不依赖精细指令也能出色完成任务
PLWSR 几乎是 Prompter 的 1.75 倍，说明 DISCO 执行步骤更少更高效
可微分场景表征比传统 cell-based 更鲁棒，无需手工规则修复

亮点与洞察¶

突破性能：无分步指令超过有分步指令的 SOTA，证明好的场景理解比精细指令更重要
可微分场景表征设计精巧：zero 初始化 + 梯度更新 + 语义查询的组合简洁有效
双层控制范式：粗控制解决导航，细控制解决操作，各取所长
Affordance 的价值：导航可达性 + 可交互性信息直接融入场景表征

局限性 / 可改进方向¶

感知模块依赖 AI2THOR 模拟器的 ground truth 训练，sim-to-real 转移困难
80×80 的场景表征分辨率有限，大规模环境需要更高效的表示
细控制仅在 4 步范围内训练，极端情况可能需要更长序列
语言理解依赖 BERT 模板匹配而非端到端方式

评分¶

⭐⭐⭐⭐ 新颖性：可微分场景表征和双层控制的组合新颖，但各组件独立来看非全新
⭐⭐⭐⭐⭐ 实验充分度：在 ALFRED 全面对标 13+ baseline，两种指令设置，消融详尽
⭐⭐⭐⭐ 写作质量：框架图清晰，方法阐述系统
⭐⭐⭐⭐⭐ 价值：ALFRED 上 10%+ 的 SR 提升是极其显著的进步，无指令超过有指令 SOTA 具有重要意义