Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution¶

会议: AAAI 2026 (Oral)
arXiv: 2511.19430v1
代码: https://github.com/H-EmbodVis/GRANT
领域: 具身AI / 3D场景理解 / 任务规划
关键词: 运筹学, 任务调度, 3D Grounding, 具身智能体, MLLM

一句话总结¶

提出ORS3D任务——将运筹学(OR)知识引入具身AI的任务调度，要求智能体利用可并行子任务的等待时间执行其他任务以最小化总完成时间，同时在3D场景中定位目标物体；构建60K级数据集ORS3D-60K，并提出GRANT模型通过调度token机制连接外部动态规划求解器，在时间效率上比baseline提升30.53%。

背景与动机¶

具身AI中的任务规划现有方法(LEO, Grounded 3D LLM等)存在两个关键缺陷：(1)不考虑效率优化——只生成顺序的步骤列表，忽略了子任务可以并行执行的现实(如微波加热食物时可以同时擦桌子)；(2)缺乏3D空间定位——虽说是在3D环境中操作，但往往退化为文本QA，不做空间grounding。现实中，人类做家务天然会利用等待时间做其他事（运筹学中的并行调度），这个能力对于具身智能体至关重要但被忽视。

核心问题¶

如何让具身智能体具备运筹学级别的任务调度能力？具体挑战：(1)理解哪些子任务可以并行(如微波加热=可并行，擦桌子=不可并行)；(2)最优调度——经典的0-1背包问题，将非并行任务"装入"并行任务的等待时间窗口以最大化时间利用；(3)同时做3D空间grounding——定位每一步操作的目标物体位置。

方法详解¶

整体框架¶

输入：3D场景点云 + 复合任务指令 → 3D场景编码器(CLASP初始化)生成场景token → LLM(Vicuna-1B+LoRA)理解任务并识别子任务类型 → 调度token调用外部0-1背包DP求解器生成最优调度 → 调度结果注入LLM生成逐步动作描述 → grounding token通过3D grounding head在场景中定位目标物体 → 输出：带时间优化的调度方案 + 每步的3D物体定位。

关键设计¶

ORS3D-60K数据集: 5个真实场景数据集(ScanNet, HM3D, ARKitScenes, 3RScan, MultiScan)，4376个场景，60825个复合任务。用GPT-4o从3D场景图生成子任务元信息(类型、预期时间)，再用OR求解器生成最优调度，最后转为自然语言步骤。每个任务4-7个子任务，平均文本长度311词。
调度token机制(STM): LLM先识别子任务类型(可并行/不可并行)和预期时间，生成约束信息I；遇到特殊 token时调用外部DP求解器，将问题建模为0-1背包(可并行子任务的等待时间=背包容量，非并行子任务时长=物品)，毫秒级求解最优调度S*；结果转为文本注入LLM继续生成后续步骤。
3D Grounding Head: 通过 token将LLM输出映射到场景query空间，用cosine similarity选最匹配的场景query，再通过点积+sigmoid生成点云mask。
时间效率指标(TE): TE = (T_worst - T_pred)/(T_worst - T_opt) × 100%，归一化衡量模型实际节省时间占理论最优节省的比例。

损失函数 / 训练策略¶

语言生成：交叉熵loss(next-token prediction)
3D Grounding：sigmoid focal loss
训练10 epochs, 8×RTX 4090, AdamW, cosine lr schedule, lr=8e-4

实验关键数据¶

方法	METEOR	ROUGE	TE(%)	Grounding Acc	Overall
Grounded 3D LLM	41.96	53.71	42.46	34.00	43.03
GRANT	42.82	62.78	72.99	35.38	53.49
DeepSeek-R1(纯文本)	32.40	41.50	72.63	N/A	36.63
GPT-4o(纯文本)	49.16	62.19	45.27	N/A	39.15

消融实验要点¶

STM是核心贡献: 无调度内容→TE 21.03%；有调度文本→47.04%；有STM→72.99%(+25.95pp)
子任务类型识别至关重要: GRANT的可并行子任务F1=62.84%远高于baseline 59.72%
任务复杂度影响显著: 4子任务Overall=60.23%；7子任务降至48.70%
求解器几乎零开销: 即使50个子任务也只需4ms

亮点¶

运筹学×具身AI的跨界创新 — 第一次在3D具身场景中引入0-1背包等OR知识做任务调度
调度token的设计范式 — "LLM识别约束→特殊token调用外部求解器→结果注入回LLM"，可推广到其他需要外部求解器的场景
ORS3D-60K数据集 — 60K级规模的3D任务调度数据集，填补社区空白
DeepSeek-R1对照 — DeepSeek-R1凭借数学RL训练在纯文本调度中TE 72.63%，但无法处理3D grounding

局限性 / 可改进方向¶

仅在离线benchmark验证，未在真实机器人上部署
外部求解器不可微，无法端到端优化
当前仅支持单个可并行子任务的场景
可探索方向：将DP求解器内化到LLM中做可微优化

与相关工作的对比¶

与LEO(ICML 24)相比，LEO只做顺序规划不考虑并行调度，Overall 38.14 vs GRANT 53.49。与GPT-4o相比，GPT-4o语言理解更强但不支持3D grounding且调度能力有限(TE 45.27 vs 72.99)。

启发与关联¶

"外部求解器通过特殊token集成到LLM"的范式 → 可迁移到需要精确计算的其他任务
OR知识在具身AI中的应用 → 可扩展到更复杂的调度场景(多agent协作、动态环境)

评分¶

新颖性: ⭐⭐⭐⭐⭐ OR（运筹学）×具身AI的跨界创新，调度token设计巧妙地将组合优化嵌入Transformer生成
实验充分度: ⭐⭐⭐⭐ 大规模数据集+多baseline对比+完整消融，任务覆盖面广
写作质量: ⭐⭐⭐⭐ 问题动机从串行到并行的痛点切入清晰，图例丰富展示了调度效果
价值: ⭐⭐⭐⭐ 填补了具身AI任务调度效率优化的空白，调度token的思路可推广到其他需要资源分配的Agent场景