跳转至

ASHiTA: Automatic Scene-grounded Hierarchical Task Analysis

会议: CVPR 2025
arXiv: 2504.06553
代码: 无
领域: 3D视觉
关键词: 层次化任务分析, 3D场景图, 信息瓶颈, LLM任务分解, 场景理解

一句话总结

提出首个将高层任务自动分解为场景锚定(grounded)子任务层级的框架ASHiTA,通过交替执行LLM辅助的层次化任务分析和基于信息瓶颈原理的任务驱动3D场景图构建,实现了任务层级与场景表示的联合推理。

研究背景与动机

领域现状:场景重建与语义理解领域已在将自然语言锚定到3D环境方面取得显著进展,涌现了ConceptGraph、HOV-SG、CLIO等开放词汇(open-set)的3D场景图方法。这些方法能将简单、显式指令(如"去厨房"、"预热烤箱")与场景中的物体关联起来。

现有痛点:现有方法无法处理抽象的高层指令(如"准备晚餐"),因为:(1) 高层指令不会显式提及场景中的语义元素;(2) 将高层任务分解为具体子任务的过程是环境依赖的——同样是"打扫办公室",不同办公室的分解结果完全不同。(3) LLM虽然能做任务分解,但脱离环境信息的分解往往不切实际。

核心矛盾:场景表示应该依赖任务(只保留任务相关物体),但任务分解又依赖场景中有哪些物体——这是一个鸡生蛋、蛋生鸡的循环依赖问题。

本文目标:构建一个框架,能从高层自然语言任务出发,自动生成一个既包含子任务层级结构、又与3D场景图锚定的完整任务分析。

切入角度:将信息瓶颈(Information Bottleneck)原理推广为层次化版本(H-IB),用于在不同抽象层级上压缩场景表示;同时交替执行自底向上的场景图构建和自顶向下的LLM任务层级精炼。

核心 idea:通过迭代交替的场景层级更新(基于H-IB将3D primitives压缩为任务对齐的场景图)和任务更新(基于LLM利用场景信息精炼任务层级),解决任务分解与场景表示之间的循环依赖。

方法详解

整体框架

ASHiTA首先从RGB-D输入构建底层primitives层(类无关的3D语义分割),然后在给定高层任务的情况下,迭代执行两个核心步骤:(1) 场景层级更新——利用H-IB将primitives按照当前任务层级压缩成多层场景图;(2) 任务更新——利用LLM和当前场景图精炼任务层级(添加新子任务和物品)。输入是RGB-D图像序列和高层任务描述,输出是一个锚定在3D场景图上的完整任务层级。

关键设计

  1. 层次化信息瓶颈 (H-IB):

    • 功能:将底层primitives多级压缩为与任务层级对齐的场景图节点
    • 核心思路:经典IB寻找输入数据的压缩表示\(\mathcal{S}\),使其保留关于任务\(\mathcal{T}\)的最大信息。H-IB将其推广到多层——给定多分辨率任务\(\mathcal{T}_1 \dots \mathcal{T}_n\),求解多层压缩\(\mathcal{S}_1 \dots \mathcal{S}_n\),最小化\(\sum_{k=1}^{n} I(\mathcal{S}_{k-1};\mathcal{S}_k) - \beta \sum_{k=1}^{n} I(\mathcal{T}_k;\mathcal{S}_k)\)。在Markov链假设下推导出迭代更新公式,\(\beta=10\)控制压缩程度。自底向上用H-IB构建场景图,再自顶向下基于节点置信度剪枝冗余节点。
    • 设计动机:传统IB只能做单层压缩,但任务层级天然是多层的(任务→子任务→物品),H-IB能在各层级同时保留最相关信息,产生层次化的场景图。相比递归调用标准IB,H-IB保持了层间信息传递的一致性(消融实验证实recursive IB的recall显著下降)。
  2. LLM辅助任务层级精炼:

    • 功能:利用场景中发现但未被当前任务层级覆盖的物体来更新任务分解
    • 核心思路:追踪H-IB自底向上构建中被分配到子任务、但在自顶向下剪枝中被移除的primitives。通过Word Generator(利用CLIP相似度匹配一个LLM生成的家居物品词库)为这些primitives生成物品名称。然后查询GPT-4o-mini为每个子任务中的建议物品评分(0-1),高于阈值\(r_s=0.8\)的物品加入现有子任务,剩余高分物品则触发LLM生成新的子任务。
    • 设计动机:初始任务分解基于LLM的通用知识,不了解具体环境。通过场景图中的发现反馈给LLM,实现了"看到什么→想到什么→再去找什么"的闭环推理。
  3. 空间感知条件概率更新:

    • 功能:在后续迭代中利用已锚定节点的空间位置改进H-IB输入
    • 核心思路:定义空间条件概率\(p_s(s_i|t)\):当primitive在任务实体半径\(r\)内时概率为1,超出时按指数衰减\(\exp(-(d-r)^2/r^2)\)。将空间概率与原始embedding概率相乘归一化,作为下一轮H-IB的输入。任务实体的位置取自对齐的场景图节点质心,半径取最近邻距离或包围盒尺寸。
    • 设计动机:一旦某些物品在场景中被锚定,它们的空间位置就是重要的先验——相关物品往往是空间上邻近的。空间感知的概率更新使后续迭代更精准地聚焦于任务相关区域。

损失函数 / 训练策略

ASHiTA是一个无需训练的推理框架。底层依赖预训练的EfficientViT(类无关分割)和MobileCLIP(视觉-语言编码),任务推理使用GPT-4o-mini。H-IB迭代收敛条件为\(\mathcal{C}^{\tau} - \mathcal{C}^{\tau+1} < 10^{-8}\)或达到最大1000次迭代。

实验关键数据

主实验(SG3D HM3DSem Grounding)

方法 s-acc(%) ↑ t-acc(%) ↑ 设置
3D-VisTA 25.3 10.3 GT 3D实例分割
PQ3D 24.4 9.7 GT 3D实例分割
ASHiTA 28.7 12.1 GT 3D实例分割
ASHiTA + Txt Emb. 65.4 39.3 GT分割+GT标签
Hydra + GPT 8.2 2.4 增量式场景图
HOV-SG + GPT 9.0 2.0 增量式场景图
ASHiTA 21.7 8.8 增量式场景图

消融实验

配置 s-rec(%) s-prec(%) t-acc(%)
ASHiTA (完整) 10.39 20.6 9.27
Recursive IB 1.51 24.53 1.46
w/o Top Down Pruning 9.22 18.93 5.37
w/o Spatial Update 8.70 22.22 6.34
w/o Hierarchy Refinement 7.71 23.13 6.83
Primitives + GPT 6.14 7.16 5.37

关键发现

  • H-IB远优于Recursive IB:递归应用标准IB虽然precision略高(24.53% vs 20.6%),但recall仅1.51%(完整模型10.39%),说明层间信息断层导致大量子任务被遗漏。
  • 每个模块都有贡献:去掉任何一个组件(剪枝、空间更新、层级精炼)都会导致task accuracy下降30-42%。
  • LLM+场景图 >> 纯LLM:Primitives+GPT(直接用LLM处理原始primitives标签)的precision仅7.16%,远低于ASHiTA的20.6%,说明信息瓶颈框架对压缩和聚焦信息至关重要。
  • 在真实机器人上有效:在Boston Dynamics Spot上的真实世界演示表明ASHiTA能在复杂场景中生成合理的任务分解和锚定。

亮点与洞察

  • 循环依赖的优雅解决方案:任务分解依赖环境、环境表示依赖任务——ASHiTA通过交替迭代优化两者,灵感来自EM算法式的思路。这个设计模式可迁移到任何"表示与推理互相依赖"的场景。
  • 信息瓶颈的创新推广:将经典的单层IB推广到多层H-IB并非trivial——需要处理层间Markov假设和收敛性证明。H-IB可以作为一个通用工具,用于任何需要多层次信息压缩的问题。
  • 零训练框架:整个系统不需要任何标注数据或端到端训练,完全依赖预训练视觉模型和LLM的组合,展示了foundation model组合的强大能力。

局限与展望

  • 缺乏空间关系建模:场景图中没有"在...上面"、"在...里面"等关系边,限制了对空间指令的理解。
  • 无法处理相同物品的多个实例:ASHiTA会将多把相同椅子合并为少量节点并赋予不同标签,这在需要操作多个相同物品时会失败。
  • 任务层级完整性无保障:生成的子任务不保证足以完成高层任务,且树结构限制了一个物品不能被多个子任务共享。
  • 改进方向:引入经典规划方法(TAMP/PDDL)验证子任务完整性;融入空间关系推理;探索将框架扩展到序列化任务执行。

相关工作与启发

  • vs CLIO: CLIO也做任务驱动的3D场景图,但只能处理显式提及物体的简单指令,不支持高层抽象任务。ASHiTA通过加入LLM做任务分解,将CLIO的能力扩展到了高层任务。
  • vs SayCan/LLM+P: 这些方法用LLM做任务规划但不与环境3D表示耦合——LLM生成的计划可能包含环境中不存在的物品或不切实际的步骤。ASHiTA通过场景图反馈使任务分解更加接地气。
  • vs HOV-SG + GPT: 直接在HOV-SG场景图上用GPT做grounding,s-prec仅4.87%,说明纯LLM在缺乏信息压缩框架时无法有效处理复杂的3D场景信息。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将层次化任务分析与3D场景图构建统一到一个交替优化框架中,H-IB是有理论贡献的新工具
  • 实验充分度: ⭐⭐⭐⭐ 有SG3D基准的定量评估、完整消融、真实机器人演示;但绝对指标偏低说明问题本身极具挑战性
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,方法描述详尽,补充材料包含H-IB的完整推导和教程示例
  • 价值: ⭐⭐⭐⭐ 为具身智能的高层任务理解开辟了新方向,H-IB可复用于其他多层次信息压缩场景

相关论文