ASHiTA: Automatic Scene-grounded Hierarchical Task Analysis¶
会议: CVPR 2025
arXiv: 2504.06553
代码: 无
领域: 3D视觉
关键词: 层次化任务分析, 3D场景图, 信息瓶颈, LLM任务分解, 场景理解
一句话总结¶
提出首个将高层任务自动分解为场景锚定(grounded)子任务层级的框架ASHiTA,通过交替执行LLM辅助的层次化任务分析和基于信息瓶颈原理的任务驱动3D场景图构建,实现了任务层级与场景表示的联合推理。
研究背景与动机¶
领域现状:场景重建与语义理解领域已在将自然语言锚定到3D环境方面取得显著进展,涌现了ConceptGraph、HOV-SG、CLIO等开放词汇(open-set)的3D场景图方法。这些方法能将简单、显式指令(如"去厨房"、"预热烤箱")与场景中的物体关联起来。
现有痛点:现有方法无法处理抽象的高层指令(如"准备晚餐"),因为:(1) 高层指令不会显式提及场景中的语义元素;(2) 将高层任务分解为具体子任务的过程是环境依赖的——同样是"打扫办公室",不同办公室的分解结果完全不同。(3) LLM虽然能做任务分解,但脱离环境信息的分解往往不切实际。
核心矛盾:场景表示应该依赖任务(只保留任务相关物体),但任务分解又依赖场景中有哪些物体——这是一个鸡生蛋、蛋生鸡的循环依赖问题。
本文目标:构建一个框架,能从高层自然语言任务出发,自动生成一个既包含子任务层级结构、又与3D场景图锚定的完整任务分析。
切入角度:将信息瓶颈(Information Bottleneck)原理推广为层次化版本(H-IB),用于在不同抽象层级上压缩场景表示;同时交替执行自底向上的场景图构建和自顶向下的LLM任务层级精炼。
核心 idea:通过迭代交替的场景层级更新(基于H-IB将3D primitives压缩为任务对齐的场景图)和任务更新(基于LLM利用场景信息精炼任务层级),解决任务分解与场景表示之间的循环依赖。
方法详解¶
整体框架¶
ASHiTA首先从RGB-D输入构建底层primitives层(类无关的3D语义分割),然后在给定高层任务的情况下,迭代执行两个核心步骤:(1) 场景层级更新——利用H-IB将primitives按照当前任务层级压缩成多层场景图;(2) 任务更新——利用LLM和当前场景图精炼任务层级(添加新子任务和物品)。输入是RGB-D图像序列和高层任务描述,输出是一个锚定在3D场景图上的完整任务层级。
关键设计¶
-
层次化信息瓶颈 (H-IB):
- 功能:将底层primitives多级压缩为与任务层级对齐的场景图节点
- 核心思路:经典IB寻找输入数据的压缩表示\(\mathcal{S}\),使其保留关于任务\(\mathcal{T}\)的最大信息。H-IB将其推广到多层——给定多分辨率任务\(\mathcal{T}_1 \dots \mathcal{T}_n\),求解多层压缩\(\mathcal{S}_1 \dots \mathcal{S}_n\),最小化\(\sum_{k=1}^{n} I(\mathcal{S}_{k-1};\mathcal{S}_k) - \beta \sum_{k=1}^{n} I(\mathcal{T}_k;\mathcal{S}_k)\)。在Markov链假设下推导出迭代更新公式,\(\beta=10\)控制压缩程度。自底向上用H-IB构建场景图,再自顶向下基于节点置信度剪枝冗余节点。
- 设计动机:传统IB只能做单层压缩,但任务层级天然是多层的(任务→子任务→物品),H-IB能在各层级同时保留最相关信息,产生层次化的场景图。相比递归调用标准IB,H-IB保持了层间信息传递的一致性(消融实验证实recursive IB的recall显著下降)。
-
LLM辅助任务层级精炼:
- 功能:利用场景中发现但未被当前任务层级覆盖的物体来更新任务分解
- 核心思路:追踪H-IB自底向上构建中被分配到子任务、但在自顶向下剪枝中被移除的primitives。通过Word Generator(利用CLIP相似度匹配一个LLM生成的家居物品词库)为这些primitives生成物品名称。然后查询GPT-4o-mini为每个子任务中的建议物品评分(0-1),高于阈值\(r_s=0.8\)的物品加入现有子任务,剩余高分物品则触发LLM生成新的子任务。
- 设计动机:初始任务分解基于LLM的通用知识,不了解具体环境。通过场景图中的发现反馈给LLM,实现了"看到什么→想到什么→再去找什么"的闭环推理。
-
空间感知条件概率更新:
- 功能:在后续迭代中利用已锚定节点的空间位置改进H-IB输入
- 核心思路:定义空间条件概率\(p_s(s_i|t)\):当primitive在任务实体半径\(r\)内时概率为1,超出时按指数衰减\(\exp(-(d-r)^2/r^2)\)。将空间概率与原始embedding概率相乘归一化,作为下一轮H-IB的输入。任务实体的位置取自对齐的场景图节点质心,半径取最近邻距离或包围盒尺寸。
- 设计动机:一旦某些物品在场景中被锚定,它们的空间位置就是重要的先验——相关物品往往是空间上邻近的。空间感知的概率更新使后续迭代更精准地聚焦于任务相关区域。
损失函数 / 训练策略¶
ASHiTA是一个无需训练的推理框架。底层依赖预训练的EfficientViT(类无关分割)和MobileCLIP(视觉-语言编码),任务推理使用GPT-4o-mini。H-IB迭代收敛条件为\(\mathcal{C}^{\tau} - \mathcal{C}^{\tau+1} < 10^{-8}\)或达到最大1000次迭代。
实验关键数据¶
主实验(SG3D HM3DSem Grounding)¶
| 方法 | s-acc(%) ↑ | t-acc(%) ↑ | 设置 |
|---|---|---|---|
| 3D-VisTA | 25.3 | 10.3 | GT 3D实例分割 |
| PQ3D | 24.4 | 9.7 | GT 3D实例分割 |
| ASHiTA | 28.7 | 12.1 | GT 3D实例分割 |
| ASHiTA + Txt Emb. | 65.4 | 39.3 | GT分割+GT标签 |
| Hydra + GPT | 8.2 | 2.4 | 增量式场景图 |
| HOV-SG + GPT | 9.0 | 2.0 | 增量式场景图 |
| ASHiTA | 21.7 | 8.8 | 增量式场景图 |
消融实验¶
| 配置 | s-rec(%) | s-prec(%) | t-acc(%) |
|---|---|---|---|
| ASHiTA (完整) | 10.39 | 20.6 | 9.27 |
| Recursive IB | 1.51 | 24.53 | 1.46 |
| w/o Top Down Pruning | 9.22 | 18.93 | 5.37 |
| w/o Spatial Update | 8.70 | 22.22 | 6.34 |
| w/o Hierarchy Refinement | 7.71 | 23.13 | 6.83 |
| Primitives + GPT | 6.14 | 7.16 | 5.37 |
关键发现¶
- H-IB远优于Recursive IB:递归应用标准IB虽然precision略高(24.53% vs 20.6%),但recall仅1.51%(完整模型10.39%),说明层间信息断层导致大量子任务被遗漏。
- 每个模块都有贡献:去掉任何一个组件(剪枝、空间更新、层级精炼)都会导致task accuracy下降30-42%。
- LLM+场景图 >> 纯LLM:Primitives+GPT(直接用LLM处理原始primitives标签)的precision仅7.16%,远低于ASHiTA的20.6%,说明信息瓶颈框架对压缩和聚焦信息至关重要。
- 在真实机器人上有效:在Boston Dynamics Spot上的真实世界演示表明ASHiTA能在复杂场景中生成合理的任务分解和锚定。
亮点与洞察¶
- 循环依赖的优雅解决方案:任务分解依赖环境、环境表示依赖任务——ASHiTA通过交替迭代优化两者,灵感来自EM算法式的思路。这个设计模式可迁移到任何"表示与推理互相依赖"的场景。
- 信息瓶颈的创新推广:将经典的单层IB推广到多层H-IB并非trivial——需要处理层间Markov假设和收敛性证明。H-IB可以作为一个通用工具,用于任何需要多层次信息压缩的问题。
- 零训练框架:整个系统不需要任何标注数据或端到端训练,完全依赖预训练视觉模型和LLM的组合,展示了foundation model组合的强大能力。
局限与展望¶
- 缺乏空间关系建模:场景图中没有"在...上面"、"在...里面"等关系边,限制了对空间指令的理解。
- 无法处理相同物品的多个实例:ASHiTA会将多把相同椅子合并为少量节点并赋予不同标签,这在需要操作多个相同物品时会失败。
- 任务层级完整性无保障:生成的子任务不保证足以完成高层任务,且树结构限制了一个物品不能被多个子任务共享。
- 改进方向:引入经典规划方法(TAMP/PDDL)验证子任务完整性;融入空间关系推理;探索将框架扩展到序列化任务执行。
相关工作与启发¶
- vs CLIO: CLIO也做任务驱动的3D场景图,但只能处理显式提及物体的简单指令,不支持高层抽象任务。ASHiTA通过加入LLM做任务分解,将CLIO的能力扩展到了高层任务。
- vs SayCan/LLM+P: 这些方法用LLM做任务规划但不与环境3D表示耦合——LLM生成的计划可能包含环境中不存在的物品或不切实际的步骤。ASHiTA通过场景图反馈使任务分解更加接地气。
- vs HOV-SG + GPT: 直接在HOV-SG场景图上用GPT做grounding,s-prec仅4.87%,说明纯LLM在缺乏信息压缩框架时无法有效处理复杂的3D场景信息。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将层次化任务分析与3D场景图构建统一到一个交替优化框架中,H-IB是有理论贡献的新工具
- 实验充分度: ⭐⭐⭐⭐ 有SG3D基准的定量评估、完整消融、真实机器人演示;但绝对指标偏低说明问题本身极具挑战性
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰,方法描述详尽,补充材料包含H-IB的完整推导和教程示例
- 价值: ⭐⭐⭐⭐ 为具身智能的高层任务理解开辟了新方向,H-IB可复用于其他多层次信息压缩场景
相关论文¶
- [CVPR 2025] Gen3DEval: Using vLLMs for Automatic Evaluation of Generated 3D Objects
- [CVPR 2025] Olympus: A Universal Task Router for Computer Vision Tasks
- [CVPR 2025] VGGT: Visual Geometry Grounded Transformer
- [CVPR 2025] SfM-Free 3D Gaussian Splatting via Hierarchical Training
- [CVPR 2025] BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis