ASHiTA: Automatic Scene-grounded Hierarchical Task Analysis¶

会议: CVPR 2025
arXiv: 2504.06553
代码: 无
领域: 3D视觉
关键词: 层次化任务分析, 3D场景图, 信息瓶颈, LLM任务分解, 场景理解

一句话总结¶

提出首个将高层任务自动分解为场景锚定(grounded)子任务层级的框架ASHiTA，通过交替执行LLM辅助的层次化任务分析和基于信息瓶颈原理的任务驱动3D场景图构建，实现了任务层级与场景表示的联合推理。

研究背景与动机¶

领域现状：场景重建与语义理解领域已在将自然语言锚定到3D环境方面取得显著进展，涌现了ConceptGraph、HOV-SG、CLIO等开放词汇(open-set)的3D场景图方法。这些方法能将简单、显式指令（如"去厨房"、"预热烤箱"）与场景中的物体关联起来。

现有痛点：现有方法无法处理抽象的高层指令（如"准备晚餐"），因为：(1) 高层指令不会显式提及场景中的语义元素；(2) 将高层任务分解为具体子任务的过程是环境依赖的——同样是"打扫办公室"，不同办公室的分解结果完全不同。(3) LLM虽然能做任务分解，但脱离环境信息的分解往往不切实际。

核心矛盾：场景表示应该依赖任务（只保留任务相关物体），但任务分解又依赖场景中有哪些物体——这是一个鸡生蛋、蛋生鸡的循环依赖问题。

本文目标：构建一个框架，能从高层自然语言任务出发，自动生成一个既包含子任务层级结构、又与3D场景图锚定的完整任务分析。

切入角度：将信息瓶颈（Information Bottleneck）原理推广为层次化版本（H-IB），用于在不同抽象层级上压缩场景表示；同时交替执行自底向上的场景图构建和自顶向下的LLM任务层级精炼。

核心 idea：通过迭代交替的场景层级更新（基于H-IB将3D primitives压缩为任务对齐的场景图）和任务更新（基于LLM利用场景信息精炼任务层级），解决任务分解与场景表示之间的循环依赖。

方法详解¶

整体框架¶

ASHiTA首先从RGB-D输入构建底层primitives层（类无关的3D语义分割），然后在给定高层任务的情况下，迭代执行两个核心步骤：(1) 场景层级更新——利用H-IB将primitives按照当前任务层级压缩成多层场景图；(2) 任务更新——利用LLM和当前场景图精炼任务层级（添加新子任务和物品）。输入是RGB-D图像序列和高层任务描述，输出是一个锚定在3D场景图上的完整任务层级。

关键设计¶

层次化信息瓶颈 (H-IB):
- 功能：将底层primitives多级压缩为与任务层级对齐的场景图节点
- 核心思路：经典IB寻找输入数据的压缩表示\(\mathcal{S}\)，使其保留关于任务\(\mathcal{T}\)的最大信息。H-IB将其推广到多层——给定多分辨率任务\(\mathcal{T}_1 \dots \mathcal{T}_n\)，求解多层压缩\(\mathcal{S}_1 \dots \mathcal{S}_n\)，最小化\(\sum_{k=1}^{n} I(\mathcal{S}_{k-1};\mathcal{S}_k) - \beta \sum_{k=1}^{n} I(\mathcal{T}_k;\mathcal{S}_k)\)。在Markov链假设下推导出迭代更新公式，\(\beta=10\)控制压缩程度。自底向上用H-IB构建场景图，再自顶向下基于节点置信度剪枝冗余节点。
- 设计动机：传统IB只能做单层压缩，但任务层级天然是多层的（任务→子任务→物品），H-IB能在各层级同时保留最相关信息，产生层次化的场景图。相比递归调用标准IB，H-IB保持了层间信息传递的一致性（消融实验证实recursive IB的recall显著下降）。
LLM辅助任务层级精炼:
- 功能：利用场景中发现但未被当前任务层级覆盖的物体来更新任务分解
- 核心思路：追踪H-IB自底向上构建中被分配到子任务、但在自顶向下剪枝中被移除的primitives。通过Word Generator（利用CLIP相似度匹配一个LLM生成的家居物品词库）为这些primitives生成物品名称。然后查询GPT-4o-mini为每个子任务中的建议物品评分（0-1），高于阈值\(r_s=0.8\)的物品加入现有子任务，剩余高分物品则触发LLM生成新的子任务。
- 设计动机：初始任务分解基于LLM的通用知识，不了解具体环境。通过场景图中的发现反馈给LLM，实现了"看到什么→想到什么→再去找什么"的闭环推理。
空间感知条件概率更新:
- 功能：在后续迭代中利用已锚定节点的空间位置改进H-IB输入
- 核心思路：定义空间条件概率\(p_s(s_i|t)\)：当primitive在任务实体半径\(r\)内时概率为1，超出时按指数衰减\(\exp(-(d-r)^2/r^2)\)。将空间概率与原始embedding概率相乘归一化，作为下一轮H-IB的输入。任务实体的位置取自对齐的场景图节点质心，半径取最近邻距离或包围盒尺寸。
- 设计动机：一旦某些物品在场景中被锚定，它们的空间位置就是重要的先验——相关物品往往是空间上邻近的。空间感知的概率更新使后续迭代更精准地聚焦于任务相关区域。

损失函数 / 训练策略¶

ASHiTA是一个无需训练的推理框架。底层依赖预训练的EfficientViT（类无关分割）和MobileCLIP（视觉-语言编码），任务推理使用GPT-4o-mini。H-IB迭代收敛条件为\(\mathcal{C}^{\tau} - \mathcal{C}^{\tau+1} < 10^{-8}\)或达到最大1000次迭代。

实验关键数据¶

主实验（SG3D HM3DSem Grounding）¶

方法	s-acc(%) ↑	t-acc(%) ↑	设置
3D-VisTA	25.3	10.3	GT 3D实例分割
PQ3D	24.4	9.7	GT 3D实例分割
ASHiTA	28.7	12.1	GT 3D实例分割
ASHiTA + Txt Emb.	65.4	39.3	GT分割+GT标签
Hydra + GPT	8.2	2.4	增量式场景图
HOV-SG + GPT	9.0	2.0	增量式场景图
ASHiTA	21.7	8.8	增量式场景图

消融实验¶

配置	s-rec(%)	s-prec(%)	t-acc(%)
ASHiTA (完整)	10.39	20.6	9.27
Recursive IB	1.51	24.53	1.46
w/o Top Down Pruning	9.22	18.93	5.37
w/o Spatial Update	8.70	22.22	6.34
w/o Hierarchy Refinement	7.71	23.13	6.83
Primitives + GPT	6.14	7.16	5.37

关键发现¶

H-IB远优于Recursive IB：递归应用标准IB虽然precision略高(24.53% vs 20.6%)，但recall仅1.51%（完整模型10.39%），说明层间信息断层导致大量子任务被遗漏。
每个模块都有贡献：去掉任何一个组件（剪枝、空间更新、层级精炼）都会导致task accuracy下降30-42%。
LLM+场景图 >> 纯LLM：Primitives+GPT（直接用LLM处理原始primitives标签）的precision仅7.16%，远低于ASHiTA的20.6%，说明信息瓶颈框架对压缩和聚焦信息至关重要。
在真实机器人上有效：在Boston Dynamics Spot上的真实世界演示表明ASHiTA能在复杂场景中生成合理的任务分解和锚定。

亮点与洞察¶

循环依赖的优雅解决方案：任务分解依赖环境、环境表示依赖任务——ASHiTA通过交替迭代优化两者，灵感来自EM算法式的思路。这个设计模式可迁移到任何"表示与推理互相依赖"的场景。
信息瓶颈的创新推广：将经典的单层IB推广到多层H-IB并非trivial——需要处理层间Markov假设和收敛性证明。H-IB可以作为一个通用工具，用于任何需要多层次信息压缩的问题。
零训练框架：整个系统不需要任何标注数据或端到端训练，完全依赖预训练视觉模型和LLM的组合，展示了foundation model组合的强大能力。

局限与展望¶

缺乏空间关系建模：场景图中没有"在...上面"、"在...里面"等关系边，限制了对空间指令的理解。
无法处理相同物品的多个实例：ASHiTA会将多把相同椅子合并为少量节点并赋予不同标签，这在需要操作多个相同物品时会失败。
任务层级完整性无保障：生成的子任务不保证足以完成高层任务，且树结构限制了一个物品不能被多个子任务共享。
改进方向：引入经典规划方法（TAMP/PDDL）验证子任务完整性；融入空间关系推理；探索将框架扩展到序列化任务执行。

评分¶

新颖性: ⭐⭐⭐⭐ 首次将层次化任务分析与3D场景图构建统一到一个交替优化框架中，H-IB是有理论贡献的新工具
实验充分度: ⭐⭐⭐⭐ 有SG3D基准的定量评估、完整消融、真实机器人演示；但绝对指标偏低说明问题本身极具挑战性
写作质量: ⭐⭐⭐⭐ 理论推导清晰，方法描述详尽，补充材料包含H-IB的完整推导和教程示例
价值: ⭐⭐⭐⭐ 为具身智能的高层任务理解开辟了新方向，H-IB可复用于其他多层次信息压缩场景