H-GAR: A Hierarchical Interaction Framework via Goal-Driven Observation-Action Refinement for Robotic Manipulation¶

会议: AAAI2026
arXiv: 2511.17079
代码: 待确认
领域: object_detection
关键词: robotic manipulation, goal-conditioned planning, observation-action interaction, diffusion policy, coarse-to-fine refinement

一句话总结¶

提出层次化目标驱动框架 H-GAR，通过先预测目标观测再合成中间观测、并利用历史动作记忆库细化粗粒度动作，实现了观测与动作的显式双向交互，在仿真和真实机器人操控任务上取得 SOTA。

背景与动机¶

统一的视频与动作预测模型在机器人操控领域展现了巨大潜力：未来观测为规划提供上下文线索，动作序列揭示交互如何影响环境。然而现有方法（如 UVA、PAD、UniPi 等）存在两个根本缺陷：

目标无关的观测生成：模型在预测未来观测序列时缺乏显式目标语义引导，生成的序列虽然视觉上合理，但与任务目标语义不一致，导致下游规划精度下降。
隐式的观测-动作建模：观测和动作通常并行生成或仅松耦合，未显式建模二者的因果关系，削弱了时序一致性和适应性。

这两个问题在长时域多阶段操控任务（如抽屉开关+物体放置）中尤为突出，导致关键步骤失败。

核心问题¶

如何在统一视频-动作预测框架中引入显式的目标锚定和结构化的观测-动作双向交互，使生成的动作既与任务目标语义对齐，又保持时间上的连贯性？

方法详解¶

整体架构¶

H-GAR 采用粗到细的层次化设计，包含四个阶段：

编码阶段：将历史观测 \(\{O_{t-h+1},\dots,O_t\}\) 通过预训练 VAE 编码为 latent tokens，结合 CLIP 编码的文本指令 \(T_I\) 和 masked 未来观测，输入 Transformer 编码器得到联合表征 \(\mathbf{Z}_{t+1:t+h'}\)。
目标预测阶段：利用视频 diffusion decoder 从最终步的 latent \(\mathbf{Z}_{t+h'}\) 生成目标观测 \(O_{t+h'}\)（即任务完成后的最终视觉状态），同时生成粗粒度动作序列。
Goal-Conditioned Observation Synthesizer (GOS)：以目标观测 latent 和粗粒度动作 latent 为条件，合成中间观测特征。
Interaction-Aware Action Refiner (IAAR)：利用中间观测反馈和历史动作记忆库，将粗粒度动作细化为精细、时序一致的动作。

GOS 模块¶

GOS 引入可学习查询 \(\mathbf{Q}_{\text{Inter}} \in \mathbb{R}^{(h'-1)\times N\times D}\) 来表示中间帧的 latent：

自注意力聚合目标信息：将查询与目标观测 latent \(\mathbf{Z}_{t+h'}\) 拼接后做 Self-Attention，使目标语义注入查询。
交叉注意力注入动作上下文：更新后的查询以粗动作 latent \(\mathbf{Z}_{t+1:t+h'}\) 为 Key/Value 做 Cross-Attention，再经 FFN 输出中间观测特征 \(\mathbf{Z}_{\text{Inter}}\)。

这一设计使中间观测同时反映「要到哪里去」（目标）和「怎么过去」（动作）。

IAAR 模块¶

IAAR 分两步细化粗动作：

历史动作交互：以粗动作 latent 作为 Query，Historical Action Memory Bank \(\mathcal{H}_t\) 作为 Key/Value 做注意力，注入时序行为先验。
观测反馈细化：以上一步输出作为 Query，中间观测特征 \(\mathbf{Z}_{\text{Inter}}\) 作为 Key/Value 做 Cross-Attention，得到最终精细动作。

Historical Action Memory Bank¶

记忆库存储历史精细动作 latent，当超过阈值时采用相似度驱逐策略：计算相邻动作 latent 的余弦相似度，合并最相似的一对（取平均），保持记忆多样性。这优于 FIFO 和随机删除策略。

训练目标¶

总损失由四部分组成：

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{goal}} + \mathcal{L}_{\text{coarse}} + \mathcal{L}_{\text{inter}} + \mathcal{L}_{\text{fine}}\]

各项均为 diffusion denoising loss，分别监督目标观测、粗动作、中间观测和精细动作。训练时对未来观测施加位置一致的随机 mask 以避免信息泄漏，推理时从空白图像开始。

实验关键数据¶

仿真实验（成功率）¶

方法	PushT	PushT-M	Libero-10
Diffusion Policy-C	0.91	0.68	0.53
UVA	0.96	0.85	0.89
PD-VLA	0.82	0.71	0.92
H-GAR	0.99	0.90	0.94

三个基准全部 Rank 1，PushT 达到 0.99。

真实机器人实验（ALOHA 平台）¶

任务	H-GAR	UVA	PD-VLA
Object Placement (两阶段)	9/10 → 8/10	7/10 → 6/10	8/10 → 7/10
Drawer Manipulation (三阶段)	7/10 → 6/10 → 6/10	6/10 → 5/10 → 3/10	6/10 → 6/10 → 4/10
Towel Folding	8/10	5/10	6/10
Mouse Arrangement	6/10	3/10	4/10

长时域多阶段任务优势显著，如 Drawer Manipulation 最终阶段 6/10 vs UVA 3/10。

观测生成质量（FVD ↓）¶

H-GAR 在 8-step 生成下 Libero-10 FVD 49.01（UVA 51.10），Mouse Arrangement FVD 28.43（UVA 32.78），且 FVD 与成功率呈强负相关。

关键消融¶

GOS + IAAR（含记忆库）完整模型最优；去掉任一模块性能均显著下降。
目标帧条件优于随机帧和均匀采样帧策略。
记忆库大小 32 为最佳平衡点；相似度驱逐策略优于 FIFO 和随机策略。

亮点¶

层次化粗到细范式设计优雅：先锚定目标→生成粗动作→合成中间观测→精细化动作，逻辑链清晰。
GOS 和 IAAR 的双向交互使观测与动作显式耦合，打破了现有方法中二者松耦合的瓶颈。
Historical Action Memory Bank 配合相似度驱逐策略，简洁有效地编码时序行为先验。
真实机器人验证充分，4 类任务覆盖短时域/长时域/精细操控，长时域任务优势突出。
FVD 与成功率的负相关分析提供了观测生成质量→操控性能的直接证据。

局限性 / 可改进方向¶

领域分类不当：本文核心是机器人操控/策略学习，而非 object detection，当前分类可能需要重新归类到 robotics。
计算开销：层次化多阶段设计增加了推理复杂度，论文未讨论推理延迟，对实时控制场景可能存在瓶颈。
目标观测预测的误差传播：粗到细的级联设计中，若目标观测预测偏差较大，后续 GOS 和 IAAR 可能将错误放大。
记忆库容量固定阈值：简单的阈值+合并策略可能不适用于极长时域任务，自适应记忆管理值得探索。
泛化性验证有限：仅在 ALOHA 平台测试，未涉及灵巧手或移动操控等更复杂场景。

与相关工作的对比¶

方法	目标锚定	观测-动作交互	粗到细	记忆机制
Diffusion Policy	✗	✗	✗	✗
UniPi	✗	隐式	✗	✗
UVA	✗	联合优化	✗	✗
PAD	✗	联合去噪	✗	✗
LBP	隐式 latent goal	✗	✗	✗
H-GAR	显式目标观测	GOS+IAAR 双向显式	✓	Historical Memory Bank

H-GAR 是首个将显式目标观测锚定、双向观测-动作交互和历史动作记忆统一在一个层次化框架中的方法。

启发与关联¶

粗到细的级联思路可迁移到其他序列决策问题（如自动驾驶轨迹规划）：先预测终态作为锚点，再逐步细化。
相似度驱逐的记忆管理策略简单但有效，可用于需要维护有限大小历史缓冲区的任何在线学习场景。
观测生成质量与下游任务性能的相关性分析思路，可用于评估视频生成在其他具身任务（如导航）中的作用。
与 idea 方向关联：若将 GOS 替换为 3D 场景表示生成器，可能在 3D 操控规划中获得更强的空间推理能力。

评分¶

新颖性: ⭐⭐⭐⭐ — 层次化目标驱动+双向交互设计新颖，但个别模块（如 diffusion decoder、cross-attention）为标准组件
实验充分度: ⭐⭐⭐⭐⭐ — 仿真+真实机器人+消融+可视化+相关性分析，非常全面
写作质量: ⭐⭐⭐⭐ — 结构清晰、图表丰富，动机阐述充分
价值: ⭐⭐⭐⭐ — 对机器人操控中的视频-动作联合建模提供了有效的层次化解决方案