RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks¶
会议: NeurIPS 2025
arXiv: 2510.14968
代码: rdd-neurips.github.io
领域: 机器人
关键词: 层级VLA, 任务分解, 检索对齐, 动态规划, 长时域操作
一句话总结¶
提出RDD(基于检索的演示分解器),通过将演示分解建模为最优分区问题,自动将长时域任务演示分解为与底层视觉运动策略训练数据对齐的子任务,从而协调层级VLA框架中高层规划器与低层策略,在RLBench上接近专家分解器的性能。
研究背景与动机¶
层级视觉-语言-动作模型(Hierarchical VLA)是当前处理长时域机器人任务的主流范式:高层规划器(通常是VLM)负责将复杂任务分解为步骤化的语言指令,低层视觉运动策略根据指令执行精确操作。代表性工作如Hi Robot和π0.5都采用了这种架构。
然而,规划器在部署到新任务时通常需要微调,微调数据集需要将演示分解为子任务。现有分解方式存在严重问题:
人工标注:昂贵、不可扩展、带有主观性,且不同标注者之间缺乏一致性
启发式规则(如UVD基于视觉特征变化点检测):生成的子任务可能严重偏离低层策略的训练数据分布
这种偏离带来"规划器-策略不对齐"问题:规划器学会生成低层策略无法良好执行的子任务指令,导致整体任务性能下降。如论文Fig.1所示,UVD分解出的子任务与训练集中策略已学习的子任务存在明显差异。
核心洞察:如果规划器微调时使用的子任务分解与低层策略已见过的训练样本高度对齐,那么规划器将学会生成策略"擅长"的指令,从而最大化任务成功率。
方法详解¶
整体框架¶
RDD是一个无需训练(training-free)、自动化的演示分解框架,核心流程为: 1. 从低层策略的训练集构建子任务向量数据库 2. 将新演示的分解建模为最优分区问题 3. 用动态规划求解最优分解 4. 使用最优分解数据微调高层规划器
关键设计¶
- 最优分区问题建模
给定演示 \(\mathcal{S}^i\),目标是找到最优分区策略:
$\(P^{i*} = \arg\max_{P \in \Pi(\mathcal{S}^i)} \mathrm{J}(P)\)$
其中 \(\mathrm{J}(P)\) 评估分区策略与低层策略训练集 \(\mathcal{D}^{train}_{aug}\) 的对齐程度。当 \(\mathrm{J}\) 是区间可加的(\(\mathrm{J}(P)=\sum_{\mathcal{I}\in P}\tilde{J}(\mathcal{I})\)),满足最优子结构性质,可用动态规划在 \(O(N^2)\) 次评分函数调用内求解。
设计动机:暴力搜索需要 \(O(2^{N-1})\) 次评估,DP利用最优性原理将复杂度降至多项式。当子任务长度有界(\([L_{min}, L_{max}]\))时,复杂度进一步降至 \(O(N)\)。
- 区间评分函数与检索
每个候选区间 \(\mathcal{I}^i_j\) 的评分定义为:
$\(\tilde{J}(\mathcal{I}^i_j) = |\mathcal{I}^i_j| \cdot \mathbf{sim}(\mathcal{I}^i_j, \mathrm{ANNS}(\mathcal{V}(\mathcal{I}^i_j), \mathcal{D}^{train}_{aug}))\)$
其中 \(\mathcal{V}(\mathcal{I}) = \text{concat}(\mathcal{E}(o_b), \mathcal{E}(o_e))\) 将区间起止帧编码为向量表示,ANNS返回训练集中最近邻区间 \(\tilde{\mathcal{I}}^i_j\)。乘以 \(|\mathcal{I}|\) 确保评分与时间步数成比例,使得分割数量不影响总分(Proposition 3.1)。
设计动机:同时编码起始帧和结束帧捕获子任务的上下文和目标信息。结束帧(goal frame)包含子任务目标的丰富信息。
- 区间相似度度量
标准设定(非OOD)下的相似度:
$\(\mathbf{sim}(\mathcal{I}^i_j, \tilde{\mathcal{I}}^i_j) = -[\delta(\mathcal{V}(\mathcal{I}^i_j), \mathcal{V}(\tilde{\mathcal{I}}^i_j)) + \alpha |1 - \frac{|\mathcal{I}^i_j|}{|\tilde{\mathcal{I}}^i_j|}|]\)$
第一项是视觉特征距离(使用角距离),第二项是时间长度的相对差异,\(\alpha\) 控制两者权重。
对于OOD子任务场景,相似度扩展为检索项+通用项组合:
$\(\mathbf{sim} = -\delta(\mathcal{V}_e(\mathcal{I}), \mathcal{V}_e(\tilde{\mathcal{I}})) + \beta \mathrm{G}(\mathcal{I})\)$
其中 \(\mathrm{G}\) 使用UVD等通用变化点检测方法评估区间的"通用性"。
损失函数 / 训练策略¶
RDD本身无需训练。规划器使用LoRA(rank=128, scaling=256)在 \(\mathcal{D}^{demo}_{aug}\) 上微调2个epoch,约5分钟(4×NVIDIA 6000 Ada)。底层策略使用RVT,已在 \(\mathcal{D}^{train}_{aug}\) 上预训练。向量数据库使用Annoy(10棵随机投影树),距离度量为角距离 \(\sqrt{2(1-\cos(u,v))}\)。
实验关键数据¶
主实验¶
在RLBench 13个任务上评估(10个随机种子平均):
| 方法 | 平均成功率(↑) | 平均排名(↓) | 是否需标注 |
|---|---|---|---|
| w/o Finetune | 52.6±8.2 | 4.5±1.2 | - |
| Uniform | 71.3±5.4 | 3.1±1.2 | 否 |
| UVD | 71.4±5.1 | 3.0±1.3 | 否 |
| RDD (Ours) | 74.9±6.9 | 2.2±0.9 | 否 |
| Expert (上界) | 75.1±4.7 | 2.2±1.0 | 是 |
RDD仅比Expert分解器低0.2%成功率,显著优于UVD和均匀分割。
消融实验¶
| 消融维度 | 配置 | 平均成功率 | 说明 |
|---|---|---|---|
| 视觉编码器 | LIV | 81.1±0.9 | 最佳机器人专用编码器 |
| 视觉编码器 | ResNet | 81.1±2.5 | 意外表现优秀 |
| 视觉编码器 | VC-1 | 75.5±3.1 | 无语言集成,表现较差 |
| 权重参数α | α=0 | 75.0±2.5 | 无时间对齐,混淆往复运动 |
| 权重参数α | α=1 | 81.1±0.9 | 最优平衡 |
| 权重参数α | α=2 | 76.2±3.0 | 过度依赖时间相似度 |
| 演示数量 | 1 demo/task | 77.9±4.5 | 高数据效率 |
| 演示数量 | 3 demo/task | 81.1±0.9 | 最佳 |
| vs VLM分解 | Gemini-2.5-pro | 72.6±4.7 | RDD优于强VLM |
| OOD设定 | AgiBotWorld真实世界 | IoU 0.706 | RDD vs UVD的0.506 |
关键发现¶
- UVD性能与简单均匀分割相当,说明视觉特征变化点并不总与策略训练数据对齐
- RDD在多种视觉编码器上表现稳健,包括非机器人专用的ResNet
- 语言集成对视觉编码器很重要——无语言训练的VC-1和VIP表现最差
- RDD甚至优于Gemini-2.5-pro的VLM分解方案
- 算法复杂度随Lmax线性增长,与理论分析一致
亮点与洞察¶
- 问题定义精准:首次明确提出规划器-策略对齐问题,并给出优雅的检索式解决方案
- 无需训练:RDD完全基于检索和动态规划,计算高效且通用
- 理论扎实:从最优分区问题出发,证明了线性复杂度和最优性保证
- Proposition 3.1的巧妙设计:通过乘以区间长度使评分函数对分割数量不变,避免了过度分割或过少分割的偏差
局限与展望¶
- RDD的质量受限于底层策略训练数据的质量——如果训练集包含大量噪声样本,可能需要数据筛选预处理
- 区间相似度仅使用起止帧的单帧特征,对需要历史地标图像的场景(如视觉语言导航)可能不足
- RDD不关心技能本身的"最优性",只确保规划器生成策略能执行的指令
- 在完全陌生环境中(无历史训练数据可检索)方法将退化
相关工作与启发¶
- 属于层级VLA领域(Hi Robot, π0.5, RACER),但解决的是被忽视的规划器-策略对齐问题
- 与UVD形成直接对比,跳出了"变化点检测"的思路
- 启发方向:RDD不仅可用于规划器微调,也可用于为低层策略生成对齐的新训练数据
评分¶
- 新颖性: ⭐⭐⭐⭐ 问题定义新颖,检索+DP的解法巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实世界+OOD+多维消融,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,理论推导严谨
- 价值: ⭐⭐⭐⭐⭐ 解决了层级VLA中一个关键但被忽略的对齐问题,方法即插即用
相关论文¶
- [NeurIPS 2025] RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation
- [CVPR 2025] Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method
- [ICML 2025] Closed-loop Long-horizon Robotic Planning via Equilibrium Sequence Modeling
- [NeurIPS 2025] EfficientNav: Towards On-Device Object-Goal Navigation with Navigation Map Caching and Retrieval
- [NeurIPS 2025] VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions