Compositional Diffusion with Guided Search for Long-Horizon Planning¶
会议: ICLR 2026
arXiv: 2601.00126
代码: cdgsearch.github.io
领域: 强化学习 / 扩散模型规划 / 组合生成
关键词: compositional diffusion, long-horizon planning, mode averaging, guided search, inference-time compute
一句话总结¶
提出 CDGS(Compositional Diffusion with Guided Search),通过在扩散去噪过程中嵌入基于种群的搜索机制(迭代重采样 + 似然剪枝),解决组合式扩散模型在多模态局部分布合成时的模式平均问题,从短时域模型采样出全局一致的长时域规划。
研究背景与动机¶
现状: 扩散模型已成为规划的强大工具,组合式方法通过组合局部短时域生成模型来建模长时域任务分布,可应用于机器人多步操作、全景图像拼接和长视频生成等领域。
痛点: 当局部分布是多模态的(如机器人在多种物体和动作组合中选择),现有组合采样方法(如分数平均)会将不兼容的模式平均化(mode averaging),导致既不局部可行也不全局一致的无效规划。
矛盾: 全局规划的搜索空间随规划长度指数增长,而现有推理时间缩放方法仅适用于单一分布采样,无法处理分布链的组合推理。
核心idea: 在去噪过程中嵌入搜索——通过(1)迭代重采样增强远程信息传播以构造全局一致的候选规划,(2)基于似然的剪枝去除包含不一致局部段的候选规划。
方法详解¶
整体框架¶
CDGS 基于因子图表示将全局规划 \(\tau = (x_1, \ldots, x_N)\) 分解为重叠局部分布的乘积:
其中 \(y_j\) 是相邻变量子序列对应的局部因子。在扩散框架下,通过组合评分函数实现全局采样:
关键设计1: 基于DDIM反演的全局规划排序¶
利用 DDIM 反演近似评估局部段的似然,定义平滑度度量:
全局排序目标为 \(J(\tau^{(0)}) = \prod_{m=1}^M \exp(-g(y_m^{(0)}))\),高 \(g\) 值表示低似然段,对应的不一致规划将被剪枝。
关键设计2: 迭代重采样¶
在每个去噪步中交替执行前向加噪 \(\tau^{(t)} \sim p(\tau^{(t)} | \tau^{(t-1)})\) 和去噪,重复 \(U\) 次。该过程类似链式因子图上的置信传播,使远端因子的信息通过重叠变量逐步传播,促进全局一致性。
训练策略¶
- 学习局部规划的扩散模型(Diffuser),覆盖约4秒/20Hz轨迹
- 推理时组合为最长10秒的全局规划
- 种群大小 \(B\) 和精英数 \(K\) 可调节,实现自适应推理时间计算
实验关键数据¶
主实验: OGBench 迷宫与场景任务(成功率%)¶
| 环境 | GCBC | HIQL | Diffuser | GSC | CD | CDGS |
|---|---|---|---|---|---|---|
| PointMaze-Giant | 0 | 0 | - | 29 | 68 | 82 |
| AntMaze-Giant | 0 | 2 | - | 20 | 65 | 84 |
| Scene-play (avg) | 5 | 38 | 6 | 8 | - | 51 |
TAMP 混合规划任务(成功率)¶
| 任务 | Random CEM | STAP CEM | LLM-T2M | GSC (oracle) | CDGS |
|---|---|---|---|---|---|
| Hook Reach T1 | 0.14 | 0.66 | 0.0 | 0.78 | 0.64 |
| Rearrange Push T1 | 0.08 | 0.76 | 0.72 | 0.88 | 0.84 |
| Rearrange Memory T1 | 0.02 | 0.00 | 0.0 | 0.82 | 0.42 |
全景图生成(512×4608)¶
| 指标 | Multi-Diffusion | Sync-Diffusion | CDGS |
|---|---|---|---|
| Intra-LPIPS↓ | 0.72 | 0.58 | 0.59 |
| Intra-Style-L↓ | 2.96 | 1.39 | 1.38 |
| Mean-CLIP-S↑ | 31.77 | 31.77 | 32.51 |
关键发现¶
- 在无需长时域训练数据的条件下,CDGS 在 OGBench 上与逆RL基线持平,超越所有生成式基线
- TAMP 任务中无需任务骨架或PDDL即可发现可行计划,在 Rearrangement Memory 上显著超越无先验方法
- 推理时间计算可缩放:增大批量 \(B\) 和重采样步数 \(U\) 均可提升成功率
亮点与洞察¶
- 优雅的问题形式化: 将长时域规划统一建模为因子图上的组合采样,跨域适用(机器人/图像/视频)
- 免训练的推理增强: 不需要额外训练,仅通过推理时搜索即可将朴素组合采样提升至与 CompDiffuser 等需训练方法持平
- 自适应推理计算: 可通过增加 \(B\) 和 \(U\) 应对更难问题,体现了推理时间缩放的潜力
- DDIM反演作为似然代理: 巧妙地利用去噪轨迹曲率来近似评估样本似然,避免了精确似然计算的高开销
局限性 / 可改进方向¶
- 需要预先指定目标状态,无法处理未知目标的开放式任务
- 规划长度固定,虽可通过多次尝试不同长度缓解
- 远程依赖仅通过分数平均和重采样传播,更高级的消息传递或注意力机制可能提升效率
- 推理开销随 \(B \times U\) 线性增长,在实时应用中可能受限
相关工作与启发¶
- 与 CompDiffuser、GSC 等组合扩散方法互补:CDGS 专注解决模式平均而非依赖额外训练
- 与推理时间缩放文献呼应:将搜索嵌入去噪是该范式在组合生成中的自然延伸
- 因子图 + 扩散模型的框架可推广到其他结构化生成问题(如分子设计、蛋白质折叠的片段组合)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将搜索嵌入组合扩散去噪过程的思路新颖
- 实验充分度: ⭐⭐⭐⭐⭐ — 跨三个域(机器人/图像/视频)的全面验证
- 写作质量: ⭐⭐⭐⭐ — 清晰的running example和直观的图示
- 价值: ⭐⭐⭐⭐ — 提供了通用的长时域生成方案,但推理开销可能限制实际部署