跳转至

Compositional Diffusion with Guided Search for Long-Horizon Planning

会议: ICLR 2026
arXiv: 2601.00126
代码: cdgsearch.github.io
领域: 强化学习 / 扩散模型规划 / 组合生成
关键词: compositional diffusion, long-horizon planning, mode averaging, guided search, inference-time compute

一句话总结

提出 CDGS(Compositional Diffusion with Guided Search),通过在扩散去噪过程中嵌入基于种群的搜索机制(迭代重采样 + 似然剪枝),解决组合式扩散模型在多模态局部分布合成时的模式平均问题,从短时域模型采样出全局一致的长时域规划。

研究背景与动机

现状: 扩散模型已成为规划的强大工具,组合式方法通过组合局部短时域生成模型来建模长时域任务分布,可应用于机器人多步操作、全景图像拼接和长视频生成等领域。

痛点: 当局部分布是多模态的(如机器人在多种物体和动作组合中选择),现有组合采样方法(如分数平均)会将不兼容的模式平均化(mode averaging),导致既不局部可行也不全局一致的无效规划。

矛盾: 全局规划的搜索空间随规划长度指数增长,而现有推理时间缩放方法仅适用于单一分布采样,无法处理分布链的组合推理。

核心idea: 在去噪过程中嵌入搜索——通过(1)迭代重采样增强远程信息传播以构造全局一致的候选规划,(2)基于似然的剪枝去除包含不一致局部段的候选规划。

方法详解

整体框架

CDGS 基于因子图表示将全局规划 \(\tau = (x_1, \ldots, x_N)\) 分解为重叠局部分布的乘积:

\[p(\tau) = \frac{\prod_{j=1}^M p(y_j)}{\prod_{i=1}^N p(x_i)^{d_i - 1}}\]

其中 \(y_j\) 是相邻变量子序列对应的局部因子。在扩散框架下,通过组合评分函数实现全局采样:

\[\nabla \log p(\tau) = \sum_{j=1}^M \nabla \log p(y_j) + \sum_{i=1}^N (1 - d_i) \nabla \log p(x_i)\]

关键设计1: 基于DDIM反演的全局规划排序

利用 DDIM 反演近似评估局部段的似然,定义平滑度度量:

\[g(y^{(0)}) = \sum_{i=1}^T \left\| \frac{\partial \epsilon_\theta(y^{(i-1)}, i)}{\partial i} \right\|_2\]

全局排序目标为 \(J(\tau^{(0)}) = \prod_{m=1}^M \exp(-g(y_m^{(0)}))\),高 \(g\) 值表示低似然段,对应的不一致规划将被剪枝。

关键设计2: 迭代重采样

在每个去噪步中交替执行前向加噪 \(\tau^{(t)} \sim p(\tau^{(t)} | \tau^{(t-1)})\) 和去噪,重复 \(U\) 次。该过程类似链式因子图上的置信传播,使远端因子的信息通过重叠变量逐步传播,促进全局一致性。

训练策略

  • 学习局部规划的扩散模型(Diffuser),覆盖约4秒/20Hz轨迹
  • 推理时组合为最长10秒的全局规划
  • 种群大小 \(B\) 和精英数 \(K\) 可调节,实现自适应推理时间计算

实验关键数据

主实验: OGBench 迷宫与场景任务(成功率%)

环境 GCBC HIQL Diffuser GSC CD CDGS
PointMaze-Giant 0 0 - 29 68 82
AntMaze-Giant 0 2 - 20 65 84
Scene-play (avg) 5 38 6 8 - 51

TAMP 混合规划任务(成功率)

任务 Random CEM STAP CEM LLM-T2M GSC (oracle) CDGS
Hook Reach T1 0.14 0.66 0.0 0.78 0.64
Rearrange Push T1 0.08 0.76 0.72 0.88 0.84
Rearrange Memory T1 0.02 0.00 0.0 0.82 0.42

全景图生成(512×4608)

指标 Multi-Diffusion Sync-Diffusion CDGS
Intra-LPIPS↓ 0.72 0.58 0.59
Intra-Style-L↓ 2.96 1.39 1.38
Mean-CLIP-S↑ 31.77 31.77 32.51

关键发现

  • 在无需长时域训练数据的条件下,CDGS 在 OGBench 上与逆RL基线持平,超越所有生成式基线
  • TAMP 任务中无需任务骨架或PDDL即可发现可行计划,在 Rearrangement Memory 上显著超越无先验方法
  • 推理时间计算可缩放:增大批量 \(B\) 和重采样步数 \(U\) 均可提升成功率

亮点与洞察

  1. 优雅的问题形式化: 将长时域规划统一建模为因子图上的组合采样,跨域适用(机器人/图像/视频)
  2. 免训练的推理增强: 不需要额外训练,仅通过推理时搜索即可将朴素组合采样提升至与 CompDiffuser 等需训练方法持平
  3. 自适应推理计算: 可通过增加 \(B\)\(U\) 应对更难问题,体现了推理时间缩放的潜力
  4. DDIM反演作为似然代理: 巧妙地利用去噪轨迹曲率来近似评估样本似然,避免了精确似然计算的高开销

局限性 / 可改进方向

  • 需要预先指定目标状态,无法处理未知目标的开放式任务
  • 规划长度固定,虽可通过多次尝试不同长度缓解
  • 远程依赖仅通过分数平均和重采样传播,更高级的消息传递或注意力机制可能提升效率
  • 推理开销随 \(B \times U\) 线性增长,在实时应用中可能受限

相关工作与启发

  • 与 CompDiffuser、GSC 等组合扩散方法互补:CDGS 专注解决模式平均而非依赖额外训练
  • 与推理时间缩放文献呼应:将搜索嵌入去噪是该范式在组合生成中的自然延伸
  • 因子图 + 扩散模型的框架可推广到其他结构化生成问题(如分子设计、蛋白质折叠的片段组合)

评分

  • 新颖性: ⭐⭐⭐⭐ — 将搜索嵌入组合扩散去噪过程的思路新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ — 跨三个域(机器人/图像/视频)的全面验证
  • 写作质量: ⭐⭐⭐⭐ — 清晰的running example和直观的图示
  • 价值: ⭐⭐⭐⭐ — 提供了通用的长时域生成方案,但推理开销可能限制实际部署