Compositional Diffusion with Guided Search for Long-Horizon Planning¶

会议: ICLR 2026
arXiv: 2601.00126
代码: cdgsearch.github.io
领域: 强化学习 / 扩散模型规划 / 组合生成
关键词: compositional diffusion, long-horizon planning, mode averaging, guided search, inference-time compute

一句话总结¶

提出 CDGS（Compositional Diffusion with Guided Search），通过在扩散去噪过程中嵌入基于种群的搜索机制（迭代重采样 + 似然剪枝），解决组合式扩散模型在多模态局部分布合成时的模式平均问题，从短时域模型采样出全局一致的长时域规划。

研究背景与动机¶

现状: 扩散模型已成为规划的强大工具，组合式方法通过组合局部短时域生成模型来建模长时域任务分布，可应用于机器人多步操作、全景图像拼接和长视频生成等领域。

痛点: 当局部分布是多模态的（如机器人在多种物体和动作组合中选择），现有组合采样方法（如分数平均）会将不兼容的模式平均化（mode averaging），导致既不局部可行也不全局一致的无效规划。

矛盾: 全局规划的搜索空间随规划长度指数增长，而现有推理时间缩放方法仅适用于单一分布采样，无法处理分布链的组合推理。

核心idea: 在去噪过程中嵌入搜索——通过(1)迭代重采样增强远程信息传播以构造全局一致的候选规划，(2)基于似然的剪枝去除包含不一致局部段的候选规划。

方法详解¶

整体框架¶

CDGS 基于因子图表示将全局规划 \(\tau = (x_1, \ldots, x_N)\) 分解为重叠局部分布的乘积：

\[p(\tau) = \frac{\prod_{j=1}^M p(y_j)}{\prod_{i=1}^N p(x_i)^{d_i - 1}}\]

其中 \(y_j\) 是相邻变量子序列对应的局部因子。在扩散框架下，通过组合评分函数实现全局采样：

\[\nabla \log p(\tau) = \sum_{j=1}^M \nabla \log p(y_j) + \sum_{i=1}^N (1 - d_i) \nabla \log p(x_i)\]

关键设计1: 基于DDIM反演的全局规划排序¶

利用 DDIM 反演近似评估局部段的似然，定义平滑度度量：

\[g(y^{(0)}) = \sum_{i=1}^T \left\| \frac{\partial \epsilon_\theta(y^{(i-1)}, i)}{\partial i} \right\|_2\]

全局排序目标为 \(J(\tau^{(0)}) = \prod_{m=1}^M \exp(-g(y_m^{(0)}))\)，高 \(g\) 值表示低似然段，对应的不一致规划将被剪枝。

关键设计2: 迭代重采样¶

在每个去噪步中交替执行前向加噪 \(\tau^{(t)} \sim p(\tau^{(t)} | \tau^{(t-1)})\) 和去噪，重复 \(U\) 次。该过程类似链式因子图上的置信传播，使远端因子的信息通过重叠变量逐步传播，促进全局一致性。

训练策略¶

学习局部规划的扩散模型（Diffuser），覆盖约4秒/20Hz轨迹
推理时组合为最长10秒的全局规划
种群大小 \(B\) 和精英数 \(K\) 可调节，实现自适应推理时间计算

实验关键数据¶

主实验: OGBench 迷宫与场景任务（成功率%）¶

环境	GCBC	HIQL	Diffuser	GSC	CD	CDGS
PointMaze-Giant	0	0	-	29	68	82
AntMaze-Giant	0	2	-	20	65	84
Scene-play (avg)	5	38	6	8	-	51

TAMP 混合规划任务（成功率）¶

任务	Random CEM	STAP CEM	LLM-T2M	GSC (oracle)	CDGS
Hook Reach T1	0.14	0.66	0.0	0.78	0.64
Rearrange Push T1	0.08	0.76	0.72	0.88	0.84
Rearrange Memory T1	0.02	0.00	0.0	0.82	0.42

全景图生成（512×4608）¶

指标	Multi-Diffusion	Sync-Diffusion	CDGS
Intra-LPIPS↓	0.72	0.58	0.59
Intra-Style-L↓	2.96	1.39	1.38
Mean-CLIP-S↑	31.77	31.77	32.51

关键发现¶

在无需长时域训练数据的条件下，CDGS 在 OGBench 上与逆RL基线持平，超越所有生成式基线
TAMP 任务中无需任务骨架或PDDL即可发现可行计划，在 Rearrangement Memory 上显著超越无先验方法
推理时间计算可缩放：增大批量 \(B\) 和重采样步数 \(U\) 均可提升成功率

亮点与洞察¶

优雅的问题形式化: 将长时域规划统一建模为因子图上的组合采样，跨域适用（机器人/图像/视频）
免训练的推理增强: 不需要额外训练，仅通过推理时搜索即可将朴素组合采样提升至与 CompDiffuser 等需训练方法持平
自适应推理计算: 可通过增加 \(B\) 和 \(U\) 应对更难问题，体现了推理时间缩放的潜力
DDIM反演作为似然代理: 巧妙地利用去噪轨迹曲率来近似评估样本似然，避免了精确似然计算的高开销

局限性 / 可改进方向¶

需要预先指定目标状态，无法处理未知目标的开放式任务
规划长度固定，虽可通过多次尝试不同长度缓解
远程依赖仅通过分数平均和重采样传播，更高级的消息传递或注意力机制可能提升效率
推理开销随 \(B \times U\) 线性增长，在实时应用中可能受限

评分¶

新颖性: ⭐⭐⭐⭐ — 将搜索嵌入组合扩散去噪过程的思路新颖
实验充分度: ⭐⭐⭐⭐⭐ — 跨三个域（机器人/图像/视频）的全面验证
写作质量: ⭐⭐⭐⭐ — 清晰的running example和直观的图示
价值: ⭐⭐⭐⭐ — 提供了通用的长时域生成方案，但推理开销可能限制实际部署