Conditional Diffusion Model for Multi-Agent Dynamic Task Decomposition¶
会议: AAAI 2026
arXiv: 2511.13137
代码: 无(基于 PyMARL)
领域: 多Agent强化学习 / 层次化MARL / 扩散模型
关键词: 任务分解, 条件扩散模型, 动作语义表示, 值分解, CTDE
一句话总结¶
提出 CD3T,一个两层层次化 MARL 框架:用条件扩散模型学习动作语义表示(以观测和他人动作为条件,预测下一观测和奖励),通过 k-means 聚类得到子任务划分,高层选择子任务、低层在受限动作空间执行策略,在 SMAC 的 Super Hard 场景上显著超越所有基线。
研究背景与动机¶
- 领域现状:合作 MARL 中,CTDE(集中训练分散执行)通过值分解(VDN、QMIX 等)解决部分可观测问题,但随 Agent 数量增加,联合动作空间指数爆炸,有价值状态的探索变得极其稀缺。
- 现有痛点:任务分解(将复杂任务拆为子任务)是自然的解决方案,但现有方法(RODE 用 MLP 提取动作表示,GoMARL 用分组)的表示能力不足——简单网络结构难以在高维连续空间中学到足够区分度的子任务隐表示。
- 核心矛盾:子任务表示需要同时满足两个要求:(a) 时序稳定性(不频繁切换);(b) 足够的多样性(不同子任务要有显著区别)。简单网络难以同时满足。
- 切入角度:扩散模型天然适合建模随机过程(通过迭代去噪),且在高维连续空间有强大的表征能力,能捕捉多模态分布——这正好对应不同子任务的不同"行为模式"。
- 核心 idea 一句话:用条件扩散模型作为灵活的特征提取器,学习捕捉动作对环境影响的语义表示,聚类得到子任务,再用子任务表示增强值分解中的信用分配。
方法详解¶
整体框架¶
CD3T 是两层层次化 MARL:(1) 用条件扩散模型预训练动作语义表示 \(z_a^i\)(前 50K 步)→ k-means 聚类得到子任务 → (2) 高层子任务选择器每 \(\Delta T\) 步分配子任务,低层在受限动作空间执行策略。两层都用基于子任务/动作表示的多头注意力 mixing network 做值分解。
关键设计¶
- 条件扩散模型学动作表示:
- 做什么:将 Agent \(i\) 的 one-hot 动作 \(a_i\) 编码为 \(d\) 维表示 \(z_a^i\),条件为局部观测 \(o_i\) 和其他 Agent 的动作 \(a_{-i}\)
- 核心思路:用 UNet + cross-attention 的扩散去噪网络 \(\epsilon_{\theta_d}(z_k, k, o_i, a_{-i})\) 从噪声恢复 \(z_a^i\)。同时,用 \(z_a^i\) 预测下一观测 \(o_i'\) 和全局奖励 \(r\),使表示捕捉动作对环境的影响。总损失:\(\mathcal{L} = \mathcal{L}_p + \eta_d \mathcal{L}_d\)
-
设计动机:扩散模型的多模态生成能力能自然诱导出不同子任务的多样化表示,无需额外的多样性正则化
-
子任务动态分解:
- 做什么:将学到的动作表示聚类为 \(g\) 个子任务,每个子任务对应一个受限的动作空间
- 核心思路:在 50K 步后对所有动作表示做 k-means 聚类。子任务表示 \(z_{\phi_j}\) 为该簇中所有动作表示的均值。高层选择器用 \(Q_i^\phi(\tau_i, \phi_j) = z_{\tau_i}^T z_{\phi_j}\) 估计 Agent \(i\) 执行子任务 \(\phi_j\) 的期望回报
-
设计动机:k-means 简单高效,且只需聚类一次(50K 步后固定),不像 ACORM 每步都聚类
-
子任务感知的值分解(Subtask-based Credit Assignment):
- 做什么:在 mixing network 中引入子任务/动作表示,增强信用分配
- 核心思路:用多头点积注意力计算每个 Agent 的信用权重:\(\lambda_{h,i}^\phi = \text{softmax}((W_{z_\phi} z_\phi)^\top \text{ReLU}(W_s s))\),联合 Q 值:\(Q_{tot}^\Phi = c_\phi(s) + \sum_h w_h^\phi \sum_i \lambda_{h,i}^\phi Q_i^\phi\)。通过 Theorem 1 证明满足 IGM 原则
- 设计动机:传统 QMIX 只用全局状态做混合,可能引入虚假关联;加入子任务语义信息能更准确地评估每个 Agent 对整体的贡献
实验关键数据¶
主实验(SMAC 胜率)¶
| 场景 | 难度 | VDN | QMIX | RODE | GoMARL | CD3T |
|---|---|---|---|---|---|---|
| 8m | Easy | ~95% | ~97% | ~85% | ~97% | ~98% |
| 3s5z_vs_3s6z | Super Hard | ~20% | ~30% | ~10% | ~65% | ~80% |
| corridor | Super Hard | ~40% | ~45% | ~15% | ~70% | ~90% |
| 6h_vs_8z | Super Hard | ~10% | ~15% | ~5% | ~45% | ~70% |
消融实验¶
| 配置 | corridor 胜率 | 3s5z_vs_3s6z | 说明 |
|---|---|---|---|
| CD3T (完整) | ~90% | ~80% | 最优 |
| CD3T w/o diffusion | ~40% | ~35% | 用 MLP 替代扩散模型,大幅下降 |
| CD3T w/o Subtask-Attention | ~75% | ~65% | 去掉子任务注意力 |
| CD3T (subtask=3) | ~85% | ~75% | 3 个子任务(vs 默认 5) |
关键发现¶
- 扩散模型是性能的关键驱动:去掉扩散模型后胜率暴跌 50%+,证明扩散模型学到的多模态表示远优于 MLP
- Super Hard 场景优势最明显:在 corridor(6v24 数值劣势)上达到 ~90% 胜率,其他方法都在 70% 以下
- 学到的子任务语义清晰:PCA 可视化显示扩散模型自然把"攻击""向敌移动""远离敌人"等动作分成明确的簇
- 动态子任务切换有战术意义:可视化显示 Agent 先分配"诱敌"子任务引开敌人,再切换到"集火""风筝"子任务——这是自动学会的战术策略
- 50K 步后固定子任务即可:无需持续聚类,一次性聚类结果足够好,大幅降低计算开销
亮点与洞察¶
- 条件扩散模型做动作语义提取是一个新颖的交叉应用——利用扩散模型的多模态生成能力来天然诱导子任务多样性,比显式正则化更优雅
- "动作对环境的影响"作为表示学习目标(预测下一观测+奖励)比简单的动作编码更有语义信息
- 一次性聚类 + 固定子任务 vs ACORM 的每步聚类——以微小性能代价换取巨大的计算效率提升
- corridor 场景的"诱敌分兵"战术是完全自动学会的,展示了层次化 MARL 在复杂协作中的潜力
局限性 / 可改进方向¶
- 子任务数量 \(g\) 是手动设定的超参数(3-5),没有自动确定的机制
- 扩散模型只在前 50K 步训练一次,如果环境动态发生重大变化,固定的子任务可能不再适用
- 仅在 SMAC/LBF 等合作博弈 benchmark 上评估,缺少更多样化的实际应用场景
- 扩散模型的推理延迟可能在大规模 Agent 系统中成为瓶颈(虽然论文说 50K 后不再使用)
相关工作与启发¶
- vs RODE:RODE 用简单 MLP 提取角色语义,表达能力不足;CD3T 用扩散模型,在 Super Hard 上优势明显
- vs GoMARL:GoMARL 强调组间贡献但忽略组内互动;CD3T 的子任务表示更精细
- vs QMIX:QMIX 只做简单的单调混合,CD3T 加入子任务/动作语义的注意力机制增强信用分配
评分¶
- 新颖性: ⭐⭐⭐⭐ 扩散模型用于 MARL 子任务发现是有创新性的交叉应用
- 实验充分度: ⭐⭐⭐⭐ LBF + SMAC(8场景) + SMACv2(3场景) + 消融 + 可视化,比较全面
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,理论推导严谨(Theorem 1 证明 IGM),可视化出色
- 价值: ⭐⭐⭐⭐ 为 MARL 中的子任务发现提供了新的技术路线(扩散模型),Super Hard 场景的性能提升显著