Explaining Decentralized Multi-Agent Reinforcement Learning Policies¶

会议: AAAI 2026
arXiv: 2511.10409
代码: 无
领域: 强化学习
关键词: 可解释AI, 多智能体强化学习, 去中心化策略, Hasse图, 策略摘要

一句话总结¶

提出首个针对去中心化多智能体强化学习（MARL）策略的可解释方法，包括基于 Hasse 图的策略摘要生成和基于查询的自然语言解释（When/Why Not/What），在四个 MARL 领域展示了通用性和计算效率，用户研究表明显著提升了人类对策略的理解和问答表现。

研究背景与动机¶

去中心化 MARL 解释的空白：多智能体强化学习近年来取得了重大进展，已应用于自动驾驶、多机器人仓储等领域。然而，现有的可解释方法几乎都集中在集中式 MARL 上——即存在一个能观测全局状态的联合策略。去中心化设置（每个智能体只有局部观测、独立策略）面临的特殊挑战被忽视。

去中心化设置的核心挑战：

不确定性与非确定性：去中心化执行导致任务完成顺序存在本质的不确定性，不同智能体可能异步完成任务

智能体间协作难以观测：每个智能体只观测自身局部状态，跨智能体的协调行为无法从单一轨迹直接推断

现有方法的不足：单智能体抽象策略图（Topin 2019）、集中式 MARL 宏动作抽象（Boggess 2022）都假定单一输入策略，无法处理多个独立策略的交互

实际场景激励：搜救任务中，多个机器人遵循去中心化策略执行任务，操作人员需要理解"哪些机器人完成了哪些任务"、"为什么在某条件下没有完成某任务"、"完成某任务后接下来做什么"——这些问题正是本文要回答的。

方法详解¶

整体框架¶

方法分为两大模块：

策略摘要（Policy Summarization）：从去中心化策略的执行轨迹构建 Hasse 图，紧凑地表示任务偏序关系和智能体协作模式
基于查询的解释（Query-Based Explanations）：支持三类查询——"When"（何时完成某任务）、"Why Not"（为什么未完成某任务）、"What"（完成某任务后做什么）

关键设计¶

1. Hasse 图摘要（Algorithm 1: HDS）：从轨迹构建偏序关系图¶

核心思路：Hasse 图 \(\mathcal{D} = (\mathcal{V}, \mathcal{E})\) 是有向无环图，每个节点表示同时完成的任务集合及执行这些任务的智能体，边编码时序先后约束。

构建流程： - 对每个智能体 \(i\)，提取其轨迹 \(\omega^i\) 对应的任务序列 \(\mathsf{trace}(\omega^i)\) - 对序列中的每个任务 \(\tau\)：若已存在于某节点 \(v\)（多智能体协作完成同一任务），则将智能体 \(i\) 加入该节点；否则创建新节点 - 在连续任务的节点间添加有向边 - 最后应用传递约简（transitive reduction），去除冗余边

正确性与完备性保证（Theorem 1）：对于所有路径 \(\rho\) 和智能体 \(i\)，路径在智能体 \(i\) 上的投影 \(\rho^i\) 要么为空，要么保持原始任务顺序（正确性）；对每个智能体都存在一条路径完整覆盖其任务序列（完备性）。

时间复杂度：\(\mathcal{O}(N \cdot |T|^2 + |T|^4)\)，其中 \(N\) 是智能体数量，\(|T|\) 是任务数量。

设计动机：Hasse 图同时编码了三类关键信息——任务偏序（边）、智能体协作（节点中多智能体标注）、不确定性（分支路径），而现有方法需要为每个智能体独立构建图再手动对比。

2. "When" 查询解释（Algorithm 2）：识别任务完成的充要条件¶

核心思路：给定查询"智能体组 \(\mathcal{G}_q\) 何时完成任务 \(\tau_q\)"，从 Hasse 图中提取特征、区分确定性与不确定性条件。

关键创新——不确定性字典 \(U\)： - 在 Hasse 图中，若某节点 \(v\) 与目标节点 \(v_\tau\) 之间不存在可达路径（即无法确定先后顺序），则该节点关联的特征被标记为"不确定" - 使用偏序可比图（partial comparability graph）识别这些不确定关系

布尔公式生成：将节点编码为特征布尔向量，应用 Quine-McCluskey 算法提取区分目标/非目标节点的最小布尔公式，再通过语言模板翻译为自然语言。确定性特征用"must"，不确定性特征用"may"。

示例解释："For agents 2 and 4 to complete task C, agent 2 must complete task C, agent 4 must complete task C, and task A must be completed. Additionally, task B may need to be completed."

3. "Why Not" 和 "What" 查询解释：¶

"Why Not"（Algorithm in Appendix B）：与 "When" 对称——将用户给定条件编码为目标，已完成的案例为非目标，提取缺失条件
"What"（Algorithm 3）：分析 Hasse 图中目标节点的后继，区分确定后继（直接子节点任务）与不确定后继（偏序不可比节点任务）

损失函数 / 训练策略¶

本文是后验（post-hoc）解释方法，不涉及模型训练。实验中使用两种 MARL 算法训练策略： - SEAC（Shared Experience Actor-Critic）：集中训练去中心化执行（CTDE） - IA2C（Independent Advantage Actor-Critic）：去中心化训练去中心化执行（DTDE）

所有模型训练至收敛或最多 4 亿步。

实验关键数据¶

主实验¶

在四个基准领域（Search and Rescue, Level-Based Foraging, Multi-Robot Warehouse, Pressure Plate）评估摘要紧凑性，与单智能体方法改编的 baseline 对比：

领域	(N,\|T\|)	HDS 节点数	HDS 边数	Baseline 节点数	Baseline 边数
SR	(9,7)	8	7.88	534	525
LBF	(9,9)	10	10.83	723	714
RW	(4,19)	20	19	1,274	1,270
PP	(7,6)	7	6	265	258

查询解释大小对比（"When" 查询，特征数量）：

领域	(N,\|T\|)	HDS 确定特征	HDS 不确定特征	Baseline 确定特征
SR	(9,7)	9	2	54
LBF	(9,9)	13	11	104
RW	(4,19)	0	153	267
PP	(7,6)	8	3	20

消融实验（用户研究）¶

摘要用户研究（20 名参与者，组内设计）：

指标	HDS	Baseline	统计检验
正确回答数（满分6）	4.25 (SD=0.83)	3.1 (SD=1.04)	t(19)=4.2, p≤0.01, d=0.96
完备性评分（5分制）	显著更高	—	W=16.0, p≤0.04

解释用户研究（21 名参与者）——三类查询的正确率均显著提升：

查询类型	HDE (本文)	Baseline	效应量 d
When	显著更高	—	d=2.16
Why Not	显著更高	—	d=2.96
What	显著更高	—	d=2.69

主观评分在所有 7 个维度（理解、满意度、细节、完备性、可操作性、可靠性、信任度）均显著优于 baseline。

关键发现¶

HDS 摘要比 baseline 小 1-2 个数量级：baseline 需要展示所有智能体各自的策略图，节点/边数百上千；HDS 每个 episode 只有一个紧凑的 Hasse 图
不确定性表达至关重要：在 RW(4,19) 高异步领域，所有特征均为不确定——baseline 完全无法表达这一点
用户研究效应量极大（d=2.16-2.96），说明去中心化场景下不确定性表达对人类理解有本质性的帮助
方法对训练范式无关：在 CTDE 和 DTDE 算法上均有效
所有摘要和解释在不到 1 秒内生成

亮点与洞察¶

首次填补去中心化 MARL 解释的空白：将 Hasse 图（偏序理论经典工具）创造性地引入 MARL 策略摘要，完美捕捉了去中心化执行的本质特性
不确定性字典设计精巧：通过偏序可比图识别"确定先于/后于"与"无法确定顺序"的区别，用"must/may"自然表达
既有理论保证又有人类评估：Theorem 1 保证正确性+完备性，用户研究验证实际效用
可扩展到 19 个任务、9 个智能体，实际复杂度可控

局限与展望¶

仅限网格世界领域：四个基准均为 gridworld，连续状态/动作空间的适用性未验证
任务定义需要领域知识：任务识别依赖于奖励信号和状态转移的手工特征提取
Quine-McCluskey 复杂度：特征集较大时（如 RW 253 个不确定特征）最坏情况为 \(\mathcal{O}(3^{|\mathcal{F}_q|} / \ln |\mathcal{F}_q|)\)
未利用 LLM 增强解释：自然语言解释基于模板，可被 LLM 进一步润色增强
未考虑实时交互式解释：当前为 post-hoc 分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首创去中心化 MARL 解释，Hasse 图+不确定性字典的结合非常优雅
实验充分度: ⭐⭐⭐⭐ — 4领域2算法+用户研究，但缺少连续环境和更大规模验证
写作质量: ⭐⭐⭐⭐⭐ — 结构清晰，算法描述完整，理论与实验结合紧密
价值: ⭐⭐⭐⭐ — 填补重要空白，但实际应用尚需进一步验证