Area-Optimal Control Strategies for Heterogeneous Multi-Agent Pursuit¶

会议: AAAI 2026
arXiv: 2511.15036v2
代码: 无
领域: 多智能体系统 / 博弈论 / 控制
关键词: 追逃博弈, 异构多智能体, Apollonius圆, 面积最优, 闭式控制律, 安全可达集, 零和博弈

一句话总结¶

研究异构速度下多追逐者-单逃避者的追逃博弈——定义逃避者安全可达集为所有追逐者-逃避者对的 Apollonius 圆的交集，将捕获策略建模为追逐者最小化/逃避者最大化该交集面积的零和博弈，推导出闭式瞬时最优航向控制律，仿真验证追逐者可系统性缩小安全区域实现保证捕获。

背景与动机¶

多智能体追逃（pursuit-evasion）是多智能体系统和博弈论中的经典问题，在军事拦截、搜索救援、机器人围捕、无人机协同等场景有广泛应用。现有方法的主要局限：

同构假设：大多数方法假设所有追逐者速度相同，无法处理实际中不同平台（地面车辆、无人机、快艇）速度差异巨大的异构场景
计算成本高：基于数值优化或 Hamilton-Jacobi 可达性分析的方法计算复杂度高，不适合实时嵌入式控制
缺乏解析解：现有协同捕获策略多依赖启发式或学习方法，缺少对最优策略的数学刻画和最优性保证

Apollonius 圆——两个以不同速度运动的点同时到达的几何轨迹——为描述异构速度追逃提供了天然的几何工具。本文利用 Apollonius 圆的解析性质，将追逃博弈转化为一个面积优化问题。

核心问题¶

异构速度的多追逐者如何协同最小化逃避者的安全可达区域？能否推导出闭式最优控制律以支持实时决策？

方法详解¶

整体框架¶

将追逃博弈的目标从传统的"最小化捕获时间"转化为"最小化/最大化安全可达集面积"。安全可达集定义为逃避者能在所有追逐者之前到达的区域——几何上是所有追逐者-逃避者对的 Apollonius 圆的交集。该面积成为零和博弈的支付函数：追逐者合作最小化面积，逃避者最大化面积。

关键设计¶

安全可达集定义（Apollonius 圆交集）：
对每对追逐者-逃避者，Apollonius 圆的半径由速度比 \(\alpha_i = v_e / v_{p_i}\) 决定（\(v_e\) 为逃避者速度，\(v_{p_i}\) 为追逐者速度）
圆心位于两者连线上按速度比内分/外分的点
圆内区域是逃避者能比该追逐者先到达的点集
多追逐者场景下，安全可达集是所有 Apollonius 圆的交集——一个凸区域
当面积缩为零时，逃避者被捕获
面积梯度的解析计算：
交集面积对各智能体位置的梯度可以解析求解
利用 Apollonius 圆参数（圆心、半径）的解析表达式，通过链式法则计算面积关于每个追逐者和逃避者位置的梯度
这是本文的核心技术贡献——将几何交集面积的优化转化为可解析求解的梯度下降/上升问题
闭式瞬时最优控制律：
追逐者的最优航向：面积关于其位置梯度的负方向（梯度下降，减小面积）
逃避者的最优航向：面积关于其位置梯度的正方向（梯度上升，增大面积）
控制律仅需计算 Apollonius 圆参数和面积梯度，不涉及数值优化或前向模拟
计算复杂度极低（\(O(n)\)，\(n\) 为追逐者数量），适合实时嵌入式系统
异构速度的天然处理：
不同追逐者速度直接编码在各自 Apollonius 圆的半径和圆心中
速度越快的追逐者对应更大的 Apollonius 圆，对逃避者施加更强的空间约束
框架天然支持任意速度配置，无需特殊处理

博弈论建模¶

这是一个连续时间零和微分博弈： - 追逐者团队的策略空间：每个追逐者的航向角 \(\theta_{p_i} \in [0, 2\pi)\) - 逃避者的策略空间：航向角 \(\theta_e \in [0, 2\pi)\) - 支付函数：安全可达集面积 \(A(t)\) - 追逐者目标：\(\min A(t)\)；逃避者目标：\(\max A(t)\) - 贪心策略：每个时刻各智能体选择瞬时最优航向

训练策略¶

无学习/训练组件。控制律是纯解析推导的瞬时最优策略，基于当前状态（位置、速度）直接计算最优航向角。

实验关键数据¶

场景	追逐者数	速度配置	结果	备注
2v1 异构	2	不同速度	安全区域面积单调递减	保证捕获
3v1 异构	3	不同速度	收敛速度更快	协同效应明显
对比数值方法	-	-	轨迹与数值解一致	验证解析解正确性
逃避者反制	-	-	逃避者最大化面积	零和博弈均衡验证

关键观察¶

异构 vs 同构：异构速度时最优策略与同构假设下的策略显著不同——速度快的追逐者承担更多包围职责，速度慢的追逐者配合缩小逃避路径
追逐者数量效应：追逐者数量增加时安全区域收缩加速，但边际效益递减
安全区域形状演化：Apollonius 圆交集从接近圆形逐渐变为细长区域，直到退化为零面积（捕获时刻）
轨迹验证：解析控制律产生的轨迹与计算成本高得多的数值优化方法高度一致

亮点¶

解析之美：完全闭式的最优控制律，不依赖数值优化、不需要迭代求解——闭式解的理论价值和实用价值远超近似数值解
几何直觉清晰：面积最小化作为空间控制的优化目标极具直觉性，Apollonius 圆交集的可视化让策略效果一目了然
实时可行：\(O(n)\) 计算复杂度使控制律可直接部署在资源受限的嵌入式平台（如微型无人机），不需要强计算后端
目标转化的关键洞察："面积最小化"替代"时间最小化"是全文最核心的 insight——面积目标使梯度解析化成为可能，而时间目标通常需要求解 HJB 方程

局限性 / 可改进方向¶

仅有仿真验证：缺少物理机器人实验——通信延迟、定位误差、运动学约束（转弯半径）、障碍物等现实因素未考虑
2D 平面假设：3D 空间（如无人机追逃）需处理 Apollonius 球的交集，几何计算更复杂且闭式解可能不存在
单逃避者假设：多逃避者场景下安全可达集的定义和博弈结构更复杂，追逐者需要进行目标分配
瞬时最优非全局最优：贪心策略在某些极端初始配置下可能不是 Nash 均衡——逃避者可能利用追逐者的贪心性质构造反例
恒速假设：未考虑加速度约束、能量限制等更现实的运动模型
无通信/无感知限制：假设所有追逐者全局可观测且无通信延迟

与相关工作的对比¶

vs Voronoi 划分追逃：Voronoi 方法假设等速（same speed），无法处理异构场景；Apollonius 圆天然编码速度差异
vs 基于 RL 的追逃方法：RL 方法可适应复杂环境但缺乏最优性保证和可解释性；本文提供可证明最优（瞬时意义下）的控制律
vs Hamilton-Jacobi 可达性分析：HJ 方法计算安全可达集最精确但求解 PDE 计算量随维度指数增长（维度灾难）；面积优化目标直接绕过 PDE 求解
vs 传统追逃微分博弈：传统方法多关注"捕获时间最小化"或"逃逸概率"，本文的"面积最优化"目标是新视角

启发与关联¶

Apollonius 圆是处理异构速度问题的通用几何工具——在传感器覆盖、通信范围规划、搜索任务分配等问题中也有潜在应用
"面积最小化"替代"时间最小化"的目标转换方法论值得借鉴——在多智能体协同中，选择可解析优化的代理目标比直接优化真实目标可能更高效
这是理论工作的典范：问题定义清晰、推导完整、结论简洁而深刻

评分¶

新颖性: ⭐⭐⭐⭐ 面积最优化的问题建模新颖，闭式异构控制律是重要理论贡献
实验充分度: ⭐⭐⭐ 仅有仿真验证，无物理实验，场景相对简单
写作质量: ⭐⭐⭐⭐ 数学推导严谨，几何可视化直观
价值: ⭐⭐⭐ 对多智能体控制社区有理论价值，但应用场景偏窄且实验验证不足