跳转至

Area-Optimal Control Strategies for Heterogeneous Multi-Agent Pursuit

会议: AAAI 2026
arXiv: 2511.15036v2
代码: 无
领域: 多智能体系统 / 博弈论 / 控制
关键词: 追逃博弈, 异构多智能体, Apollonius圆, 面积最优, 闭式控制律, 安全可达集, 零和博弈

一句话总结

研究异构速度下多追逐者-单逃避者的追逃博弈——定义逃避者安全可达集为所有追逐者-逃避者对的 Apollonius 圆的交集,将捕获策略建模为追逐者最小化/逃避者最大化该交集面积的零和博弈,推导出闭式瞬时最优航向控制律,仿真验证追逐者可系统性缩小安全区域实现保证捕获。

背景与动机

多智能体追逃(pursuit-evasion)是多智能体系统和博弈论中的经典问题,在军事拦截、搜索救援、机器人围捕、无人机协同等场景有广泛应用。现有方法的主要局限:

  1. 同构假设:大多数方法假设所有追逐者速度相同,无法处理实际中不同平台(地面车辆、无人机、快艇)速度差异巨大的异构场景
  2. 计算成本高:基于数值优化或 Hamilton-Jacobi 可达性分析的方法计算复杂度高,不适合实时嵌入式控制
  3. 缺乏解析解:现有协同捕获策略多依赖启发式或学习方法,缺少对最优策略的数学刻画和最优性保证

Apollonius 圆——两个以不同速度运动的点同时到达的几何轨迹——为描述异构速度追逃提供了天然的几何工具。本文利用 Apollonius 圆的解析性质,将追逃博弈转化为一个面积优化问题。

核心问题

异构速度的多追逐者如何协同最小化逃避者的安全可达区域?能否推导出闭式最优控制律以支持实时决策?

方法详解

整体框架

将追逃博弈的目标从传统的"最小化捕获时间"转化为"最小化/最大化安全可达集面积"。安全可达集定义为逃避者能在所有追逐者之前到达的区域——几何上是所有追逐者-逃避者对的 Apollonius 圆的交集。该面积成为零和博弈的支付函数:追逐者合作最小化面积,逃避者最大化面积。

关键设计

  1. 安全可达集定义(Apollonius 圆交集)
  2. 对每对追逐者-逃避者,Apollonius 圆的半径由速度比 \(\alpha_i = v_e / v_{p_i}\) 决定(\(v_e\) 为逃避者速度,\(v_{p_i}\) 为追逐者速度)
  3. 圆心位于两者连线上按速度比内分/外分的点
  4. 圆内区域是逃避者能比该追逐者先到达的点集
  5. 多追逐者场景下,安全可达集是所有 Apollonius 圆的交集——一个凸区域
  6. 当面积缩为零时,逃避者被捕获

  7. 面积梯度的解析计算

  8. 交集面积对各智能体位置的梯度可以解析求解
  9. 利用 Apollonius 圆参数(圆心、半径)的解析表达式,通过链式法则计算面积关于每个追逐者和逃避者位置的梯度
  10. 这是本文的核心技术贡献——将几何交集面积的优化转化为可解析求解的梯度下降/上升问题

  11. 闭式瞬时最优控制律

  12. 追逐者的最优航向:面积关于其位置梯度的负方向(梯度下降,减小面积)
  13. 逃避者的最优航向:面积关于其位置梯度的正方向(梯度上升,增大面积)
  14. 控制律仅需计算 Apollonius 圆参数和面积梯度,不涉及数值优化或前向模拟
  15. 计算复杂度极低(\(O(n)\)\(n\) 为追逐者数量),适合实时嵌入式系统

  16. 异构速度的天然处理

  17. 不同追逐者速度直接编码在各自 Apollonius 圆的半径和圆心中
  18. 速度越快的追逐者对应更大的 Apollonius 圆,对逃避者施加更强的空间约束
  19. 框架天然支持任意速度配置,无需特殊处理

博弈论建模

这是一个连续时间零和微分博弈: - 追逐者团队的策略空间:每个追逐者的航向角 \(\theta_{p_i} \in [0, 2\pi)\) - 逃避者的策略空间:航向角 \(\theta_e \in [0, 2\pi)\) - 支付函数:安全可达集面积 \(A(t)\) - 追逐者目标:\(\min A(t)\);逃避者目标:\(\max A(t)\) - 贪心策略:每个时刻各智能体选择瞬时最优航向

训练策略

无学习/训练组件。控制律是纯解析推导的瞬时最优策略,基于当前状态(位置、速度)直接计算最优航向角。

实验关键数据

场景 追逐者数 速度配置 结果 备注
2v1 异构 2 不同速度 安全区域面积单调递减 保证捕获
3v1 异构 3 不同速度 收敛速度更快 协同效应明显
对比数值方法 - - 轨迹与数值解一致 验证解析解正确性
逃避者反制 - - 逃避者最大化面积 零和博弈均衡验证

关键观察

  • 异构 vs 同构:异构速度时最优策略与同构假设下的策略显著不同——速度快的追逐者承担更多包围职责,速度慢的追逐者配合缩小逃避路径
  • 追逐者数量效应:追逐者数量增加时安全区域收缩加速,但边际效益递减
  • 安全区域形状演化:Apollonius 圆交集从接近圆形逐渐变为细长区域,直到退化为零面积(捕获时刻)
  • 轨迹验证:解析控制律产生的轨迹与计算成本高得多的数值优化方法高度一致

亮点

  • 解析之美:完全闭式的最优控制律,不依赖数值优化、不需要迭代求解——闭式解的理论价值和实用价值远超近似数值解
  • 几何直觉清晰:面积最小化作为空间控制的优化目标极具直觉性,Apollonius 圆交集的可视化让策略效果一目了然
  • 实时可行\(O(n)\) 计算复杂度使控制律可直接部署在资源受限的嵌入式平台(如微型无人机),不需要强计算后端
  • 目标转化的关键洞察:"面积最小化"替代"时间最小化"是全文最核心的 insight——面积目标使梯度解析化成为可能,而时间目标通常需要求解 HJB 方程

局限性 / 可改进方向

  • 仅有仿真验证:缺少物理机器人实验——通信延迟、定位误差、运动学约束(转弯半径)、障碍物等现实因素未考虑
  • 2D 平面假设:3D 空间(如无人机追逃)需处理 Apollonius 球的交集,几何计算更复杂且闭式解可能不存在
  • 单逃避者假设:多逃避者场景下安全可达集的定义和博弈结构更复杂,追逐者需要进行目标分配
  • 瞬时最优非全局最优:贪心策略在某些极端初始配置下可能不是 Nash 均衡——逃避者可能利用追逐者的贪心性质构造反例
  • 恒速假设:未考虑加速度约束、能量限制等更现实的运动模型
  • 无通信/无感知限制:假设所有追逐者全局可观测且无通信延迟

与相关工作的对比

  • vs Voronoi 划分追逃:Voronoi 方法假设等速(same speed),无法处理异构场景;Apollonius 圆天然编码速度差异
  • vs 基于 RL 的追逃方法:RL 方法可适应复杂环境但缺乏最优性保证和可解释性;本文提供可证明最优(瞬时意义下)的控制律
  • vs Hamilton-Jacobi 可达性分析:HJ 方法计算安全可达集最精确但求解 PDE 计算量随维度指数增长(维度灾难);面积优化目标直接绕过 PDE 求解
  • vs 传统追逃微分博弈:传统方法多关注"捕获时间最小化"或"逃逸概率",本文的"面积最优化"目标是新视角

启发与关联

  • Apollonius 圆是处理异构速度问题的通用几何工具——在传感器覆盖、通信范围规划、搜索任务分配等问题中也有潜在应用
  • "面积最小化"替代"时间最小化"的目标转换方法论值得借鉴——在多智能体协同中,选择可解析优化的代理目标比直接优化真实目标可能更高效
  • 这是理论工作的典范:问题定义清晰、推导完整、结论简洁而深刻

评分

  • 新颖性: ⭐⭐⭐⭐ 面积最优化的问题建模新颖,闭式异构控制律是重要理论贡献
  • 实验充分度: ⭐⭐⭐ 仅有仿真验证,无物理实验,场景相对简单
  • 写作质量: ⭐⭐⭐⭐ 数学推导严谨,几何可视化直观
  • 价值: ⭐⭐⭐ 对多智能体控制社区有理论价值,但应用场景偏窄且实验验证不足