跳转至

CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models

日期: 2026-03-24
arXiv: 2603.22846
代码: CoMaTrack-Bench
领域: 视频理解 / 具身智能 / 多智能体
关键词: embodied visual tracking, multi-agent RL, game theory, VLA, competitive training

一句话总结

将具身视觉追踪(EVT)从单智能体模仿学习转变为多智能体对抗博弈 RL:tracker 和 opponent 在动态对抗环境中共同进化,用 3B VLM 超越所有 7B 模型的 SOTA(STT 92.1%, DT 74.2%, AT 57.5%),并发布首个对抗式 EVT benchmark。

研究背景与动机

  1. 领域现状: EVT 要求智能体根据语言指令持续跟踪动态目标。现有方法(TrackVLA、TrackVLA++ 等)主要依赖模仿学习(IL),需要大量专家轨迹数据。

  2. 现有痛点: IL 的专家数据收集昂贵、覆盖面有限,训练出的策略在分布外场景泛化差——遇到主动逃避的目标、策略性遮挡或竞争性干扰时表现脆弱。单智能体 RL 虽然可以闭环交互,但静态环境难以持续产生足够难的学习信号。

  3. 核心矛盾: 没有对手的自动难度升级,智能体无法被迫发展出前瞻性规划、反干扰和重定位能力。需要一种自动产生递增难度课程的训练机制。

  4. 切入角度: 借鉴博弈论中竞争驱动能力进化的思路——对手的策略改进自动构成新挑战,形成自增强的军备竞赛,让 tracker 在对抗中不断变强。

  5. 核心 idea: 将 EVT 建模为 tracker vs opponent 的竞争博弈,用多智能体 GRPO 训练,对手的适应性行为作为自动课程生成器。

方法详解

整体框架

基于 Qwen2.5VL-3B 构建端到端 VLA 模型,输入多视角 RGB 图像 + 语言指令,输出 5 步连续追踪路径点。分两阶段:(1) SFT 阶段学习基础追踪能力;(2) Multi-Agent RL 阶段在对抗环境中博弈进化。

关键设计

  1. 端到端 VLA 架构:

    • 做什么:统一目标识别和路径规划到单一模型
    • 核心思路:用 Qwen2.5VL-3B 作为 backbone,处理多视角当前观测(精细 token)+ 历史序列(粗糙 token),通过 Flow Matching action module 生成 5 步轨迹 \(w_i = (x, y, \theta)\)
    • 设计动机:多尺度视觉 token 设计平衡了空间精度和时序上下文
  2. 非对称奖励设计:

    • 做什么:tracker 和 opponent 使用不同的奖励函数
    • 核心思路:
    • Tracker 奖励:高斯距离奖励(最优 2.25m)+ 朝向奖励 + 持续追踪奖励 + 对手安全距离惩罚
    • Opponent 奖励:更激进的距离奖励(最优 1.25m),鼓励更近距离接触目标来制造竞争
  3. 设计动机:非对称设计让 opponent 自然形成遮挡、阻挡路径、抢占位置等干扰行为,无需手工设计对抗策略

  4. Multi-Agent GRPO 训练:

    • 做什么:两个智能体在同一环境中用各自的 GRPO 目标同时优化
    • 核心思路:双方都从 SFT checkpoint 初始化,用 LoRA 作为 RL 阶段可训练参数。对方策略的改进自动改变训练分布,形成共同进化
    • 设计动机:对手策略动态变化 = 环境自动升难,比手工设计 curriculum 更高效且更多样
  5. CoMaTrack-Bench:

    • 做什么:首个对抗式 EVT benchmark
    • 设计:基于 EVT-Bench STT 数据,引入第二个机器人作为对手,设计 3 级难度
    • Static Obstacle: 固定位置遮挡
    • Random Interference: 随机运动干扰
    • Competitive Tracking: 加载同等策略的对手竞争追踪

训练策略

  • SFT: 48 × H20 GPU, 1 epoch, tracking + navigation + VQA 混合数据
  • RL: 4 × L20 GPU, 1 epoch, 仅 tracking 数据, LoRA 可训练
  • 真机部署:Unitree Go2 X 四足机器人,4 个 RGB 相机

实验关键数据

主实验 (EVT-Bench)

方法 模型大小 STT SR DT SR AT SR
TrackVLA 7B 85.1% 57.6% 50.2%
TrackVLA++ 7B 90.9% 74.0% 55.9%
CoMaTrack 3B 92.1% 74.2% 57.5%
  • 3B 模型全面超越所有 7B baseline,说明竞争训练 > 模型规模
  • CR(碰撞率)降到 0.9%,远低于 TrackVLA++ 的 1.5%

消融实验

配置 SR TR CR
SFT Only 88.2% 85.4% 3.1%
Single-Agent RL 89.5% 88.0% 2.2%
Multi-Agent RL 92.1% 90.3% 0.9%

关键发现

  • 多智能体对抗 RL 比单智能体 RL 提升更大(+2.6% SR vs +1.3%),CR 从 2.2% 降到 0.9%
  • 对手强度分析:Static Obstacle 几乎无增益,Random Interference 甚至导致退化,只有 Competitive Tracking 对手才能有效驱动策略进化——说明需要"智能"的对手
  • 在 CoMaTrack-Bench 上:Uni-NaVid 42.4% SR → CoMaTrack 85.0% SR,差距巨大

亮点与洞察

  • "竞争驱动能力进化"范式:用对手的策略改进作为自动 curriculum,不需要手工设计难度递增的训练数据。这个思路可迁移到其他具身任务(导航、操作等)
  • 小模型打大模型:3B 超越 7B 的结果说明训练方法创新(多智能体 RL)比简单扩大模型更有效,这在 VLA 领域是一个重要发现
  • 对手强度的"阈值效应":随机干扰反而有害的发现很有意义——说明 RL 训练需要结构化的、逐步增强的挑战,而非随机噪声

局限性 / 可改进方向

  • 只验证了 EVT 任务,未在导航、操作等更广泛任务上评估泛化性
  • 对手策略受限于仿真先验,真实世界中的对手行为可能更复杂
  • 多智能体训练的计算开销和非平稳性问题需要进一步优化
  • CoMaTrack-Bench 目前只有一种对手架构(和 tracker 相同的 VLA),多样化对手设计值得探索

相关工作与启发

  • vs TrackVLA/TrackVLA++: 都是端到端 VLA 追踪,但依赖 IL + 7B 模型。CoMaTrack 用对抗 RL + 3B 反超
  • vs AD-VAT: 早期对抗追踪工作,但不是 VLA 架构,没有语言指令理解
  • vs VLN-R1: 同样用 GRPO 做 VLM RL 微调,但是单智能体

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将多智能体博弈 RL 引入 EVT,竞争训练思路有启发性
  • 实验充分度: ⭐⭐⭐⭐ EVT-Bench + 自建 benchmark + 消融 + 真机部署,覆盖全面
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述完整
  • 价值: ⭐⭐⭐⭐ 对抗训练范式可推广到更广泛的具身任务,benchmark 有独立价值