PAR: Poly-Autoregressive Prediction for Modeling Interactions¶

会议: CVPR 2025
arXiv: 2502.08646
代码: 已开源
领域: 自动驾驶（轨迹预测）
关键词: 多智能体交互, 自回归预测, Transformer, 轨迹预测, 行为预测

一句话总结¶

PAR（Poly-Autoregressive）提出了一种简洁统一的多智能体行为预测框架，通过将交互中其他智能体的状态序列作为条件，结合同智能体下一时间步预测和学习的智能体ID嵌入，在社交行为预测、自动驾驶轨迹预测和手-物交互三个截然不同的任务上均优于单智能体自回归基线。

研究背景与动机¶

在多智能体交互场景中预测某个智能体的未来行为是一个核心问题。与语言中的自回归建模不同，物理世界中的交互受到物理定律和智能体内部状态的双重约束，且多个智能体的状态同时变化。

现有方法的问题： - 标准自回归（AR）不足：只关注单个智能体的历史状态序列，忽略了其他智能体的影响。例如，预测一个人会继续说话，而实际上对方已经开始说话，他应该转为倾听 - 多智能体方法各自为政：不同交互场景（社交行为、驾驶、手物交互）各自设计专用方案，缺乏统一框架 - 朴素的多智能体AR适得其反：简单地将多智能体token排成序列做next-token预测会混淆模型——因为下一个token是另一个智能体的同一时间步状态，而非同一智能体的下一时间步状态

核心洞察：在交互场景中，ego智能体的未来取决于自身历史和其他智能体的当前/过去状态。需要"同智能体下一时间步"而非"序列下一token"的预测范式。

方法详解¶

整体框架¶

PAR框架将\(N\)个智能体在\(T\)个时间步的状态表示为\(N \times T\)个token的扁平序列。Transformer decoder学习给定所有智能体的历史状态后，预测ego智能体的下一时间步状态。框架无需修改架构即可应用于不同任务，仅需调整数据预处理和token化方式。

关键设计¶

设计一：同智能体下一时间步预测 — 替代标准next-token预测

功能：确保每次预测时模型利用了同一时间步所有智能体的状态信息
核心思路：在扁平化的\(N \times T\)序列中，标准AR的next-token预测会从智能体\(k\)在时间\(t\)预测智能体\(k+1\)在时间\(t\)（同一时间步的不同智能体）。PAR改为预测智能体\(k\)在时间\(t+1\)的状态（同一智能体的下一时间步）。训练时联合计算所有\(N\)个智能体的损失
设计动机：next-token预测违反了因果关系——用一个智能体的状态预测同时刻另一个智能体的状态没有物理意义。同智能体下一时间步预测才是正确的时序因果关系

设计二：学习的智能体ID嵌入 — 区分多智能体身份

功能：使模型知道每个token属于哪个智能体
核心思路：将整数智能体ID映射为hidden dim大小的向量，与token嵌入相加。使模型在处理混合序列时能区分不同智能体的状态
设计动机：消融实验表明，缺少智能体ID嵌入的多智能体模型性能比单智能体AR更差，说明模型在混淆不同智能体的状态

设计三：统一框架 — 支持离散/连续token和多种任务

功能：无需修改架构即可处理不同类型的多智能体交互预测
核心思路：离散token（如动作类别）使用标准embedding+交叉熵损失；连续token（如位置坐标）使用learned投影层+回归损失。数据来源为视频，通过数据集标注或CV技术提取各智能体的状态序列。可选的位置编码（如轨迹预测中的LPE）叠加提供空间信息
设计动机：不同交互任务的状态表示差异巨大（60维动作概率 vs 2D位置 vs 6DoF位姿），但交互建模的核心框架应该是通用的。统一框架降低了迁移到新领域的成本

损失函数¶

社交行为预测：60维动作token上的MSE回归损失
车辆轨迹预测：离散速度/加速度token上的交叉熵分类损失
手物交互：6DoF位姿上的回归损失

实验关键数据¶

主实验：三个案例研究¶

任务	指标	AR	PAR	提升
AVA社交行为预测	mAP ↑	40.7	42.6	+1.9
AVA 2人交互类	mAP ↑	36.3	39.8	+3.5
nuScenes轨迹预测	ADE ↓	基线	-6.3%	相对
nuScenes轨迹预测	FDE ↓	基线	-6.4%	相对
DexYCB物体旋转	误差 ↓	基线	-8.9%	相对
DexYCB物体平移	误差 ↓	基线	-41.0%	相对

消融实验：PAR组件的贡献（AVA数据集）¶

方法	时间步预测	ID嵌入	mAP ↑
1-agent AR	N/A	N/A	40.7
2-agent AR	✗	✗	38.0
2-agent PAR*	✗	✓	40.2
2-agent PAR*	✓	✗	40.0
2-agent PAR	✓	✓	42.6

关键发现¶

朴素的多智能体AR（行2）反而比单智能体AR差2.7 mAP，证明了next-token预测在多智能体场景的失败
同智能体下一时间步预测和智能体ID嵌入缺一不可——两者都是必要条件
在2人交互类别上（kiss +8.3, listen +7.0, hug +5.7, fight/hit +5.7），PAR的提升尤为显著
DexYCB中平移预测的41%相对改进表明，物体运动高度依赖于手的状态
仅4.4M参数的小型Transformer即可展示PAR的优势

亮点与洞察¶

极致的简洁性：同一个4M参数Transformer，不修改架构，仅调数据预处理和token化即可处理三个截然不同的任务
深刻的失败分析：展示了朴素多智能体AR为何失败，next-token vs next-timestep的区分非常有启发性
定性分析生动：talk-listen轮换预测的例子直观展示了PAR捕获交互动态的能力

局限与展望¶

当前仅用4M小型Transformer验证概念，大规模实验有待进行
三个任务中只考虑2个智能体的交互（ego + 1 other），更多智能体的扩展性需验证
推理时需要其他智能体的ground-truth未来状态（或准确预测），实际应用中这是额外约束
未来可与更大规模的Transformer和数据集结合

评分¶

⭐⭐⭐⭐ — 框架的简洁统一性令人赞赏，"一个框架三个任务"的验证有力。朴素AR失败的分析和PAR修正的逻辑链条清晰完整。限于小规模验证是不足之处，但概念验证充分。