CVPR 2025 图像生成扩散模型 trajectory completion uncertainty estimation multi-agent error probability sports analytics

Unified Uncertainty-Aware Diffusion for Multi-Agent Trajectory Modeling¶

会议: CVPR 2025
arXiv: 2503.18589
代码: 无
领域: 轨迹预测
关键词: diffusion model, trajectory completion, uncertainty estimation, multi-agent, error probability, sports analytics

一句话总结¶

提出U2Diff，一个统一的扩散模型框架，能同时处理多智能体轨迹补全和预测任务，通过增强去噪损失提供逐状态不确定性估计，并引入Rank Neural Network对生成的多模态预测进行误差概率排序。

研究背景与动机¶

领域现状¶

领域现状：领域现状: 多智能体轨迹建模在体育分析、自动驾驶、监控等领域至关重要。现有研究主要聚焦于轨迹预测（给定过去预测未来），扩散模型因其强大的多模态建模能力成为近年主流方案。然而轨迹补全（trajectory completion）——即在任意位置存在缺失时恢复完整轨迹——同样是重要的实际需求（如修正追踪数据中的遮挡和漏检）。

现有痛点: (1) 现有多智能体轨迹模型通常只能做单一任务（预测或补全），无法在统一框架下处理两者；(2) 大多数预测模型只输出点估计，不提供逐状态的不确定性度量——用户无法知道哪些预测值可信、哪些不可信；(3) 多模态采样时生成多条候选轨迹，但缺乏推理时误差概率估计，无法对候选进行有效排序选择最优预测。

核心矛盾: 轨迹的不确定性具有时空异质性（转弯点比直行段更不确定），但现有方法将所有状态一视同仁；多模态生成虽能覆盖可能的未来，却没有告诉用户哪个模态最可能正确。

本文目标 在统一的扩散框架下同时实现轨迹补全与预测，提供逐状态不确定性估计，并为多模态生成结果提供误差概率排序。

切入角度: 利用扩散模型的灵活性处理任意mask模式的轨迹补全/预测，增强去噪损失以提取潜在空间不确定性并传播到真实状态空间，再用后处理的Rank Neural Network估计各生成样本的误差概率。

核心 idea: 通过负对数似然增强去噪损失将不确定性嵌入扩散过程，结合Rank Neural Network实现生成轨迹的质量排序。

方法详解¶

整体框架¶

U2Diff基于条件扩散模型，输入为多智能体的部分观测轨迹（可以是前N帧用于预测，也可以是任意pattern的已知帧用于补全），通过迭代去噪生成完整轨迹。训练时使用带mask的轨迹构造不同的补全/预测任务，实现任务统一。推理时可采样多条候选轨迹（多模态），再由Rank Neural Network排序选择最优。架构基于CSDI，使用双向MambaSSM替代Transformer Encoder来增强时序处理能力。

关键设计¶

不确定性感知去噪损失: 在标准扩散模型的简单去噪损失（预测噪声的MSE）基础上，增加负对数似然（Negative Log-Likelihood, NLL）项。模型不仅预测去噪方向，还预测每个状态维度上噪声的方差（即\(\sigma\)）。这使得模型在训练过程中自然学习到哪些状态点的预测更不确定——转弯、加速等动态变化剧烈处的\(\sigma\)更大。NLL损失让模型在不确定区域容忍更大的预测误差，在确定区域则给出更紧的估计，实现自适应的逐状态置信度。
潜在空间到状态空间的不确定性传播: 扩散模型在潜在空间中学到的不确定性需要传播到最终的轨迹坐标空间。U2Diff通过解析的或近似的不确定性传播方法（类似Unscented Transform或一阶Taylor展开），将去噪过程中每步积累的方差传递到输出层，使最终预测的每个\((x,y)\)坐标都附带标准差估计。这为下游应用提供了直觉性的可信度度量：不确定性大的点可能需要额外验证。
Rank Neural Network (RankNet): 多模态采样产生K条候选轨迹后，需要选出最接近真实轨迹的那条。RankNet以每条候选轨迹级联其不确定性估计作为输入，预测该轨迹相对于ground truth的误差概率。训练时用实际生成结果与GT的误差作为监督，RankNet学习到误差概率与不确定性pattern之间的对应关系。实验验证RankNet的排序与真实误差排序高度相关，在推理时即使无GT也能有效选出最优预测。

实验关键数据¶

主实验¶

在四个真实世界体育数据集上全面验证，包括场景级和智能体级指标。轨迹补全任务使用不同缺失率和mask模式，轨迹预测任务使用标准的观测-预测分割。

关键发现¶

在4个体育轨迹数据集（NBA, Basketball-U, Football-U, Soccer-U）上全面超越SOTA
轨迹补全任务：U2Diff在不同缺失率下均优于现有方法，体现了统一框架处理补全的能力
轨迹预测任务：同样的模型直接胜过专门设计的预测方法，无需切换架构
不确定性估计的质量：高不确定性区域与实际误差分布高度一致——模型确实学到了有意义的逐状态置信度
RankNet的误差概率与真实误差之间展现强相关性（Spearman中位数约0.58和0.78），使推理时的模态选择首次成为可能
NLL损失的消融：移除NLL项后不确定性估计退化，RankNet排序能力也随之下降，验证了两者的耦合设计

亮点与洞察¶

真正实现了补全与预测的统一——通过mask机制优雅地将两个任务纳入同一扩散框架，避免了针对不同任务设计专用模型
Rank Neural Network填补了多模态轨迹预测的重要空白：生成了多条候选，但此前没有好的方法在无GT时选择最优
不确定性估计不是事后附加的，而是嵌入训练目标本身，与去噪过程有机结合
在体育分析场景验证特别合适——运动员轨迹数据经常有遮挡/ID切换导致的缺失，补全需求真实且迫切
扩散模型的去噪过程与不确定性估计的有机结合是方法论上的主要创新

局限与展望¶

当前验证集中在体育场景（固定摄像机、俯视角度），在自动驾驶等ego-centric场景的泛化性有待验证
扩散模型的多步去噪推理较慢，不适合需要实时预测的应用（如自动驾驶运动规划），可探索一致性蒸馏加速
Rank Neural Network作为后处理模块需要额外训练数据和推理开销，是否能将排序能力融入扩散模型本身是一个方向
不确定性传播中的近似方法可能在高度非线性场景下失真
仅处理2D位置轨迹，扩展到包含速度、加速度、朝向等高维状态需调整不确定性传播策略
当前验证集中在体育场景（固定摄像机、俯视角度），在自动驾驶等ego-centric场景的泛化性有待验证
多智能体交互建模依赖于所有智能体的观测完整性，部分遮挡场景下的鲁棒性未被评估
轨迹补全和预测的mask机制虽优雅但对mask比例敏感，不同场景需要不同的mask策略- 在NBA数据集上的场景级ADE/FDE指标均达到SOTA，展示了方法在真实世界数据上的实用性