跳转至

VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions

会议: ECCV 2024
arXiv: 2407.12345
代码: https://moonseokha.github.io/VisionTrap
领域: LLM/NLP
关键词: 轨迹预测, 视觉语义, 文本引导, 自动驾驶, 多模态对比学习

一句话总结

提出 VisionTrap,利用环视相机视觉输入和 VLM/LLM 生成的文本描述作为训练监督,增强自动驾驶场景下的多智能体轨迹预测,同时保持 53ms 实时推理速度。

研究背景与动机

  • 传统方法的局限性: 现有轨迹预测方法主要依赖检测跟踪系统生成的历史轨迹和高精地图(HD Map),无法利用视觉线索(如行人注视方向、手势、车辆转向灯、路况等)
  • HD 地图的不足: HD 地图本质上是静态的,无法适应施工区域、天气变化等动态环境条件
  • 视觉信息利用不足: 少数使用视觉数据的方法往往仅关注智能体局部区域图像或整体图像的显著特征,缺乏明确的学习指导
  • 意图标注的局限: 离散动作类别标注存在歧义,成本高且不易扩展,限制了模型的表达能力

方法详解

整体框架

VisionTrap 包含四个核心模块: 1. Per-agent State Encoder: 编码智能体的历史状态观测(位置、类型),通过时序 Transformer 和交叉注意力建模时序信息和智能体间交互 2. Visual Semantic Encoder: 将环视相机多视图图像编码为统一 BEV 特征,结合光栅化地图生成复合场景特征,通过可变形注意力增强智能体状态嵌入 3. Text-driven Guidance Module: 训练时使用文本描述(由 VLM+LLM 生成)作为监督,通过多模态对比学习引导模型学习丰富的视觉语义 4. Trajectory Decoder: 使用 GMM 参数化分布预测多模态未来轨迹

关键设计

  • BEV 特征生成: 使用 BEVDepth 架构将多视图图像编码为 BEV 特征,与光栅化地图特征拼接形成复合场景特征
  • 递归轨迹预测模块: 利用辅助轨迹预测器生成的预测位置作为可变形注意力的参考点,让智能体从场景特征中提取关键信息
  • 去偏对比学习: 使用 BERT 提取句子级文本嵌入,通过余弦相似度阈值(θ=0.8)过滤假负样本,选择 top-k 最不相似的嵌入作为负样本
  • Transformation Module: 在预测轨迹前标准化每个智能体的方向,缓解自我中心坐标系下旋转不变性学习的复杂性

损失函数 / 训练策略

总损失: \(\mathcal{L} = \mathcal{L}_{traj} + \lambda_{traj}^{aux}\mathcal{L}_{traj}^{aux} + \lambda_{cl}\mathcal{L}_{cl}\) - \(\mathcal{L}_{traj}\): 负对数似然轨迹预测损失 - \(\mathcal{L}_{traj}^{aux}\): 辅助轨迹预测损失(用于递归模块) - \(\mathcal{L}_{cl}\): InfoNCE 对比学习损失,将视觉特征与文本描述对齐

文本引导模块仅在训练阶段使用,推理时不需要文本输入,不影响实时性能。

实验关键数据

主实验

模型 预测方式 延迟(ms) ADE₁₀↓ MR₁₀↓ FDE₁↓
PGP 单智能体 215 1.00 0.37 7.17
LAformer 单智能体 115 0.93 0.33 -
VisionTrap baseline 多智能体 13 1.48 0.56 10.75
+ Map Encoder 多智能体 21 1.40 0.53 10.41
+ Visual Semantic 多智能体 53 1.23 0.36 9.32
+ Text Guidance (完整) 多智能体 53 1.17 0.32 8.72

消融实验 (nuScenes 全数据集)

方法 ADE₁₀↓ FDE₁₀↓ MR₁₀↓
Baseline 0.425 0.641 0.081
+ Map Encoder 0.407 0.601 0.075
+ Visual Semantic Encoder 0.382 0.551 0.056
+ Text-driven Guidance 0.368 0.535 0.051

关键发现

  • 完整模型相比基线实现了 27.56% 的平均性能提升
  • 视觉语义编码器贡献了最大的性能提升(21.97%),文本引导进一步带来 5.59% 的增益
  • UMAP 可视化显示:使用视觉和文本语义后,状态嵌入聚类更清晰,相似情境的智能体在嵌入空间中更接近

亮点与洞察

  1. nuScenes-Text 数据集: 创建并发布了包含 1,216,206 条文本描述的数据集,覆盖 391,732 个对象。通过 VLM(BLIP-2)+ LLM(GPT)自动化标注流程,人工评估显示 94.8% 的图文对齐准确率
  2. 实时性: 在保持 53ms 延迟的同时达到与高精度单智能体方法可比的性能,适合实际部署
  3. 文本仅训练时使用: 文本引导仅在训练阶段作为监督信号,推理时零开销,设计巧妙
  4. 可变形注意力的优势: 相比 ConvNet,可变形注意力具有更大的感受野,能选择性地关注场景特征中的关键区域

局限性 / 可改进方向

  • 论文强调目的不是追求 SOTA,而是证明视觉信息和文本描述的有效性
  • 文本描述质量依赖 VLM 和 LLM 的能力,可能存在不准确或冗余信息
  • 仅在 nuScenes 数据集上验证,泛化到其他场景需要进一步研究
  • BEV 特征生成依赖于相机标定信息,对传感器噪声敏感

相关工作与启发

  • 与 TITAN、PIE 等利用意图分类的方法不同,本文使用连续文本描述提供更丰富的语义指导
  • 启发了一种新的范式:利用基础模型(VLM/LLM)为下游任务生成训练监督,而非直接用于推理
  • 对自动驾驶感知-预测一体化系统有参考价值

评分

  • 新颖性: ⭐⭐⭐⭐ — 将 VLM/LLM 文本作为训练监督引入轨迹预测领域较新颖
  • 技术深度: ⭐⭐⭐⭐ — 去偏对比学习、递归参考点等设计有深度
  • 实验质量: ⭐⭐⭐⭐ — 全面的消融实验和定性分析
  • 实用性: ⭐⭐⭐⭐⭐ — 53ms 延迟满足实时需求,具有实际部署价值
  • 综合推荐: ⭐⭐⭐⭐

相关论文