跳转至

AnthroTAP: Learning Point Tracking with Real-World Motion

会议: CVPR 2026
arXiv: 2507.06233
代码: Project Page (有)
领域: 3D Vision / Point Tracking
关键词: 点跟踪, 人体运动, 伪标签, SMPL, 光流一致性

一句话总结

AnthroTAP 提出了一种自动化管线,从真实人体运动视频中通过 SMPL 拟合和光流过滤生成大规模伪标签点跟踪数据,仅用 1.4K 视频 + 4 GPU 一天训练即达到TAP-Vid 基准的 SOTA 性能,超越使用 15M 视频的 BootsTAPIR。

研究背景与动机

领域现状:点跟踪(tracking any point)是计算机视觉的基础任务,广泛用于机器人、3D 重建、视频编辑等。

现有痛点: - 大规模训练数据几乎全靠合成(如 Kubric),但合成数据无法捕获真实世界的复杂视觉特征; - 手动标注点轨迹极其耗时耗力,无法规模化; - 自训练方法(BootsTAPIR、CoTracker3)需要海量视频(15M+)和大规模计算(256 GPU),且存在确认偏差。

核心矛盾:真实世界数据对泛化至关重要,但获取标注成本极高。如何高效获得高质量的真实世界点跟踪训练数据?

本文切入角度:人体运动天然包含非刚性形变、关节运动、频繁遮挡等复杂现象,且 SMPL 模型可自动建立点对应关系。

核心 idea:利用 SMPL 人体模型从真实视频自动生成伪标签轨迹 + 光流一致性过滤 = 高质量、低成本的真实世界训练数据。

方法详解

整体框架

输入:人体运动视频 → HMR 模型(TokenHMR)拟合 SMPL 网格 → 网格顶点投影到 2D 得初始轨迹 → 射线投射确定可见性 → 光流一致性过滤 → 伪标签数据集 → 训练点跟踪模型。

关键设计

  1. 基于 SMPL 的伪标签生成

    • 功能:从视频中自动提取 2D 点跟踪的伪标签。
    • 核心思路
      • 使用预训练 TokenHMR 对每帧检测到的人拟合 SMPL 模型,得到 \(N_v\) 个 3D 顶点
      • SMPL 每个顶点对应固定解剖位置,保证时间一致性
      • 投影到 2D:\(\mathbf{x}_{p,t,j} = \Pi(\mathbf{v}_{p,t,j})\)
    • 设计动机:SMPL 的参数化表示将复杂的人体运动归结为低维姿态和形状参数,HMR 模型即使在运动模糊、极端运动下也能可靠重建。3D 网格的固定拓扑结构提供了天然的点对应关系。
  2. 射线投射可见性预测(Ray Casting Visibility)

    • 功能:判断每个轨迹点在每帧是否可见。
    • 核心思路:从相机中心到目标顶点 \(\mathbf{v}_{p,t,j}\) 发射射线,用 Möller-Trumbore 算法检测是否与任何人体网格三角面相交。若有遮挡则 \(v_{p,t,j} = 0\)
    • 能力范围:处理自遮挡和人际遮挡,但无法处理非人物场景元素(家具等)造成的遮挡。
    • 设计动机:精确的可见性标签对训练点跟踪器至关重要,错误的可见性标注会引入噪声监督信号。
  3. 光流一致性过滤(Optical Flow Filtering)

    • 功能:移除因 SMPL 拟合误差或非人物遮挡导致的不可靠轨迹段。
    • 核心思路
      • 计算相邻帧的前向-后向光流一致性,识别可靠光流区域
      • 比较 SMPL 预测的位移和光流位移,标记发散超过阈值的过渡帧
      • 按轨迹计算错误比率,超阈值则丢弃整条轨迹,否则仅移除不一致帧
    • 设计动机:SMPL 不建模场景物体遮挡,当人被家具遮挡时 SMPL 仍会预测正常位置。光流自然反映真实图像运动,与 SMPL 的偏差可检测出这些不可靠段。

损失函数 / 训练策略

  • 直接使用下游点跟踪模型的原始训练损失
  • 数据:1,400 个视频生成的伪标签(对比 BootsTAPIR 的 15M 视频)
  • 训练设置:4 GPU × 1 天

实验关键数据

主实验(TAP-Vid 基准, 256×256 分辨率)

方法 训练数据 DAVIS First AJ DAVIS Strided AJ Kinetics First AJ 说明
LocoTrack Kubric 63.0 67.8 52.9 合成数据基线
BootsTAPIR Kubric+15M 61.4 66.2 54.6 15M 视频自训练
Anthro-LocoTrack Kubric+1.4K 64.8 69.0 53.9 仅1.4K 真实视频
TAPNext Kubric 62.4 65.4 - 基线
BootsTAPNext Kubric+15M 65.2 68.9 - 自训练
Anthro-TAPNext Kubric+1.4K 66.1 71.4 - 超越 10000× 数据量

消融实验

配置 DAVIS AJ 说明
仅 Kubric 63.0 合成数据基线
+ SMPL 轨迹(无过滤) 63.5 带噪声的提升有限
+ 射线投射可见性 64.1 可见性标签重要
+ 光流过滤 64.8 完整管线最优

关键发现

  • 人体运动伪标签仅 1.4K 视频即超越 15M 视频的自训练方法
  • 在通用(非人体)物体跟踪基准(DAVIS、Kinetics 含动物、车辆等)上同样 SOTA
  • 光流过滤是关键:约 15% 的轨迹被移除,但显著提升质量
  • 人体运动的复杂性度量(轨迹复杂度和多样性)远高于 DriveTrack 等驾驶数据

亮点与洞察

  • 核心发现引人深思:人体运动的结构化复杂性是通用点跟踪的最佳训练信号
  • 数据效率极高:用 11× 更少的视频超越 CoTracker3,10000× 更少帧超越 BootsTAPIR
  • 管线简单有效:仅用 off-the-shelf 组件(HMR + 光流)组合
  • 数据集非专有,可公开贡献给社区

局限与展望

  • 仅利用人体运动,可能遗漏其他有价值的运动类型(如动物、流体)
  • SMPL 不建模手部和面部细节,丢失了这些区域的精细轨迹
  • HMR 模型对拥挤场景和极端遮挡的鲁棒性仍有限

相关工作与启发

  • 与 DriveTrack(驾驶场景伪标签)互补:驾驶运动简单(主要刚体),人体运动复杂
  • 思路可扩展:任何有参数化模型的物体(如动物用 SMAL)均可生成伪标签

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 人体运动作为通用点跟踪的训练信号是优雅的洞察
  • 实验充分度: ⭐⭐⭐⭐⭐ 多基准×多跟踪器×丰富消融×与多个SOTA对比
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,管线设计逻辑严密
  • 价值: ⭐⭐⭐⭐⭐ 高效、可复现、有长期影响力的工作

相关论文