AnthroTAP: Learning Point Tracking with Real-World Motion¶
会议: CVPR 2026
arXiv: 2507.06233
代码: Project Page (有)
领域: 3D Vision / Point Tracking
关键词: 点跟踪, 人体运动, 伪标签, SMPL, 光流一致性
一句话总结¶
AnthroTAP 提出了一种自动化管线,从真实人体运动视频中通过 SMPL 拟合和光流过滤生成大规模伪标签点跟踪数据,仅用 1.4K 视频 + 4 GPU 一天训练即达到TAP-Vid 基准的 SOTA 性能,超越使用 15M 视频的 BootsTAPIR。
研究背景与动机¶
领域现状:点跟踪(tracking any point)是计算机视觉的基础任务,广泛用于机器人、3D 重建、视频编辑等。
现有痛点: - 大规模训练数据几乎全靠合成(如 Kubric),但合成数据无法捕获真实世界的复杂视觉特征; - 手动标注点轨迹极其耗时耗力,无法规模化; - 自训练方法(BootsTAPIR、CoTracker3)需要海量视频(15M+)和大规模计算(256 GPU),且存在确认偏差。
核心矛盾:真实世界数据对泛化至关重要,但获取标注成本极高。如何高效获得高质量的真实世界点跟踪训练数据?
本文切入角度:人体运动天然包含非刚性形变、关节运动、频繁遮挡等复杂现象,且 SMPL 模型可自动建立点对应关系。
核心 idea:利用 SMPL 人体模型从真实视频自动生成伪标签轨迹 + 光流一致性过滤 = 高质量、低成本的真实世界训练数据。
方法详解¶
整体框架¶
输入:人体运动视频 → HMR 模型(TokenHMR)拟合 SMPL 网格 → 网格顶点投影到 2D 得初始轨迹 → 射线投射确定可见性 → 光流一致性过滤 → 伪标签数据集 → 训练点跟踪模型。
关键设计¶
-
基于 SMPL 的伪标签生成:
- 功能:从视频中自动提取 2D 点跟踪的伪标签。
- 核心思路:
- 使用预训练 TokenHMR 对每帧检测到的人拟合 SMPL 模型,得到 \(N_v\) 个 3D 顶点
- SMPL 每个顶点对应固定解剖位置,保证时间一致性
- 投影到 2D:\(\mathbf{x}_{p,t,j} = \Pi(\mathbf{v}_{p,t,j})\)
- 设计动机:SMPL 的参数化表示将复杂的人体运动归结为低维姿态和形状参数,HMR 模型即使在运动模糊、极端运动下也能可靠重建。3D 网格的固定拓扑结构提供了天然的点对应关系。
-
射线投射可见性预测(Ray Casting Visibility):
- 功能:判断每个轨迹点在每帧是否可见。
- 核心思路:从相机中心到目标顶点 \(\mathbf{v}_{p,t,j}\) 发射射线,用 Möller-Trumbore 算法检测是否与任何人体网格三角面相交。若有遮挡则 \(v_{p,t,j} = 0\)。
- 能力范围:处理自遮挡和人际遮挡,但无法处理非人物场景元素(家具等)造成的遮挡。
- 设计动机:精确的可见性标签对训练点跟踪器至关重要,错误的可见性标注会引入噪声监督信号。
-
光流一致性过滤(Optical Flow Filtering):
- 功能:移除因 SMPL 拟合误差或非人物遮挡导致的不可靠轨迹段。
- 核心思路:
- 计算相邻帧的前向-后向光流一致性,识别可靠光流区域
- 比较 SMPL 预测的位移和光流位移,标记发散超过阈值的过渡帧
- 按轨迹计算错误比率,超阈值则丢弃整条轨迹,否则仅移除不一致帧
- 设计动机:SMPL 不建模场景物体遮挡,当人被家具遮挡时 SMPL 仍会预测正常位置。光流自然反映真实图像运动,与 SMPL 的偏差可检测出这些不可靠段。
损失函数 / 训练策略¶
- 直接使用下游点跟踪模型的原始训练损失
- 数据:1,400 个视频生成的伪标签(对比 BootsTAPIR 的 15M 视频)
- 训练设置:4 GPU × 1 天
实验关键数据¶
主实验(TAP-Vid 基准, 256×256 分辨率)¶
| 方法 | 训练数据 | DAVIS First AJ | DAVIS Strided AJ | Kinetics First AJ | 说明 |
|---|---|---|---|---|---|
| LocoTrack | Kubric | 63.0 | 67.8 | 52.9 | 合成数据基线 |
| BootsTAPIR | Kubric+15M | 61.4 | 66.2 | 54.6 | 15M 视频自训练 |
| Anthro-LocoTrack | Kubric+1.4K | 64.8 | 69.0 | 53.9 | 仅1.4K 真实视频 |
| TAPNext | Kubric | 62.4 | 65.4 | - | 基线 |
| BootsTAPNext | Kubric+15M | 65.2 | 68.9 | - | 自训练 |
| Anthro-TAPNext | Kubric+1.4K | 66.1 | 71.4 | - | 超越 10000× 数据量 |
消融实验¶
| 配置 | DAVIS AJ | 说明 |
|---|---|---|
| 仅 Kubric | 63.0 | 合成数据基线 |
| + SMPL 轨迹(无过滤) | 63.5 | 带噪声的提升有限 |
| + 射线投射可见性 | 64.1 | 可见性标签重要 |
| + 光流过滤 | 64.8 | 完整管线最优 |
关键发现¶
- 人体运动伪标签仅 1.4K 视频即超越 15M 视频的自训练方法
- 在通用(非人体)物体跟踪基准(DAVIS、Kinetics 含动物、车辆等)上同样 SOTA
- 光流过滤是关键:约 15% 的轨迹被移除,但显著提升质量
- 人体运动的复杂性度量(轨迹复杂度和多样性)远高于 DriveTrack 等驾驶数据
亮点与洞察¶
- 核心发现引人深思:人体运动的结构化复杂性是通用点跟踪的最佳训练信号
- 数据效率极高:用 11× 更少的视频超越 CoTracker3,10000× 更少帧超越 BootsTAPIR
- 管线简单有效:仅用 off-the-shelf 组件(HMR + 光流)组合
- 数据集非专有,可公开贡献给社区
局限与展望¶
- 仅利用人体运动,可能遗漏其他有价值的运动类型(如动物、流体)
- SMPL 不建模手部和面部细节,丢失了这些区域的精细轨迹
- HMR 模型对拥挤场景和极端遮挡的鲁棒性仍有限
相关工作与启发¶
- 与 DriveTrack(驾驶场景伪标签)互补:驾驶运动简单(主要刚体),人体运动复杂
- 思路可扩展:任何有参数化模型的物体(如动物用 SMAL)均可生成伪标签
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 人体运动作为通用点跟踪的训练信号是优雅的洞察
- 实验充分度: ⭐⭐⭐⭐⭐ 多基准×多跟踪器×丰富消融×与多个SOTA对比
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,管线设计逻辑严密
- 价值: ⭐⭐⭐⭐⭐ 高效、可复现、有长期影响力的工作
相关论文¶
- [CVPR 2026] ICTPolarReal: A Polarized Reflection and Material Dataset of Real World Objects
- [CVPR 2026] DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction
- [CVPR 2026] Iris: Bringing Real-World Priors into Diffusion Model for Monocular Depth Estimation
- [ICCV 2025] Revisiting Point Cloud Completion: Are We Ready For The Real-World?
- [CVPR 2026] Deformation-based In-Context Learning for Point Cloud Understanding