AnthroTAP: Learning Point Tracking with Real-World Motion¶

会议: CVPR 2026
arXiv: 2507.06233
代码: Project Page (有)
领域: 3D Vision / Point Tracking
关键词: 点跟踪, 人体运动, 伪标签, SMPL, 光流一致性

一句话总结¶

AnthroTAP 提出了一种自动化管线，从真实人体运动视频中通过 SMPL 拟合和光流过滤生成大规模伪标签点跟踪数据，仅用 1.4K 视频 + 4 GPU 一天训练即达到TAP-Vid 基准的 SOTA 性能，超越使用 15M 视频的 BootsTAPIR。

研究背景与动机¶

领域现状：点跟踪（tracking any point）是计算机视觉的基础任务，广泛用于机器人、3D 重建、视频编辑等。

现有痛点： - 大规模训练数据几乎全靠合成（如 Kubric），但合成数据无法捕获真实世界的复杂视觉特征； - 手动标注点轨迹极其耗时耗力，无法规模化； - 自训练方法（BootsTAPIR、CoTracker3）需要海量视频（15M+）和大规模计算（256 GPU），且存在确认偏差。

核心矛盾：真实世界数据对泛化至关重要，但获取标注成本极高。如何高效获得高质量的真实世界点跟踪训练数据？

本文切入角度：人体运动天然包含非刚性形变、关节运动、频繁遮挡等复杂现象，且 SMPL 模型可自动建立点对应关系。

核心 idea：利用 SMPL 人体模型从真实视频自动生成伪标签轨迹 + 光流一致性过滤 = 高质量、低成本的真实世界训练数据。

方法详解¶

整体框架¶

输入：人体运动视频 → HMR 模型（TokenHMR）拟合 SMPL 网格 → 网格顶点投影到 2D 得初始轨迹 → 射线投射确定可见性 → 光流一致性过滤 → 伪标签数据集 → 训练点跟踪模型。

关键设计¶

基于 SMPL 的伪标签生成：
- 功能：从视频中自动提取 2D 点跟踪的伪标签。
- 核心思路：
  - 使用预训练 TokenHMR 对每帧检测到的人拟合 SMPL 模型，得到 \(N_v\) 个 3D 顶点
  - SMPL 每个顶点对应固定解剖位置，保证时间一致性
  - 投影到 2D：\(\mathbf{x}_{p,t,j} = \Pi(\mathbf{v}_{p,t,j})\)
- 设计动机：SMPL 的参数化表示将复杂的人体运动归结为低维姿态和形状参数，HMR 模型即使在运动模糊、极端运动下也能可靠重建。3D 网格的固定拓扑结构提供了天然的点对应关系。
射线投射可见性预测（Ray Casting Visibility）：
- 功能：判断每个轨迹点在每帧是否可见。
- 核心思路：从相机中心到目标顶点 \(\mathbf{v}_{p,t,j}\) 发射射线，用 Möller-Trumbore 算法检测是否与任何人体网格三角面相交。若有遮挡则 \(v_{p,t,j} = 0\)。
- 能力范围：处理自遮挡和人际遮挡，但无法处理非人物场景元素（家具等）造成的遮挡。
- 设计动机：精确的可见性标签对训练点跟踪器至关重要，错误的可见性标注会引入噪声监督信号。
光流一致性过滤（Optical Flow Filtering）：
- 功能：移除因 SMPL 拟合误差或非人物遮挡导致的不可靠轨迹段。
- 核心思路：
  - 计算相邻帧的前向-后向光流一致性，识别可靠光流区域
  - 比较 SMPL 预测的位移和光流位移，标记发散超过阈值的过渡帧
  - 按轨迹计算错误比率，超阈值则丢弃整条轨迹，否则仅移除不一致帧
- 设计动机：SMPL 不建模场景物体遮挡，当人被家具遮挡时 SMPL 仍会预测正常位置。光流自然反映真实图像运动，与 SMPL 的偏差可检测出这些不可靠段。

损失函数 / 训练策略¶

直接使用下游点跟踪模型的原始训练损失
数据：1,400 个视频生成的伪标签（对比 BootsTAPIR 的 15M 视频）
训练设置：4 GPU × 1 天

实验关键数据¶

主实验（TAP-Vid 基准, 256×256 分辨率）¶

方法	训练数据	DAVIS First AJ	DAVIS Strided AJ	Kinetics First AJ	说明
LocoTrack	Kubric	63.0	67.8	52.9	合成数据基线
BootsTAPIR	Kubric+15M	61.4	66.2	54.6	15M 视频自训练
Anthro-LocoTrack	Kubric+1.4K	64.8	69.0	53.9	仅1.4K 真实视频
TAPNext	Kubric	62.4	65.4	-	基线
BootsTAPNext	Kubric+15M	65.2	68.9	-	自训练
Anthro-TAPNext	Kubric+1.4K	66.1	71.4	-	超越 10000× 数据量

消融实验¶

配置	DAVIS AJ	说明
仅 Kubric	63.0	合成数据基线
+ SMPL 轨迹（无过滤）	63.5	带噪声的提升有限
+ 射线投射可见性	64.1	可见性标签重要
+ 光流过滤	64.8	完整管线最优

关键发现¶

人体运动伪标签仅 1.4K 视频即超越 15M 视频的自训练方法
在通用（非人体）物体跟踪基准（DAVIS、Kinetics 含动物、车辆等）上同样 SOTA
光流过滤是关键：约 15% 的轨迹被移除，但显著提升质量
人体运动的复杂性度量（轨迹复杂度和多样性）远高于 DriveTrack 等驾驶数据

亮点与洞察¶

核心发现引人深思：人体运动的结构化复杂性是通用点跟踪的最佳训练信号
数据效率极高：用 11× 更少的视频超越 CoTracker3，10000× 更少帧超越 BootsTAPIR
管线简单有效：仅用 off-the-shelf 组件（HMR + 光流）组合
数据集非专有，可公开贡献给社区

局限与展望¶

仅利用人体运动，可能遗漏其他有价值的运动类型（如动物、流体）
SMPL 不建模手部和面部细节，丢失了这些区域的精细轨迹
HMR 模型对拥挤场景和极端遮挡的鲁棒性仍有限

评分¶

新颖性: ⭐⭐⭐⭐⭐ 人体运动作为通用点跟踪的训练信号是优雅的洞察
实验充分度: ⭐⭐⭐⭐⭐ 多基准×多跟踪器×丰富消融×与多个SOTA对比
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，管线设计逻辑严密
价值: ⭐⭐⭐⭐⭐ 高效、可复现、有长期影响力的工作