跳转至

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

会议: ICLR 2026
arXiv: 2602.08550
代码: https://github.com/chenshihfang/GOT (有)
领域: 视频理解 / 目标跟踪 / 3D视觉
关键词: 目标跟踪, 3D几何, 零空间编辑, 在线模型更新, VGGT

一句话总结

通过零空间约束的在线模型编辑,将 VGGT 提供的 3D 几何信息融入 2D 通用目标跟踪器中,在保持语义判别力的同时增强几何感知能力,在遮挡和背景杂乱场景中显著提升跟踪性能。

研究背景与动机

  1. 领域现状:2D 通用目标跟踪(GOT)主要依赖外观特征(如 DINOv2),在标准场景下已取得很好效果,但缺乏 3D 空间理解能力。
  2. 现有痛点:面对遮挡、背景杂乱、外观变化等挑战性场景时,纯 2D 特征难以区分目标和干扰物。而现有的 3D 融合方法需要 RGB-D 输入或点云数据,限制了通用性。
  3. 核心矛盾:直接将几何特征朴素融合(如拼接或加权相加)到语义特征中,会破坏已学好的语义判别力——实验显示朴素融合在快速运动和光照变化场景下反而退化。
  4. 本文要解决什么? 如何在保持语义特征判别力的前提下,无损地注入 3D 几何信息?
  5. 切入角度:借鉴大语言模型的知识编辑(AlphaEdit),将几何信息扰动投影到语义特征的零空间,确保不干扰原有语义。
  6. 核心idea一句话:将几何感知模块的输出投影到语义模型权重的零空间中,实现 3D 几何知识的无损注入。

方法详解

整体框架

输入参考帧和当前帧的 RGB 图像,分别通过 DINOv2 提取语义特征和 VGGT 提取几何特征。通过门控融合和零空间投影的模型编辑器,将几何信息注入跟踪模型的定位权重中,最终输出目标位置的分类图和边界框。

关键设计

  1. 零空间约束的知识编辑:
  2. 做什么:在更新跟踪模型权重时,将几何扰动限制在语义特征的零空间内
  3. 核心思路:将 FFN 视为线性关联记忆 V = WK。语义预测器产生权重 W_sem,几何预测器产生扰动 Delta。通过 SVD 分解计算语义特征的零空间投影矩阵 P_null,最终权重为 W_sem + P_null * Delta。
  4. 设计动机:零空间约束保证 (W_sem + Delta') * K_semantic = W_sem * K_semantic,即几何扰动不会改变对语义特征的响应,只在正交方向上添加几何信息。这是避免朴素融合退化的关键。

  5. 门控特征融合:

  6. 做什么:自适应控制几何特征的融入强度
  7. 核心思路:用轻量卷积 + sigmoid 预测门控掩码 m,融合特征为 F = v_s + m * Align(v_g)。不同空间位置的门控值不同,允许模型自动学习何时何地需要几何信息。
  8. 设计动机:并非所有位置都需要几何信息,门控机制让模型在几何信息有帮助的地方(如遮挡区域)增强使用,在可能有害的地方(如光照变化)减少使用。

  9. 双路特征提取:

  10. 做什么:分别从 DINOv2 和 VGGT 提取语义和几何特征
  11. 核心思路:DINOv2-L 提取语义特征,VGGT 的 DPT head 提取几何特征(包含深度、法线等 3D 信息),两者都冻结不训练。通过对齐层将几何特征映射到与语义特征相同的维度。
  12. 设计动机:VGGT 作为最近的视觉几何 Transformer,能从单目 RGB 推断丰富的 3D 属性,无需 RGB-D 输入。

损失函数

综合分类损失(compound hinge loss)和边界框 GIoU 损失的加权和。

实验关键数据

主实验

数据集 指标 GOT-Edit ToMP-378 PiVOT-378 LoRAT-378
AVisT SUC 63.7% 62.0% 62.2% 62.0%
NfS SUC 69.9% 69.0% 68.2% 66.7%
GOT-10k AO 85.2% 77.5% 76.9% 77.5%
LaSOT SR75 83.2% 75.8% 75.5% 78.1%
TrackingNet Pr 90.6% 80.8% 82.1% 82.0%

消融实验

配置 AVisT NfS LaSOT
Baseline (仅语义) 59.2% 68.5% 70.7%
+几何 (朴素融合) 59.9% 67.5% 70.9%
+零空间投影 61.5% 69.3% 72.7%
+正则化 (Full) 62.0% 70.2% 73.8%

关键发现

  • 朴素融合几何特征在 NfS 上反而退化(69.0% -> 67.5%),而零空间编辑则提升到 70.2%
  • 遮挡场景提升最显著:部分遮挡 +7.28%(64.32% -> 71.60%)
  • 零空间投影是性能提升的核心组件,贡献了 2-3% 的绝对提升
  • 在 8 个跟踪基准上全面超越 SOTA

亮点与洞察

  • 零空间编辑思路:从 LLM 知识编辑迁移到视觉跟踪领域,非常巧妙。核心洞察是多源信息融合不应该是简单相加,而应该在正交空间中操作以避免干扰。这个思路可以迁移到任何多模态/多源特征融合场景。
  • 无需 3D 输入:利用 VGGT 从单目 RGB 推断几何信息,保持了通用跟踪器只需 RGB 输入的便利性。
  • 自适应门控:门控机制让模型自动学习在哪些情况下几何信息有帮助,避免了人为设定的融合策略。

局限性 / 可改进方向

  • VGGT 较重(需要额外的前向推理),实时性可能受影响
  • 零空间计算需要 SVD 分解,引入额外计算开销
  • 仅在 DINOv2 + VGGT 组合上验证,对其他 backbone 组合的泛化性未知
  • 几何特征的门控掩码目前是像素级的,更粗粒度(如目标级)的门控可能更鲁棒

相关工作与启发

  • vs ToMP (De Haan et al.): GOT-Edit 的语义基线,本文在其上增加了几何感知
  • vs AlphaEdit (知识编辑): 原用于 LLM 的零空间编辑,本文首次将其引入视觉跟踪
  • vs VGGT: 提供几何特征的上游模型,证明了其对下游任务的通用性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 零空间编辑迁移到视觉跟踪的思路非常新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个跟踪基准 + 详细消融 + 属性分析
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,公式推导完整
  • 价值: ⭐⭐⭐⭐ 为多源特征融合提供了通用的零空间方法论