GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing¶
会议: ICLR 2026
arXiv: 2602.08550
代码: https://github.com/chenshihfang/GOT (有)
领域: 视频理解 / 目标跟踪 / 3D视觉
关键词: 目标跟踪, 3D几何, 零空间编辑, 在线模型更新, VGGT
一句话总结¶
通过零空间约束的在线模型编辑,将 VGGT 提供的 3D 几何信息融入 2D 通用目标跟踪器中,在保持语义判别力的同时增强几何感知能力,在遮挡和背景杂乱场景中显著提升跟踪性能。
研究背景与动机¶
- 领域现状:2D 通用目标跟踪(GOT)主要依赖外观特征(如 DINOv2),在标准场景下已取得很好效果,但缺乏 3D 空间理解能力。
- 现有痛点:面对遮挡、背景杂乱、外观变化等挑战性场景时,纯 2D 特征难以区分目标和干扰物。而现有的 3D 融合方法需要 RGB-D 输入或点云数据,限制了通用性。
- 核心矛盾:直接将几何特征朴素融合(如拼接或加权相加)到语义特征中,会破坏已学好的语义判别力——实验显示朴素融合在快速运动和光照变化场景下反而退化。
- 本文要解决什么? 如何在保持语义特征判别力的前提下,无损地注入 3D 几何信息?
- 切入角度:借鉴大语言模型的知识编辑(AlphaEdit),将几何信息扰动投影到语义特征的零空间,确保不干扰原有语义。
- 核心idea一句话:将几何感知模块的输出投影到语义模型权重的零空间中,实现 3D 几何知识的无损注入。
方法详解¶
整体框架¶
输入参考帧和当前帧的 RGB 图像,分别通过 DINOv2 提取语义特征和 VGGT 提取几何特征。通过门控融合和零空间投影的模型编辑器,将几何信息注入跟踪模型的定位权重中,最终输出目标位置的分类图和边界框。
关键设计¶
- 零空间约束的知识编辑:
- 做什么:在更新跟踪模型权重时,将几何扰动限制在语义特征的零空间内
- 核心思路:将 FFN 视为线性关联记忆 V = WK。语义预测器产生权重 W_sem,几何预测器产生扰动 Delta。通过 SVD 分解计算语义特征的零空间投影矩阵 P_null,最终权重为 W_sem + P_null * Delta。
-
设计动机:零空间约束保证 (W_sem + Delta') * K_semantic = W_sem * K_semantic,即几何扰动不会改变对语义特征的响应,只在正交方向上添加几何信息。这是避免朴素融合退化的关键。
-
门控特征融合:
- 做什么:自适应控制几何特征的融入强度
- 核心思路:用轻量卷积 + sigmoid 预测门控掩码 m,融合特征为 F = v_s + m * Align(v_g)。不同空间位置的门控值不同,允许模型自动学习何时何地需要几何信息。
-
设计动机:并非所有位置都需要几何信息,门控机制让模型在几何信息有帮助的地方(如遮挡区域)增强使用,在可能有害的地方(如光照变化)减少使用。
-
双路特征提取:
- 做什么:分别从 DINOv2 和 VGGT 提取语义和几何特征
- 核心思路:DINOv2-L 提取语义特征,VGGT 的 DPT head 提取几何特征(包含深度、法线等 3D 信息),两者都冻结不训练。通过对齐层将几何特征映射到与语义特征相同的维度。
- 设计动机:VGGT 作为最近的视觉几何 Transformer,能从单目 RGB 推断丰富的 3D 属性,无需 RGB-D 输入。
损失函数¶
综合分类损失(compound hinge loss)和边界框 GIoU 损失的加权和。
实验关键数据¶
主实验¶
| 数据集 | 指标 | GOT-Edit | ToMP-378 | PiVOT-378 | LoRAT-378 |
|---|---|---|---|---|---|
| AVisT | SUC | 63.7% | 62.0% | 62.2% | 62.0% |
| NfS | SUC | 69.9% | 69.0% | 68.2% | 66.7% |
| GOT-10k | AO | 85.2% | 77.5% | 76.9% | 77.5% |
| LaSOT | SR75 | 83.2% | 75.8% | 75.5% | 78.1% |
| TrackingNet | Pr | 90.6% | 80.8% | 82.1% | 82.0% |
消融实验¶
| 配置 | AVisT | NfS | LaSOT |
|---|---|---|---|
| Baseline (仅语义) | 59.2% | 68.5% | 70.7% |
| +几何 (朴素融合) | 59.9% | 67.5% | 70.9% |
| +零空间投影 | 61.5% | 69.3% | 72.7% |
| +正则化 (Full) | 62.0% | 70.2% | 73.8% |
关键发现¶
- 朴素融合几何特征在 NfS 上反而退化(69.0% -> 67.5%),而零空间编辑则提升到 70.2%
- 遮挡场景提升最显著:部分遮挡 +7.28%(64.32% -> 71.60%)
- 零空间投影是性能提升的核心组件,贡献了 2-3% 的绝对提升
- 在 8 个跟踪基准上全面超越 SOTA
亮点与洞察¶
- 零空间编辑思路:从 LLM 知识编辑迁移到视觉跟踪领域,非常巧妙。核心洞察是多源信息融合不应该是简单相加,而应该在正交空间中操作以避免干扰。这个思路可以迁移到任何多模态/多源特征融合场景。
- 无需 3D 输入:利用 VGGT 从单目 RGB 推断几何信息,保持了通用跟踪器只需 RGB 输入的便利性。
- 自适应门控:门控机制让模型自动学习在哪些情况下几何信息有帮助,避免了人为设定的融合策略。
局限性 / 可改进方向¶
- VGGT 较重(需要额外的前向推理),实时性可能受影响
- 零空间计算需要 SVD 分解,引入额外计算开销
- 仅在 DINOv2 + VGGT 组合上验证,对其他 backbone 组合的泛化性未知
- 几何特征的门控掩码目前是像素级的,更粗粒度(如目标级)的门控可能更鲁棒
相关工作与启发¶
- vs ToMP (De Haan et al.): GOT-Edit 的语义基线,本文在其上增加了几何感知
- vs AlphaEdit (知识编辑): 原用于 LLM 的零空间编辑,本文首次将其引入视觉跟踪
- vs VGGT: 提供几何特征的上游模型,证明了其对下游任务的通用性
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 零空间编辑迁移到视觉跟踪的思路非常新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 8个跟踪基准 + 详细消融 + 属性分析
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,公式推导完整
- 价值: ⭐⭐⭐⭐ 为多源特征融合提供了通用的零空间方法论