GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing¶

会议: ICLR 2026
arXiv: 2602.08550
代码: https://github.com/chenshihfang/GOT (有)
领域: 视频理解 / 目标跟踪 / 3D视觉
关键词: 目标跟踪, 3D几何, 零空间编辑, 在线模型更新, VGGT

一句话总结¶

通过零空间约束的在线模型编辑，将 VGGT 提供的 3D 几何信息融入 2D 通用目标跟踪器中，在保持语义判别力的同时增强几何感知能力，在遮挡和背景杂乱场景中显著提升跟踪性能。

研究背景与动机¶

领域现状：2D 通用目标跟踪（GOT）主要依赖外观特征（如 DINOv2），在标准场景下已取得很好效果，但缺乏 3D 空间理解能力。
现有痛点：面对遮挡、背景杂乱、外观变化等挑战性场景时，纯 2D 特征难以区分目标和干扰物。而现有的 3D 融合方法需要 RGB-D 输入或点云数据，限制了通用性。
核心矛盾：直接将几何特征朴素融合（如拼接或加权相加）到语义特征中，会破坏已学好的语义判别力——实验显示朴素融合在快速运动和光照变化场景下反而退化。
本文要解决什么？ 如何在保持语义特征判别力的前提下，无损地注入 3D 几何信息？
切入角度：借鉴大语言模型的知识编辑（AlphaEdit），将几何信息扰动投影到语义特征的零空间，确保不干扰原有语义。
核心idea一句话：将几何感知模块的输出投影到语义模型权重的零空间中，实现 3D 几何知识的无损注入。

方法详解¶

整体框架¶

输入参考帧和当前帧的 RGB 图像，分别通过 DINOv2 提取语义特征和 VGGT 提取几何特征。通过门控融合和零空间投影的模型编辑器，将几何信息注入跟踪模型的定位权重中，最终输出目标位置的分类图和边界框。

关键设计¶

零空间约束的知识编辑:
做什么：在更新跟踪模型权重时，将几何扰动限制在语义特征的零空间内
核心思路：将 FFN 视为线性关联记忆 V = WK。语义预测器产生权重 W_sem，几何预测器产生扰动 Delta。通过 SVD 分解计算语义特征的零空间投影矩阵 P_null，最终权重为 W_sem + P_null * Delta。
设计动机：零空间约束保证 (W_sem + Delta') * K_semantic = W_sem * K_semantic，即几何扰动不会改变对语义特征的响应，只在正交方向上添加几何信息。这是避免朴素融合退化的关键。
门控特征融合:
做什么：自适应控制几何特征的融入强度
核心思路：用轻量卷积 + sigmoid 预测门控掩码 m，融合特征为 F = v_s + m * Align(v_g)。不同空间位置的门控值不同，允许模型自动学习何时何地需要几何信息。
设计动机：并非所有位置都需要几何信息，门控机制让模型在几何信息有帮助的地方（如遮挡区域）增强使用，在可能有害的地方（如光照变化）减少使用。
双路特征提取:
做什么：分别从 DINOv2 和 VGGT 提取语义和几何特征
核心思路：DINOv2-L 提取语义特征，VGGT 的 DPT head 提取几何特征（包含深度、法线等 3D 信息），两者都冻结不训练。通过对齐层将几何特征映射到与语义特征相同的维度。
设计动机：VGGT 作为最近的视觉几何 Transformer，能从单目 RGB 推断丰富的 3D 属性，无需 RGB-D 输入。

损失函数¶

综合分类损失（compound hinge loss）和边界框 GIoU 损失的加权和。

实验关键数据¶

主实验¶

数据集	指标	GOT-Edit	ToMP-378	PiVOT-378	LoRAT-378
AVisT	SUC	63.7%	62.0%	62.2%	62.0%
NfS	SUC	69.9%	69.0%	68.2%	66.7%
GOT-10k	AO	85.2%	77.5%	76.9%	77.5%
LaSOT	SR75	83.2%	75.8%	75.5%	78.1%
TrackingNet	Pr	90.6%	80.8%	82.1%	82.0%

消融实验¶

配置	AVisT	NfS	LaSOT
Baseline (仅语义)	59.2%	68.5%	70.7%
+几何 (朴素融合)	59.9%	67.5%	70.9%
+零空间投影	61.5%	69.3%	72.7%
+正则化 (Full)	62.0%	70.2%	73.8%

关键发现¶

朴素融合几何特征在 NfS 上反而退化（69.0% -> 67.5%），而零空间编辑则提升到 70.2%
遮挡场景提升最显著：部分遮挡 +7.28%（64.32% -> 71.60%）
零空间投影是性能提升的核心组件，贡献了 2-3% 的绝对提升
在 8 个跟踪基准上全面超越 SOTA

亮点与洞察¶

零空间编辑思路：从 LLM 知识编辑迁移到视觉跟踪领域，非常巧妙。核心洞察是多源信息融合不应该是简单相加，而应该在正交空间中操作以避免干扰。这个思路可以迁移到任何多模态/多源特征融合场景。
无需 3D 输入：利用 VGGT 从单目 RGB 推断几何信息，保持了通用跟踪器只需 RGB 输入的便利性。
自适应门控：门控机制让模型自动学习在哪些情况下几何信息有帮助，避免了人为设定的融合策略。

局限性 / 可改进方向¶

VGGT 较重（需要额外的前向推理），实时性可能受影响
零空间计算需要 SVD 分解，引入额外计算开销
仅在 DINOv2 + VGGT 组合上验证，对其他 backbone 组合的泛化性未知
几何特征的门控掩码目前是像素级的，更粗粒度（如目标级）的门控可能更鲁棒

评分¶

新颖性: ⭐⭐⭐⭐⭐ 零空间编辑迁移到视觉跟踪的思路非常新颖
实验充分度: ⭐⭐⭐⭐⭐ 8个跟踪基准 + 详细消融 + 属性分析
写作质量: ⭐⭐⭐⭐ 方法描述清晰，公式推导完整
价值: ⭐⭐⭐⭐ 为多源特征融合提供了通用的零空间方法论