AnyUp: Universal Feature Upsampling¶
会议: ICLR 2026
arXiv: 2510.12764
代码: https://github.com/wimmerth/anyup
领域: 视觉特征 / 上采样
关键词: 特征上采样, encoder无关, 分辨率无关, 视觉Transformer, DINO/CLIP特征
一句话总结¶
提出AnyUp——首个推理时encoder无关的可学习特征上采样方法,通过feature-agnostic层处理任意维度/类型的视觉特征,配合窗口注意力架构和crop-based训练策略,训练一次即可对任意视觉编码器(DINO/CLIP/SigLIP/MAE等)的特征进行任意分辨率上采样,在多个下游任务上超越FeatUp/JAFAR/LoftUp等方法。
研究背景与动机¶
- 领域现状:DINO/CLIP等预训练视觉特征已成为CV基础组件,但ViT输出分辨率受限于token数量,无法提供像素级特征。FeatUp/LoftUp/JAFAR等学习型上采样方法已取得进展。
- 现有痛点:(a) 所有现有学习型上采样器都绑定在特定encoder上——换DINO版本就需要重新训练;(b) 训练时需要多次查询视觉编码器,对大型最新模型(如DINOv2-giant)计算代价极高甚至不可行;(c) 某些方法还限制于固定上采样倍数或特定下游任务。
- 核心矛盾:学习型方法需要见过目标feature的分布才能上采样好,但不同encoder的特征空间完全不同——如何用一个模型处理所有encoder?
- 本文要解决什么:设计一个"训练一次,处理所有"的通用特征上采样器。
- 切入角度:关键限制在于现有方法的低分辨率特征处理模块是encoder-specific的(绑定了特征维度和分布)。如果能设计一个feature-agnostic层,就能打破这个绑定。
- 核心idea一句话:用feature-agnostic层(不依赖特征维度的处理方式)+ RGB引导图的窗口注意力来实现encoder无关的特征上采样。
方法详解¶
整体框架¶
AnyUp接收低分辨率特征图和高分辨率RGB引导图,通过feature-agnostic层提取不依赖特征类型的信息,然后用窗口注意力机制将低分辨率特征的语义信息传播到高分辨率目标位置,输出与输入特征空间一致的高分辨率特征图。
关键设计¶
- Feature-Agnostic层
- 做什么:处理任意维度和类型的视觉特征,不依赖特征的具体维度
- 核心思路:不直接用线性层处理特征(这会绑定维度),而是用不依赖特征维度的操作(如归一化、point-wise操作、与RGB引导特征的交叉注意力)来提取语义信息
-
设计动机:这是实现encoder无关的关键——只要不假设特征维度,就能泛化到未见过的encoder
-
窗口注意力上采样架构
- 做什么:将低分辨率特征信息高效传播到高分辨率网格
- 核心思路:采用高分辨率到低分辨率的注意力(每个高分辨率位置attend到附近的低分辨率tokens),在窗口内进行以控制计算量。自然支持任意分辨率输入输出
-
设计动机:全局注意力计算量太大,窗口注意力在保持质量的同时可扩展到高分辨率
-
Crop-based训练策略 + 一致性正则化
- 做什么:用图像crop训练,结合一致性loss保持特征语义
- 核心思路:在训练时从图像中裁切patches(而非整图),计算上采样loss。同时通过一致性正则化确保输出特征仍在原始特征空间中(避免特征分布漂移)
- 设计动机:crop-based训练更高效且提供更多样的训练信号;一致性正则化是"保真"的关键——上采样不应改变特征的语义含义
实验关键数据¶
主实验¶
- AnyUp在多个下游任务(深度估计、语义分割等)上超越FeatUp、LoftUp、JAFAR以及双线性上采样
- 关键能力:在未训练过的encoder上也能工作——训练时用DINOv2特征,推理时可直接应用于CLIP/SigLIP/MAE特征
- 定性结果(Figure 2):AnyUp产生锐利的特征图,LoftUp过度平滑,JAFAR产生特征分布偏移,FeatUp有光晕伪影
泛化性¶
- 训练在DINOv2-ViT-B/14上 → 直接应用于DINOv2-ViT-L/14、CLIP-ViT-B/16、SigLIP等
- 泛化到未见过的特征时性能仅有轻微下降,远好于需要重新训练的方法用错误encoder时的表现
关键发现¶
- Feature-agnostic层是泛化的核心——去掉它后模型退化为encoder-specific
- 一致性正则化对保持特征空间忠实度至关重要
- 窗口注意力比全局注意力更高效且质量相当
亮点与洞察¶
- "训练一次,处理所有encoder"解决了特征上采样领域的一个根本性限制——每次出新encoder就需重训上采样器的问题
- 实用性极强:轻量级、免训练(对用户而言)、开源,可以直接作为即插即用的组件
- Feature-agnostic设计的insight有更广泛的启示——任何需要处理多种特征类型的模块都可以借鉴
局限性 / 可改进方向¶
- 在极端分辨率差异(如16x→1024x)时质量可能下降
- 对于非ViT encoder(如CNN backbone)的泛化性未充分验证
- 依赖高分辨率RGB引导图——在纯特征上采样(无RGB可用)场景不适用
- 训练时仍需要至少一种encoder的特征——zero-shot到完全新类型的特征可能有gap
相关工作与启发¶
- vs FeatUp: FeatUp需要为每个encoder重训;AnyUp训练一次即可泛化
- vs JAFAR/LoftUp: 同样分辨率无关但encoder-specific;AnyUp同时满足两个"any"
- vs 双线性上采样: 双线性encoder无关但质量差;AnyUp是首个兼具encoder无关+高质量+可学习的方法
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个推理时encoder无关的学习型特征上采样,填补了重要空白
- 实验充分度: ⭐⭐⭐⭐ 多encoder+多任务+泛化测试+消融完整
- 写作质量: ⭐⭐⭐⭐⭐ Table 1的能力对比一目了然,Figure 2的视觉对比极有说服力
- 价值: ⭐⭐⭐⭐⭐ 对CV社区有基础设施级贡献——解决了一个所有人都面临但没人解决过的问题