AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition¶

会议: CVPR2026
arXiv: 2512.03794
代码: github.com/adaptvision/adaptvision
领域: 多模态VLM
关键词: 视觉token压缩, 自适应视觉获取, 强化学习, 工具调用, 高效VLM

一句话总结¶

提出 AdaptVision，通过由粗到精的主动视觉机制和强化学习训练，让 VLM 自主决定每个样本所需的最少视觉 token 数量，配合解耦式多轮策略优化 (DTPO) 实现效率与精度的最优平衡。

研究背景与动机¶

VLM 依赖大量视觉 token（如 Qwen2.5-VL 处理 2048×1024 图像产生 2678 个 token），带来显著的计算和内存开销
现有高效 VLM 方法仅按固定比例压缩视觉 token（如剪枝 50%），缺乏对不同任务需求的自适应能力
认知神经科学揭示人类视觉系统是"主动视觉"——先捕获粗略低频信息，再对关键区域进行精细分析
近期"带图思考"范式（如 DeepEyes、Mini-o3 的 zoom/crop 操作）展示了主动视觉推理的潜力
将"带图思考"用于视觉 token 压缩的目标尚未被充分探索——让模型决定用多少视觉 token 就够
用标准 GRPO 训练该双目标策略存在信用分配模糊和优化不平衡的挑战

方法详解¶

整体框架¶

AdaptVision 采用 coarse-to-fine 流程：首先处理 1/4 分辨率图像（$I_{low}$），仅使用 25% 的视觉 token；模型自主判断是否直接回答，或通过 <tool_call>[x1,y1,x2,y2]</tool_call> 调用裁剪工具从高分辨率图像获取关键区域 $I_{crop}$，再进行推理回答。总视觉 token 数为 $n_{img} = n_{low} + \mathbf{1}_{tool} \cdot n_{crop}$。

关键设计¶

奖励函数设计：由结果奖励 $\mathcal{R}_{oc}$ 和工具奖励 $\mathcal{R}_{tool}$ 组成。

准确性奖励 $\mathcal{R}_{acc}$：LLM-as-judge 判断答案正确性（1/0）
格式奖励 $\mathcal{R}_{form}$：要求 <think>、<answer>、<tool_call> 标签合规（0.5/0）
平衡奖励 $\mathcal{R}_{bal}$：对工具调用正确答案罚 0.1；对低概率正确的直接答案也罚 0.1，防止"幸运猜测"
裁剪奖励 $\mathcal{R}_{crop}$：GPT-4o 评估裁剪区域是否包含回答所需信息
面积惩罚 $\mathcal{R}_{area}$：惩罚裁剪区域面积过大，激励最小化 token 使用

DTPO（Decoupled Turn Policy Optimization）：

解耦学习目标：将生成 token 按功能分为工具 token（第一轮）和答案 token（第二轮），分别归一化梯度信号，解决工具 token 在长序列中被欠优化的问题
解耦优势估计：为工具奖励和结果奖励分别计算独立的优势值 $A^{tool}$ 和 $A^{oc}$，解决信用分配模糊问题

损失函数¶

基于 GRPO 的 PPO 风格 clipping 损失，但对工具 token 和答案 token 使用不同的归一化因子和优势值： $$\mathcal{J}_{DTPO} = \mathcal{J}_{tool} + \mathcal{J}_{answer}$$ 每个部分独立归一化，避免双轮序列的梯度信号被稀释。

实验关键数据¶

主实验：与现有高效 VLM 方法对比¶

方法	#Token↓	ChartQA	OCRBench	DocVQA	MME	MathVista	Avg.↑
Vanilla (Qwen2.5-VL-7B)	100%	79.8	81.5	95.1	2316	68.2	100%
Down-Sample	25%	62.9	68.8	94.3	2270	62.2	92.1%
FastV (50%)	50%	72.6	75.8	93.6	2308	63.7	95.8%
VisionZip (50%)	50%	71.5	70.5	93.8	2209	64.1	94.8%
AdaptVision	<50%	优于上述	优于上述	优于上述	优于上述	优于上述	最高

消融实验：DTPO 各组件贡献¶

设置	Avg. Performance	Token Usage
GRPO baseline	较低，训练不稳定	工具调用迅速崩溃到过度使用
+ 解耦归一化	显著提升	稳定的工具使用率
+ 解耦优势估计	最佳	最优 token 效率

关键发现¶

AdaptVision 在消耗显著更少视觉 token 的同时取得了优于 SOTA 高效 VLM 方法的性能
GRPO 直接训练会导致工具使用先偏向直接回答、后崩溃到过度调用的不稳定过程
DTPO 的两个解耦设计都对稳定训练和提升性能有重要贡献

亮点与洞察¶

将人类主动视觉的 coarse-to-fine 机制优雅地融入 VLM 效率优化
提出的 DTPO 算法具有通用性，可用于任何包含工具调用的多轮 RL 训练
奖励设计的多层次考量（准确性+格式+平衡+裁剪+面积）体现了对实际训练动态的深刻理解

局限性¶

仅支持单次工具调用（1 turn crop），未探索多轮迭代细化能力
裁剪奖励依赖 GPT-4o 评估，训练成本较高
基于 Qwen2.5-VL-7B 实验，更大规模模型上的效果待验证

评分¶

新颖性: ⭐⭐⭐⭐ (主动视觉+RL 用于 token 压缩的新视角，DTPO 有创新)
实验充分度: ⭐⭐⭐⭐ (9 个 VQA benchmark，全面的消融实验)
写作质量: ⭐⭐⭐⭐ (动机清晰，方法推导严谨)
价值: ⭐⭐⭐⭐ (高效 VLM 的实用方向，DTPO 可推广)