DeepSketcher: Internalizing Visual Manipulation for Multimodal Reasoning¶

会议: CVPR 2026
arXiv: 2509.25866
代码: GitHub
领域: 多模态视觉语言模型
关键词: 视觉推理, 图文交错推理, 视觉思考, 嵌入编辑器, 代码渲染

一句话总结¶

提出DeepSketcher套件——包含31k高质量代码渲染的图文交错CoT数据集和一个自包含的Embedding Editor模型，使VLM无需外部工具即可在视觉嵌入空间直接生成"视觉思考"进行多模态推理。

"thinking with images"是VLM推理的新范式，通过让模型在推理过程中操作视觉输入（裁剪、缩放、画辅助线等），实现更深层的视觉理解。但现有方法面临三个核心矛盾：

DeepSketcher从代码渲染VQA数据出发，提出互补视角：所有图像通过代码渲染生成，视觉操作通过修改代码实现——精确、可复现、无空间定位噪声。

代码渲染图像 + 问题 → VLM生成推理文本 + 编辑指令 → Embedding Editor在视觉嵌入空间操作 → 更新的视觉嵌入注入上下文 → 继续推理 → 最终答案。

代码空间的数据构建:
- 功能：生成高质量的图文交错CoT训练轨迹
- 核心思路：双Agent协作系统——Solver LLM进行推理并发出操作请求，Code Editor LLM修改渲染代码并重新生成图像，构成"推理→指令→代码修改→渲染→推理"的闭环
- 设计动机：代码空间的编辑精确可控，避免了像素级操作的定位噪声和生成模型的不可控性
Embedding Editor:
- 功能：在视觉嵌入空间直接执行视觉操作，无需外部工具调用
- 核心思路：采用Q-Former风格的交叉注意力架构——视觉token作为Query，编辑指令隐藏状态经自适应池化后作为Key/Value，通过交叉注意力+FFN更新视觉嵌入
- 设计动机：消除对代码执行、外部工具和重复图像编码的依赖，实现更灵活的"thinking with images"
三阶段渐进训练:
- 功能：逐步解耦模型对GT视觉输入的依赖
- 核心思路：Phase 1（推理预热，使用GT图像特征）→ Phase 2（Editor训练，L1损失对齐预测嵌入与GT编辑图像嵌入，冻结其他模块）→ Phase 3（联合适配，解冻LLM骨干适应Editor输出）
- 设计动机：直接端到端训练会导致Editor产生噪声嵌入干扰推理，渐进训练确保每个组件稳定

模型	MathVerse	MathVision	MathVista	LogicVista	WeMath	平均
Qwen2.5-VL-7B	41.1	27.0	68.2	39.8	34.3	42.1
DeepEyes-7B	42.2	26.6	70.1	47.7	38.9	45.1
Mirage-7B (Inner Visual)	27.3	28.6	63.7	40.7	16.7	35.4
DeepSketcher-7B	43.2	32.3	69.1	48.1	37.1	46.0

阶段	设置	MathVerse	WeMath	Indicator-500
Phase 2	纯文本基线	37.2	28.3	38.3
Phase 2	+Editor	41.6	37.5	33.8
Phase 3	纯文本基线	38.1	31.2	37.5
Phase 3	+Editor	43.2	37.1	40.5