Perception Tokens Enhance Visual Reasoning in Multimodal Language Models¶

会议: CVPR 2025
arXiv: 2412.03548
代码: 无（将在项目页面发布）
领域: 3D视觉/多模态
关键词: 感知token, 多模态语言模型, 链式推理, 深度估计, 目标计数

一句话总结¶

本文提出 Perception Tokens，一种将中间视觉表示（如深度图、目标框）编码为辅助推理 token 的方法，使多模态语言模型能像语言 chain-of-thought 一样，通过生成感知 token 作为中间步骤来增强视觉推理能力。

研究背景与动机¶

领域现状：多模态语言模型（MLM）如 LLaVA 在高层视觉语言任务上表现出色，但在需要基础视觉感知能力的任务（如深度推理、目标计数）上仍然困难。专用视觉模型在这些任务上表现更好，但 MLM 无法原生地生成深度图或检测框来辅助推理。

现有痛点：（1）直接 fine-tune MLM 在感知任务上效果有限，且泛化能力差；（2）调用外部视觉工具（如深度估计器、检测器）需要额外的计算和内存开销，且是多模型级联容易累积错误；（3）MLM 的词汇表只有文本和 CLIP 图像 token，无法表示深度、分割等中低层视觉特征。

核心矛盾：视觉推理需要中间视觉表示（如深度图）来支撑推理过程，但 MLM 的 token 空间只有语言 token——自然语言无法精确描述像素级的深度关系或精确的物体位置。

本文目标：扩展 MLM 的 token 空间，引入辅助感知 token，使模型能在推理过程中生成并利用视觉感知表示。

切入角度：类比语言模型的 chain-of-thought 推理——语言 CoT 通过生成中间文本步骤来辅助推理，那么视觉任务也可以通过生成中间视觉表示（编码为 token）来辅助推理。

核心 idea：用 VQVAE 将深度图等视觉表示 tokenize 为离散 token 加入 MLM 词汇表，训练 MLM 在回答视觉问题时先生成这些感知 token 作为中间推理步骤（如"深度图是<<>>，因此 D 点最近"），然后基于这些 token 得出最终答案。

方法详解¶

整体框架¶

Aurora 框架扩展了 LLaVA 的词汇表 \(V' = V \cup V_{\text{aux}}\)。首先用 VQVAE 将深度图 tokenize（像素级表示）或直接编码边界框（结构化表示）为辅助 token。然后用课程学习策略训练 MLM：从简单的 token 预测任务开始，逐步过渡到使用 token 进行 chain-of-thought 视觉推理。

关键设计¶

感知 Token 的 Tokenization:
- 功能：将中间视觉表示统一编码为 MLM 可以生成和处理的离散 token
- 核心思路：对于像素级表示（深度图、分割 mask），使用 VQVAE/VQGAN 将其编码为离散 codebook 索引作为 token。对于结构化表示（边界框、坐标），根据域范围直接定义 token（如坐标范围 0 到图像最大像素数）。所有 token 统一加入 \(V_{\text{aux}}\)，构成扩展词汇表。
- 设计动机：统一的 tokenization 空间使不同类型的视觉表示可以在同一个自回归框架中无缝处理，无需修改模型架构。
专家到通才蒸馏 + 重建损失:
- 功能：训练 MLM 生成准确的辅助 token
- 核心思路：使用预训练的专用模型（如深度估计器）提供目标分布 \(q_i\)，通过交叉熵蒸馏损失 \(\ell_{dist} = \min_M (-\sum_i q_i \log p_{M(i)})\) 训练 MLM 对齐辅助 token 预测。同时引入轻量级解码器 \(g\) 将 token 映射回特征空间，加入重建损失 \(\ell_{rec} = \|g(t) - f\|_2^2\) 增强 token 的可解释性和预测准确性。
- 设计动机：蒸馏确保生成的 token 语义上与专用模型一致，重建确保 token 在解码回原始表示时保持高保真。两者结合避免了 token 预测的退化。
课程学习 + 渐进 CoT:
- 功能：避免灾难性遗忘，逐步建立多步推理能力
- 核心思路：定义任务难度 \(d_1 < d_2 < \cdots < d_T\)，用温度退火的 Softmax 采样概率 \(p(d_t, s) = \exp(-d_t/\tau(s)) / \sum_i \exp(-d_i/\tau(s))\) 控制训练进度，\(\tau(s) = \tau_0 / (1 + \lambda \cdot s/S)\) 随训练步数逐渐降低温度。三类数据子集：（a）原子任务：学习生成辅助 token；（b）CoT 数据：先生成 token 再回答问题；（c）直接标注：不生成 token 直接回答。同一图像上顺序展示两种推理风格。
- 设计动机：直接用固定数据混合训练会导致 token 预测准确性和推理能力之间的 trade-off。课程学习先掌握基础（生成 token），再逐步学习复杂推理，有效避免灾难性遗忘。

损失函数 / 训练策略¶

结合蒸馏损失和重建损失训练辅助 token 预测。使用约束解码（限制只采样辅助 token）和信息瓶颈（截断 CoT 链路中只保留辅助 token）来强制模型依赖感知 token 推理。基于 LLaVA 1.5 13B 实现。

实验关键数据¶

主实验¶

相对深度估计（准确率 %）：

方法	BLINK 2点	HardBLINK 3点	HardBLINK 4点	HardBLINK 5点	平均
LLaVA 1.5 13B	54.0	35.5	37.9	29.0	39.1
Fine-tuned LLaVA	68.5	58.9	52.4	41.1	55.2
GPT-4o	53.2	58.9	50.0	36.3	49.6
LLaVA-Aurora	64.5	66.9	60.5	54.8	61.6

目标计数（准确率 %）：

方法	BLINK	CVBench	SEED-Bench
LLaVA 1.5 13B	34.7	43.3	54.2
Fine-tuned LLaVA	35.2	48.5	57.5
LLaVA-Aurora	45.5	54.6	62.5

消融实验¶

配置	BLINK 深度	BLINK 计数	说明
基线（无感知 token）	39.1	34.7	原始 LLaVA
仅 fine-tune	55.2	35.2	有限提升
仅 token 预测（无 CoT）	低于完整	低于完整	token 未被推理利用
完整 Aurora	61.6	45.5	感知 token + CoT

关键发现¶

LLaVA-Aurora 在深度推理上平均提升 +6.4%（vs fine-tune），在更难的 5 点配置上提升 +13.7%
计数任务上跨三个 benchmark 一致提升（+10.8/+11.3/+8.3 个百分点）
感知 token 在难度越高的任务上优势越明显——简单任务可能不需要中间推理
课程学习策略对避免灾难性遗忘至关重要，去掉后性能显著下降
即使不用外部工具，端到端的感知 token 推理也能超越 GPT-4 Turbo + Tool

亮点与洞察¶

"视觉 chain-of-thought"范式：将 CoT 从语言扩展到视觉模态，用生成的深度图 token 辅助深度推理、用框 token 辅助计数——这是一个全新的推理范式
VQVAE tokenization 的统一性：将各种视觉表示统一为离散 token，与语言 token 共享同一个自回归空间，优雅地解决了多模态表示的兼容性问题
课程学习策略：温度退火的采样策略巧妙平衡了 token 学习和推理学习，是处理多任务异质数据的有效方案

局限与展望¶

目前仅验证了深度和计数两类任务，未扩展到分割、姿态等更多感知任务
VQVAE 的 tokenization 会引入信息损失，影响精细推理
推理时需要额外生成感知 token，增加了生成长度和推理时间
未来可以扩展到视频理解、具身智能等需要更丰富中间表示的场景

评分¶

新颖性: 8/10 — "视觉 CoT"概念新颖，将感知能力编码为推理 token 的想法具有开创性
实验充分度: 7/10 — 多个 benchmark 验证但仅覆盖深度和计数两类任务
写作质量: 8/10 — 框架描述清晰，类比语言 CoT 直观易懂
价值: 8/10 — 开辟了 MLM 视觉推理的新方向，感知 token 框架具有很强的扩展性