Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small VLMs¶

会议: CVPR 2026
arXiv: 2511.17487
代码: https://web.stanford.edu/~markendo/projects/downscaling_intelligence (有项目页面)
领域: Multimodal VLM / Small Language Models
关键词: 多模态模型缩放, 感知瓶颈, 推理瓶颈, 视觉提取调优, 小模型

一句话总结¶

系统研究LLM缩放对多模态能力的影响，发现视觉任务而非LLM依赖任务受影响最大，且感知退化与推理退化同等严重；提出Extract+Think方法（视觉提取调优+逐步推理），以0.6B感知+1.7B推理的极小模型超越了12倍大的PrismCaptioner和LLaVA-OneVision-0.5B。

研究背景与动机¶

多模态大语言模型（MLLMs）在视觉理解和推理方面取得了显著进展，但实际部署需要小型高效模型。当前小模型研究的核心困惑是：缩小LLM骨干后，哪些能力退化最严重？为什么？现有研究结论矛盾——有的认为LLM缩放对感知影响不大，有的发现OCR等感知密集任务高度敏感。

本文的研究动机分三个层次：

理解实际限制：系统量化从8B缩到0.6B后哪些任务受影响最大

揭示失败机制：视觉能力退化是因为推理变差（预期中的），还是更基础的感知能力也在退化（意外的）？

开发针对性解决方案：基于发现的瓶颈设计改进方法

核心发现：LLM缩放不成比例地影响视觉任务（而非LLM固有任务如知识问答），且感知退化与推理退化同等严重甚至更严重——这推翻了此前"感知对LLM规模不敏感"的假设。切入角度：感知瓶颈源于视觉指令调优要求模型学习过多多样化的视觉提取技能，小模型容量不足以掌握。

方法详解¶

整体框架¶

Extract+Think是一个两阶段感知-推理框架。输入：图像+问题。阶段一（感知模块/VLM）：提取与问题相关的视觉细节；阶段二（推理模块/LLM）：基于提取的视觉信息进行逐步推理生成答案。两个模块都使用Qwen3系列模型，感知模块用0.6B或1.7B VLM，推理模块用1.7B或4B LLM。

关键设计¶

缩放效应分析框架（§3, 诊断部分）:
- 功能：控制性实验量化LLM缩放对不同任务的影响
- 核心思路：使用Qwen3系列（8B→4B→1.7B→0.6B）+ SigLIP视觉编码器 + 2层MLP连接器，在15个视觉指令调优数据集上统一训练和评估。发现两个关键规律：(1) 性能下降最大的任务是视觉密集型（如Grounding下降48%、感知相似度下降38%），而非LLM依赖型任务（如ScienceQA几乎不变）；(2) 任务受LLM缩放影响越大，其对视觉信息的依赖度就越高——两者呈近线性关系
- 设计动机：以实证数据打破"小模型主要在推理上退化"的固有假设
解耦感知/推理分析（§3.3, 诊断部分）:
- 功能：将感知和推理能力分离，独立测量LLM缩放对两者的影响
- 核心思路：采用Prism框架将QA分为两阶段——第一阶段VLM提取视觉信息（感知），第二阶段LLM基于文本推理（推理）。分别缩放两个阶段的LLM观察性能变化。惊人发现：缩放感知模块（8B→0.6B）的性能下降几乎与缩放推理模块一样严重——域内数据平均准确率下降0.15，甚至对Instance Reasoning和Logical Reasoning等推理任务，感知缩放的影响也与推理缩放相当
- 设计动机：此前Prism工作假设感知对LLM规模远不敏感（用1.8B做感知+70B做推理），但本文发现这个假设有误。根据Neural Scaling Laws的量化模型理论：模型技能被"量化"为离散块，缩放限制了可学习技能总数。视觉指令调优需太多感知技能→小模型覆盖不足
视觉提取调优（Visual Extraction Tuning, §4.1）:
- 功能：统一感知模块的学习目标，缓解感知瓶颈
- 核心思路：将视觉指令调优数据转化为视觉提取任务。流程：(1) 将原始QA对转为陈述句；(2) 构造提示让模型描述与陈述句相关的细粒度视觉细节；(3) 用Qwen3VL-8B生成提取响应作为训练数据。用382K样本后训练感知模块。这样模型只需学习一种统一的视觉信息提取技能，而非在多种任务格式间切换
- 设计动机：感知瓶颈根源是视觉指令调优的多样性要求模型学太多不同的提取技能。Captioning虽然统一了任务格式但有两个问题：(1) 不教模型提取与问题相关的信息；(2) 仅用通用描述数据集缺乏领域特定理解。视觉提取调优同时解决了这两个问题
逐步视觉推理（Step-by-step Reasoning, §4.2）:
- 功能：增强推理模块利用提取视觉信息的能力
- 核心思路：利用Qwen3的思维模式（thinking mode），激活CoT推理。通过NoWait减少自我反思，限制思维预算为4096 tokens
- 设计动机：感知→推理的两阶段框架中，文本是连接桥梁，CoT可以直接增强推理而无需额外视觉训练。实验发现CoT在中间规模（4B、1.7B）效果最好——太大(8B)本身就够强，太小(0.6B)推理能力不足以受益

损失函数 / 训练策略¶

感知模块训练：先预训练连接器（BLIP558K）→ 视觉指令调优（单图574K+多图309K+150K单图）→ Captioning后训练（ALLaVA-4V 950K）→ 视觉提取调优（382K）
推理模块：直接使用Qwen3，不需额外训练
从头训练变体（Extract+Think†）：仅用视觉提取调优数据（382K），不经过指令调优和captioning

实验关键数据¶

主实验：与基线方法对比¶

方法	感知/推理规模	视觉数据量	域内平均	MMStar
LLaVA-OneVision	0.5B E2E	8.8M	71.1	39.0
InternVL2.5	0.5B E2E	64M	83.2	48.2
PrismCaptioner	7B/70B	1.9M	78.3	45.7
Baseline (§3)	0.6B E2E	1.0M	65.9	37.2
Caption+Think	0.6B/1.7B	2.0M	75.0	43.0
Extract+Think	0.6B/1.7B	2.4M	80.3	46.6
Extract+Think	1.7B/4.0B	2.4M	85.3	52.6

消融实验：视觉提取调优效果¶

感知模块	域内	MMStar	说明
Captioning 0.6B	77.6	40.4	纯caption基线
+ Visual Extraction 0.6B	82.8	44.0	+5.2/+3.6提升
Captioning 1.7B	80.3	44.4	纯caption基线
+ Visual Extraction 1.7B	84.4	49.0	+4.1/+4.6提升

关键发现¶

视觉任务受LLM缩放影响最大：Grounding从8B到0.6B下降48%，而ScienceQA几乎不变。任务对视觉信息依赖度与其对LLM缩放的敏感度呈线性关系
感知退化≈推理退化：解耦分析中，缩放感知模块的性能下降与缩放推理模块相当，甚至在推理任务(IR/LR)上感知缩放的影响更大
视觉提取调优极高效：Extract+Think†从头训练仅用382K视觉数据（LLaVA-OneVision的4.3%），域内性能却超过后者
CoT推理在中间规模最有效：0.6B太小无法充分利用CoT，8B已足够强不需要CoT，4B和1.7B获益最大
Extract+Think (0.6B/1.7B) 用比PrismCaptioner小12倍的感知模块和小41倍的推理模块，在域内和域外都超越了它

亮点与洞察¶

"感知也是核心瓶颈"的反直觉发现——此前普遍认为小模型主要在推理上吃亏（毕竟LLM规模直觉上影响推理能力），但本文发现感知退化同等严重。这改变了小模型优化的优先级
Neural Scaling Laws量化模型的解释力——用技能被"量化"为离散块的理论解释为什么视觉指令调优的多样性会放大感知瓶颈，小模型能学的技能块太少→覆盖不了所有感知模式
视觉提取调优的idea优雅且实用——与其让小模型学N种不同的视觉理解方式，不如统一为"提取与问题相关的视觉细节"一种技能。数据生成流程也足够简单
两阶段解耦的分析价值——即使不使用Extract+Think做部署，解耦分析本身就为小模型研究提供了全新的诊断工具

局限与展望¶

两阶段框架增加了推理延迟（需要两次模型前向），对实时应用不够友好
感知模块的文本输出可能丢失细粒度视觉信息（文本作为视觉和推理的桥梁有信息瓶颈）
视觉提取调优依赖Qwen3VL-8B生成训练数据，存在教师模型偏差
仅在Qwen3系列上验证，跨架构（如LLaMA、Gemma）的泛化性未知
视觉编码器（SigLIP）在所有实验中保持不变，未分析其缩放对感知的影响
CoT推理增加了输出长度→推理成本增加，限制思维预算(4096 tokens)对复杂推理可能不够

评分¶

新颖性: ⭐⭐⭐⭐⭐ 感知瓶颈的发现改变了领域认知，视觉提取调优概念新颖且有理论支撑
实验充分度: ⭐⭐⭐⭐⭐ 15个任务×4个模型规模×解耦分析×消融实验×多种基线，分析极为系统
写作质量: ⭐⭐⭐⭐⭐ 从发现问题→分析原因→提出方案的递进结构非常清晰
价值: ⭐⭐⭐⭐⭐ 对小模型VLM研究有方法论和实践两方面的深远影响