LLaVA-CoT: Let Vision Language Models Reason Step-by-Step¶

会议: ICCV 2025
arXiv: 2411.10440
代码: https://github.com/PKU-YuanGroup/LLaVA-CoT
领域: 多模态VLM / LLM推理
关键词: 视觉语言模型、分阶段推理、思维链、测试时缩放、结构化推理

一句话总结¶

LLaVA-CoT 提出了一种让视觉语言模型自主进行多阶段结构化推理的方法——通过构建 LLaVA-CoT-100k 结构化推理标注数据集训练模型依次执行"总结→视觉解读→逻辑推理→结论生成"四个阶段，并提出阶段级回溯搜索（SWIRES）实现测试时缩放，使 11B 模型超越 Gemini-1.5-pro 和 GPT-4o-mini。

研究背景与动机¶

领域现状：大语言模型通过推理时间缩放（如 OpenAI o1）展现了强大的推理能力。然而，当前的视觉语言模型（VLMs）在处理复杂的视觉问答任务时，仍难以进行系统化和结构化的推理。大多数 VLM 直接从问题跳到答案，缺乏中间推理步骤的显式结构化。

现有痛点：Chain-of-Thought（CoT）提示虽然能引导模型"一步一步思考"，但这种方式依赖外部提示工程，模型本身并没有内化系统推理的能力。具体来说：(1) 标准 CoT 的推理步骤是非结构化的自由文本，缺乏明确的阶段划分；(2) 模型无法自主决定何时进行视觉信息提取、何时进行逻辑推导；(3) 现有推理时缩放方法（如 beam search）作用于 token 级别，粒度太细，对长链推理效率低下。

核心矛盾：VLM 需要在"快速直觉回答"和"深度结构化推理"之间找到平衡。简单问题不需要深度推理，但复杂推理问题需要明确的认知阶段（先看懂题目、再理解图像、然后推理、最后得结论）。如何让模型自主掌握这种结构化推理流程是关键挑战。

本文目标：(1) 训练 VLM 自主进行多阶段结构化推理而非依赖外部提示；(2) 设计高效的推理时缩放方法利用多阶段结构。

切入角度：作者观察到人类解决复杂视觉推理问题时自然地经历"审题→看图→推理→结论"的认知过程。与其让模型输出自由格式的思维链，不如用结构化标签将这个过程显式编码，用标注数据教会模型这种推理范式。

核心 idea：构建 100k 结构化推理标注数据集让 VLM 学会自主分阶段推理（用 <SUMMARY> <CAPTION> <REASONING> <CONCLUSION> 标签），配合阶段级回溯搜索实现高效的测试时缩放。

方法详解¶

整体框架¶

LLaVA-CoT 基于 Llama-3.2-11B-Vision-Instruct 微调。训练数据是 LLaVA-CoT-100k 数据集，包含来自多个视觉问答数据集的样本，每个样本被标注为四阶段结构化推理链。模型被训练为给定图像和问题后，自主依次生成四个阶段的输出，每个阶段用特定标签包裹。推理时，可以直接让模型自主生成完整推理链（标准推理），也可以应用 SWIRES 方法在每个阶段进行多次采样和最优选择（测试时缩放）。

关键设计¶

LLaVA-CoT-100k 结构化推理数据集:
- 功能：为 VLM 提供结构化推理的训练信号
- 核心思路：从多个 VQA 数据源（如 ShareGPT4V、ChartQA、GeoQA+、A-OKVQA、ScienceQA 等）采集样本，利用 GPT-4o 为每个样本生成四阶段结构化标注。四个阶段分别是：(a) Summary（<SUMMARY>）——概括问题和解题策略；(b) Caption（<CAPTION>）——描述图像中与问题相关的视觉信息；(c) Reasoning（<REASONING>）——基于视觉信息进行多步逻辑推理；(d) Conclusion（<CONCLUSION>）——给出最终答案。所有标注使用结构化标签显式划分，使模型在训练时学到"何时该看图、何时该推理"的元认知能力。数据量仅 100k 但覆盖面广。
- 设计动机：与传统 CoT 数据不同，这里的推理不是自由格式的，而是有明确阶段划分的。这种结构让模型学到的不仅是"怎么推理"，还有"推理流程怎么组织"。
阶段级回溯搜索（Stage-Wise Retracing Search, SWIRES）:
- 功能：在推理时通过阶段级多次采样和回溯实现测试时缩放
- 核心思路：在每个推理阶段（Summary / Caption / Reasoning / Conclusion），模型生成多个候选输出。然后利用一个评估策略（如自一致性或置信度评分）选择该阶段的最优候选，再将其作为下一阶段的输入继续生成。如果某阶段所有候选都不够好，可以回溯到前一阶段重新采样——这就是"retracing"。与标准 beam search 在 token 级搜索不同，SWIRES 在阶段级搜索，搜索空间大幅缩小（4 个阶段 vs 数百个 token），同时每次搜索单元的语义量更大、评估更可靠。
- 设计动机：标准 beam search 对长序列生成效率极低，因为搜索空间呈指数爆炸。SWIRES 利用了推理的天然阶段结构，将搜索从 token 级提升到阶段级，在保持效果的同时大幅降低计算量。
自主多阶段推理机制:
- 功能：使模型无需外部提示即可自发进行结构化推理
- 核心思路：通过微调，模型内化了<SUMMARY>→<CAPTION>→<REASONING>→<CONCLUSION>的推理流程。在推理时，模型收到图像和问题后，自动首先生成 Summary 标签及其内容，标明解题计划；然后生成 Caption 标签描述视觉观察；接着生成 Reasoning 标签进行多步推理；最终生成 Conclusion 给出答案。这种固定的阶段顺序不是通过 prompt engineering 实现的，而是通过训练数据让模型自主习得的行为模式。
- 设计动机：外部 CoT 提示不稳定且需要人工设计。将结构化推理内化为模型的自然行为，使得推理过程更可靠、可解释，且每个阶段的输出可以独立评估和改进。

损失函数 / 训练策略¶

使用 Llama-3.2-11B-Vision-Instruct 作为基座模型，在 LLaVA-CoT-100k 上进行全参数微调。训练使用 FSDP（Fully Sharded Data Parallel），8 卡并行，学习率 \(10^{-5}\)，3 个 epoch，batch size 4/卡。训练框架基于 Meta 的 llama-recipes。

实验关键数据¶

主实验¶

在六个多模态推理基准上的对比（准确率 %）：

模型	MMStar	MMBench	MMVet	MathVista	AI2D	平均
Llama-3.2-11B (base)	49.8	65.8	57.6	48.6	77.0	—
GPT-4o-mini	54.8	76.9	—	52.4	77.8	—
Gemini-1.5-pro	57.6	73.9	—	57.7	79.1	—
Llama-3.2-90B-Instruct	56.2	78.3	—	58.3	78.9	—
LLaVA-CoT (11B)	57.6	73.8	60.8	54.8	85.0	—
LLaVA-CoT + SWIRES	59.2	75.1	62.3	57.2	86.4	—

LLaVA-CoT 仅 11B 参数，基于 100k 训练数据和 SWIRES 缩放，即超越了 90B 的 Llama-3.2 和闭源的 Gemini-1.5-pro、GPT-4o-mini。相比基座模型平均提升约 9.4%。

消融实验¶

配置	MMStar	MathVista	AI2D	说明
LLaVA-CoT (Full)	57.6	54.8	85.0	完整四阶段推理
w/o Summary 阶段	55.8	52.3	83.1	缺少审题规划
w/o Caption 阶段	56.1	53.1	82.8	缺少视觉解读
w/o Reasoning 阶段	50.2	47.5	78.2	缺少逻辑推理（退化最严重）
直接回答（无CoT）	49.8	48.6	77.0	基座模型水平
Standard beam search	58.0	55.5	85.8	Token级搜索，计算量大
SWIRES	59.2	57.2	86.4	阶段级搜索，更高效更准确

关键发现¶

Reasoning 阶段是最关键的，去除后性能退化最严重（回落到接近基座模型水平）
Summary 和 Caption 阶段虽然改进幅度较小但不可或缺——它们为 Reasoning 提供了结构化的输入信息
SWIRES 相比 standard beam search 在性能和效率上双赢：准确率更高（因为语义级评估更可靠），计算量更少（阶段级搜索空间远小于 token 级）
仅 100k 训练数据就能获得显著推理能力提升，说明结构化推理标注的数据效率极高
在 MathVista（数学推理）和 AI2D（图表理解）等需要深度推理的题目上提升最显著

亮点与洞察¶

结构化推理标签是一个简单但极具洞察力的设计：仅通过四个标签将自由格式 CoT 组织为有明确职责的阶段。这种方法几乎不增加训练复杂度，但让模型学到了"元认知"能力——知道何时观察、何时推理、何时总结。该方法可以迁移到任何多步推理任务。
SWIRES 将搜索从 token 级提升到语义级：这是对 inference-time scaling 方向的一个重要贡献。传统 beam search 在 token 级别搜索，粒度太细且搜索空间巨大。SWIRES 利用任务的天然阶段结构进行粗粒度搜索，思路简洁但效果突出。
100k 数据量的高效微调：说明"数据质量 >> 数据量"——结构化的高质量推理标注比海量但无结构的数据更有效。这个经验对资源有限的研究者很有启发。

局限与展望¶

四阶段的固定顺序可能不适合所有任务——某些问题可能需要"看图→推理→再看图"的迭代过程
SWIRES 的阶段级评估策略尚较简单（自一致性），更复杂的评估函数可能进一步提升效果
基座模型限于 Llama-3.2-11B-Vision，在更大模型或其他架构上的效果有待验证
训练数据依赖 GPT-4o 标注，存在标注质量上限和成本问题
未探索动态阶段数——某些简单问题可能只需两步，复杂问题可能需要六步
可以进一步结合 reward model 进行强化学习，从 SWIRES 的搜索结果中学习更好的推理策略

评分¶

新颖性: ⭐⭐⭐⭐ 结构化推理阶段和SWIRES搜索都是新颖的，但idea本身简洁清晰而非复杂
实验充分度: ⭐⭐⭐⭐ 六个基准全面对比，消融充分，但缺少更多模型规模的验证
写作质量: ⭐⭐⭐⭐⭐ 论文写作清晰易懂，demo展示说服力强，开源完善
价值: ⭐⭐⭐⭐⭐ 开源多模态推理方向的标杆工作，100k数据+11B模型即超越闭源大模型，实用价值极高