LLaVA-CoT: Let Vision Language Models Reason Step-by-Step¶
会议: ICCV 2025
arXiv: 2411.10440
代码: https://github.com/PKU-YuanGroup/LLaVA-CoT
领域: 多模态VLM / 推理
关键词: VLM推理, Chain-of-Thought, 多阶段推理, test-time scaling, 结构化推理
一句话总结¶
通过构建包含结构化推理标注的LLaVA-CoT-100k数据集,训练VLM自主执行"总结→视觉解读→逻辑推理→结论"四阶段推理,配合测试时SWIRES搜索策略,11B模型超越GPT-4o-mini和Gemini-1.5-pro等大模型。
背景与动机¶
大语言模型在推理能力上已取得显著进步(如CoT prompting),但当前的视觉语言模型(VLM)在面对复杂视觉问答任务时,仍然难以进行系统性的结构化推理。传统的chain-of-thought提示方法对VLM效果有限,因为视觉信息的解读需要额外的结构化步骤。现有VLM通常直接从问题跳到答案,缺乏中间的系统性思考过程,这在涉及空间推理、科学计算、图表理解等复杂任务时表现尤为明显。
核心问题¶
如何让VLM自主地、系统性地进行多阶段推理?关键挑战在于:(1) 缺乏结构化推理的训练数据;(2) 需要一种方法让模型学会在不同推理阶段之间自然过渡;(3) 如何在推理时进一步提升推理质量(test-time scaling)。
方法详解¶
整体框架¶
LLaVA-CoT基于Llama-3.2-11B-Vision-Instruct进行微调。输入为图像和问题,模型自主生成四个阶段的推理过程,每个阶段用特殊标签包裹(如<SUMMARY>...</SUMMARY>),最终输出结论。整个推理过程是端到端生成的,不需要额外的prompt工程。
关键设计¶
- 四阶段结构化推理:模型被训练成自动产生四个推理阶段:
- Summary阶段:理解问题,明确需要做什么("What's the problem? What should I do?")
- Caption阶段:从图像中提取与问题相关的视觉信息("What can I know from the image?")
- Reasoning阶段:基于提取的信息进行逐步逻辑推理("How to solve the problem step-by-step?")
- Conclusion阶段:综合前面的分析给出最终答案
这种设计的核心洞察是:VLM需要先"看懂"图像再"想清楚"问题,而不是混在一起处理。
-
LLaVA-CoT-100k数据集构建:从多个开源VQA数据集采集图像和问题(ShareGPT4V 31.3k、ChartQA 17.2k、A-OKVQA 16.1k、AI2D 11.4k、GeoQA+ 11.4k、ScienceQA 5.6k等,共约98.6k样本),使用GPT-4o为每个样本生成四阶段的结构化推理标注。数据覆盖通用VQA和科学推理两大类。
-
SWIRES(Stage-Wise Retracing Search):测试时的阶段式回溯搜索策略,实现test-time scaling。在每个推理阶段结束后,模型可以生成多个候选答案,然后选择最优路径继续,类似于beam search但在推理阶段的粒度上进行。这使得模型在推理时可以通过增加计算量来提升准确率。
损失函数 / 训练策略¶
使用标准的自回归语言建模损失进行微调。训练配置:8卡并行,学习率1e-5,3个epoch,batch size 4,使用FSDP分布式训练。训练数据中的特殊标签(<SUMMARY>等)被视为普通token参与训练。
实验关键数据¶
| 数据集 | 指标 | LLaVA-CoT (11B) | Llama-3.2-90B-Vision | GPT-4o-mini | Gemini-1.5-pro |
|---|---|---|---|---|---|
| MMStar | Acc | 显著提升 | 低于LLaVA-CoT | 低于LLaVA-CoT | 低于LLaVA-CoT |
| MMBench | Acc | 显著提升 | 低于LLaVA-CoT | 低于LLaVA-CoT | 低于LLaVA-CoT |
| MathVista | Acc | 显著提升 | 低于LLaVA-CoT | 低于LLaVA-CoT | 低于LLaVA-CoT |
- 相比基座模型Llama-3.2-11B-Vision-Instruct,在6个多模态推理benchmark上平均提升9.4%
- 11B模型超越了8倍大的Llama-3.2-90B-Vision-Instruct以及闭源模型GPT-4o-mini和Gemini-1.5-pro
- SWIRES进一步带来额外的性能提升,且计算开销可控
消融实验要点¶
- 四阶段结构缺一不可:去掉Caption阶段或Reasoning阶段均导致显著性能下降
- 数据集规模重要,但100k已足够达到强效果
- SWIRES相比普通贪心解码和标准beam search更高效,在阶段粒度搜索比token粒度搜索更有效
亮点¶
- 小模型超大模型:仅11B参数,用100k训练数据就超越90B和闭源大模型,证明结构化推理的重要性远超规模
- 四阶段设计很直觉:Summary→Caption→Reasoning→Conclusion的流程模拟了人类解题的思维过程,特别是先看懂图再推理的分离设计
- SWIRES是一种通用的test-time scaling方法:在推理阶段粒度的搜索比token级别更高效,且可以灵活调控推理时间和精度的trade-off
- 数据集构建方法可复用:用GPT-4o生成结构化推理标注的pipeline可以迁移到其他推理任务
局限性 / 可改进方向¶
- 依赖GPT-4o生成训练数据,数据质量受限于GPT-4o的能力上限
- 四阶段的划分是固定的,某些简单问题不需要全部阶段(计算浪费)
- 目前仅在Llama-3.2-Vision上验证,其他VLM架构(如Qwen-VL、InternVL)的兼容性未探索
- SWIRES的搜索空间随阶段数增加指数增长,扩展到更多阶段可能需要更好的剪枝策略
与相关工作的对比¶
- vs. CoT prompting:传统CoT是通过prompt引导模型展示推理过程,LLaVA-CoT是通过训练让模型内化结构化推理能力,不需要复杂的prompt设计
- vs. LLaVA系列:保持了LLaVA的简洁架构,核心改进在训练数据的结构化标注,而非模型架构改变
- vs. o1-like模型:与OpenAI o1的思路类似(通过训练时间和推理时间计算提升推理能力),但在多模态领域的开源实现
启发与关联¶
- 结构化推理标注的方法可以启发其他VLM任务(如视觉定位、图像描述)的数据构建
- SWIRES的阶段级搜索思路可以与ideas/multimodal_vlm/中的推理验证相关idea结合
- test-time scaling在VLM中的有效性值得进一步探索
评分¶
- 新颖性: ⭐⭐⭐⭐ 四阶段推理的思路直觉且简单,但有效;SWIRES有巧思
- 实验充分度: ⭐⭐⭐⭐ 6个benchmark全面验证,消融实验充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,demo展示有说服力
- 价值: ⭐⭐⭐⭐⭐ 开源的多模态推理方案,影响力大(2.1k stars),实用性强