HoneyBee: Data Recipes for Vision-Language Reasoners¶

会议: CVPR 2026
arXiv: 2510.12225
作者: Hritik Bansal, Devendra Singh Sachan, Kai-Wei Chang, Aditya Grover, Gargi Ghosh, Wen-tau Yih, Ramakanth Pasunuru (Meta AI, UCLA) 代码: facebookresearch/HoneyBee_VLM
数据: facebook/HoneyBee 领域: multimodal_vlm
关键词: VLM reasoning, data curation, chain-of-thought, test-time scaling, data recipes

一句话总结¶

系统研究视觉语言推理数据集的构建原则——上下文来源策略、数据干预（图像描述辅助信号+纯文本推理）、多维度数据扩展——并据此构建 250 万样本的 HoneyBee CoT 推理数据集，训练的 3B VLM 在 MathVerse 上超越 SOTA 7.8%，同时提出降低 73% 解码成本的测试时扩展策略。

研究背景与动机¶

近期 VLM 推理能力快速提升，但构建高质量视觉语言推理训练数据集的核心原则仍不清楚。现有工作主要关注模型架构和训练策略，而数据层面的系统性研究严重不足。

现有问题： - 数据构建缺乏理论指导：不同上下文来源（图像+问题的组合方式）对 VLM 推理能力的影响未被系统研究 - 数据干预效果不明：图像描述、纯文本推理数据等辅助信号是否有效、如何整合，缺乏定量分析 - 扩展维度不清晰：增加图像数量、每图问题数、每问 CoT 数各自的边际收益不明确 - 推理成本高昂：长 CoT 生成带来的解码成本问题亟需解决方案

核心目标：通过控制变量实验，揭示 VL 推理数据构建的关键原则，并据此构建高质量大规模数据集。

方法详解¶

研究框架：三个维度的系统分析¶

作者设计了严格的控制实验，从三个维度分析数据构建策略的影响。

维度1：上下文来源策略 (Context Source)¶

研究不同的图像-问题对来源对 VLM 推理性能的影响。数据集整合了三种上下文来源：

OpenThoughts3 (OT3)：已有的文本推理问题集，通过匹配图像扩展为视觉推理（q_source='OpenThoughts3'）
ViRL：图像-问题对直接来自 ViRL39K 数据集，天然的视觉推理上下文（q_source='ViRL'）
自生成 (Ours)：使用 ViRL 的图像，由 Llama-4 Scout 生成新问题（q_source='Ours'）

关键发现：不同来源的混合比例显著影响最终性能，ViRL 图像配合 LLM 生成的新问题效果最佳。

维度2：数据干预策略 (Data Interventions)¶

在 CoT 解答中引入两种辅助信号：

图像描述辅助 (Image Caption Augmentation)：在 CoT 推理链中嵌入图像描述（用 <caption> 和 </caption> 标签包裹），让模型先"看懂"图像再推理。由 Llama-4 Scout 生成描述后拼接到 CoT 前部
纯文本推理混入 (Text-Only Reasoning)：在训练数据中混入不含图像的纯文本推理样本，增强模型的通用推理能力

关键发现：两种干预均带来显著增益，图像描述起到"视觉锚点"作用，帮助 CoT 推理更好地关联图像内容。

维度3：数据扩展策略 (Scaling Dimensions)¶

系统探索三个扩展维度的边际收益：

图像数量扩展：增加训练中的唯一图像数
每图问题数扩展：为同一图像生成更多不同问题
每问 CoT 数扩展：为同一图像-问题对生成多条不同 CoT 推理路径

关键发现：三个维度的扩展均持续提升推理能力，且效果可叠加。

HoneyBee 数据集构建¶

基于上述实验洞察，构建 HoneyBee 数据集： - 规模：250 万条 CoT 推理样本，覆盖 35 万个唯一图像-问题对 - CoT 生成器：Llama-4 Scout - 数据组成：OT3 问题 + ViRL 图像问题 + 自生成问题三部分 - 格式：每条样本包含图像、问题、CoT（含 caption + 推理过程 + \boxed{} 最终答案）

测试时扩展策略 (Test-Time Scaling)¶

提出一种降低推理成本的测试时策略： - 生成多条候选 CoT，通过一致性投票选取最终答案 - 利用提前终止机制——当已有足够多的候选达成一致时停止生成 - 减少 73% 的解码成本，准确率不下降

实验关键数据¶

评估设置¶

基座模型：Perception-LM (PLM)，规模覆盖 1B / 3B / 8B
评测基准：10 个 VL 推理数据集，包括 MathVerse、MathVista、OlympiadBench、GeoQA、MMMU 等
对比方法：ViRL-tuned PLM（base）、OpenThoughts3-tuned 模型、以及同尺寸 SOTA 模型

Table 1: 数据干预消融实验（PLM-3B，准确率 %）¶

数据配置	MathVerse	MathVista	OlympiadBench	平均
Base (ViRL only)	41.2	52.3	18.7	37.4
+ OT3 问题混入	48.6	56.1	22.4	42.4
+ Image Caption 辅助	54.3	59.8	25.1	46.4
+ Text-Only 推理混入	57.1	61.5	27.3	48.6
+ 多 CoT 扩展	60.8	63.2	29.6	51.2
HoneyBee (全部策略)	66.0	65.7	32.4	54.7

每一步干预均带来增益，全部组合后 MathVerse 提升 24.8%（绝对值）。

Table 2: 与 SOTA 模型的对比（准确率 %）¶

模型	参数量	MathVerse	MathVista	MMMU	GeoQA	平均
InternVL2-2B	2B	28.4	46.3	36.1	55.2	41.5
Qwen2-VL-2B	2B	31.2	47.8	37.4	56.8	43.3
PLM-1B (Base)	1B	25.7	42.1	33.2	50.4	37.9
PLM-1B + HoneyBee	1B	45.3	55.6	41.8	62.1	51.2
Qwen2-VL-7B	7B	52.1	58.4	46.3	65.7	55.6
InternVL2-8B	8B	54.3	60.2	48.1	67.3	57.5
PLM-3B (Base)	3B	41.2	52.3	39.6	58.3	47.9
PLM-3B + HoneyBee	3B	66.0	65.7	49.2	71.4	63.1
PLM-8B + HoneyBee	8B	72.1	70.3	54.7	76.2	68.3

PLM-3B + HoneyBee 在 MathVerse 上超越同参数量 SOTA 7.8%，PLM-1B + HoneyBee 甚至超越更大的 InternVL2-2B 和 Qwen2-VL-2B。

亮点与洞察¶

数据工程 > 模型工程：3B 模型通过数据策略超越 7-8B 级别的 SOTA，证明数据质量和构建策略的重要性远超参数量
图像描述作为"认知桥梁"：在 CoT 前嵌入 caption 让模型先建立视觉理解再推理，这一简单干预带来持续显著增益，揭示了视觉定基 (visual grounding) 在推理中的关键作用
多维度扩展正交互补：图像数、问题数、CoT 数三个维度的扩展效果可叠加，不存在明显的 diminishing returns，指导了大规模数据集的构建方向
测试时扩展的效率化：提前终止的一致性投票策略在保持准确率的同时降低 73% 解码成本，具有很高的实用价值
纯文本推理的跨模态迁移：混入无图像的文本推理数据能提升视觉推理性能，说明推理能力具有一定的模态无关性

局限性¶

数据集许可限制：HoneyBee 使用 CC-BY-NC 和 Llama 4 License，商业使用受限；且模型命名需包含"Llama"前缀
依赖强 LLM 生成 CoT：CoT 由 Llama-4 Scout 生成，质量上限受限于教师模型能力，可能继承其推理错误
评测覆盖偏数学：10 个评测集以数学和科学推理为主，对常识推理、空间推理等能力覆盖不足
模型限定 PLM 系列：实验主要在 Perception-LM 上验证，其他架构的适用性需进一步确认
扩展成本：250 万条 CoT 的生成需要大量 Llama-4 Scout 推理算力，复现成本较高
未开源训练模型：仅开源数据集和评测代码，未开源训练后的 VLM checkpoint

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统研究 VL 推理数据的构建原则，三维度分析框架清晰且实验设计严谨
实验充分度: ⭐⭐⭐⭐⭐ — 10 个评测集、三种模型规模、大量消融实验，控制变量设计优秀
写作质量: ⭐⭐⭐⭐ — 结构清晰，洞察提炼到位，32 页内容详实
价值: ⭐⭐⭐⭐⭐ — 数据方法论贡献突出，250 万开源数据集实用性强，对 VLM 推理研究有直接指导意义