HoneyBee: Data Recipes for Vision-Language Reasoners¶

会议: CVPR 2026
arXiv: 2510.12225
代码: https://huggingface.co/datasets/facebook/HoneyBee (数据集)
领域: 多模态VLM / 数据工程
关键词: VLM推理, CoT数据策划, 数据缩放, 视觉推理, 测试时缩放

一句话总结¶

系统性地研究了VL推理训练数据的设计空间（数据来源、干预策略、多维度缩放），基于洞察构建了250万样本的HoneyBee数据集，训练出的3B VLM在MathVerse上超越SOTA 7.8个百分点。

背景与动机¶

VLM在推理任务上的表现越来越依赖于高质量的CoT (Chain-of-Thought) 训练数据，但目前社区对"什么样的VL推理数据是好数据"缺乏系统性理解。现有工作（Math-LLaVA、LLaVA-CoT、R1-OneVision等）各用不同的数据来源、过滤策略和生成模型，无法公平比较各因素的独立贡献。同时，VL推理数据的缩放行为（该缩放图片数、问题数还是CoT数？）也从未被系统探索。

核心问题¶

如何系统性地理解并优化VL推理CoT数据集的构建过程？具体包括三个子问题：(1) 不同来源的图像-问题上下文对推理性能的影响有多大？(2) 哪些数据增强/过滤干预策略真正有效？(3) 数据在图像/问题/CoT三个维度的缩放行为是怎样的？

方法详解¶

整体框架¶

三阶段数据策划流水线：上下文策划（选择最佳数据源） → 数据干预（增强感知和推理能力） → 大规模缩放（沿多个数据轴扩展）。最终将所有发现整合为HoneyBee数据集（250万样本），用于SFT训练PLM系列VLM。

关键设计¶

上下文来源排名：固定CoT生成器（Llama-4-Scout）和训练流程，公平对比6个数据源（ViRL、Math-LLaVA、R1-OneVision等），每个限制50K样本。发现数据来源间性能差距高达11.4pp（ViRL最优 vs MMK12最差）。关键发现是混合数据源不如单一最优源——Top-2/Top-4混合反而性能下降。
数据干预策略筛选：测试了8种干预策略，分为感知增强（视觉扰动、文字丰富图像、感知冗余过滤、浅层感知过滤、Caption-and-Solve）和推理增强（纯文本推理数据、增加干扰项、长度过滤、难度均衡）。关键发现是大部分看似合理的策略反而降低性能，只有两个策略稳定有效：(a) Caption-and-Solve（在CoT前先生成图像描述作为辅助感知信号，+3.3pp）；(b) 混入纯文本推理数据（OpenThoughts3 re-annotated，+7.5pp），同时实现跨模态推理迁移。
三维数据缩放：分别研究缩放图像数量、每图问题数（合成新问题）、每题CoT数量的效果。发现三个维度同时缩放都能持续提升性能，且在250万规模仍未饱和。最终流程：对39K真实图片生成16个CoT/题、14个合成新问题/图，经majority voting过滤后获得150万VL样本，加上104万纯文本推理样本。

损失函数 / 训练策略¶

标准SFT：最大化 \(\log p_\theta(C_j | I_j, Q_j)\)，全参数微调PLM（含视觉编码器和LLM骨干）。训练5个epoch取最优checkpoint。后续可接一轮GRPO强化学习进一步提升（+1.9pp）。

实验关键数据¶

数据集	指标	PLM-HoneyBee-3B	Qwen2.5-VL-3B	提升
Average (5 tasks)	Acc	46.2	42.6	+8.4pp
MathVerse	Acc	42.8	35.0	+22.3%
MathVista	Acc	61.2	58.9	+3.9%
MathVision	Acc	29.9	23.7	+26.2%
We-Math	Acc	59.3	49.2	+20.5%

8B规模：PLM-HoneyBee-8B（49.8 avg）超越Qwen2.5-VL-7B-Instruct（48.5 avg），+2.7pp。 1B规模：PLM-HoneyBee-1B超越InternVL-3-1B-Instruct 28pp。

消融实验要点¶

数据来源选择影响巨大：最优源ViRL与最差源MMK12相差11.4pp，比任何干预策略的影响都大
大多数干预策略无效：视觉扰动(-1.6pp)、文字丰富图像(-1.3pp)、感知冗余过滤(-3.6pp)、难度均衡(-5.5pp)等均下降
Caption-and-Solve的关键在于独立生成：图像描述和解题CoT分别独立生成(I→C, (I,Q)→S)效果最好
数据缩放未饱和：从50K到250K到2.5M，性能持续提升
共享Caption解码的测试时缩放：64次采样只需生成一次caption并共享，token数减少73%，性能不降

亮点¶

非常扎实的数据工程研究，风格类似OpenThoughts但聚焦在多模态领域，控制变量做得很好
"大多数看似合理的数据增强策略其实无效"的发现对社区很有参考价值——不要想当然地做数据增强
共享Caption解码是一个非常实用的trick：训练时让模型先描述图片再解题，推理时复用描述，节省73%推理token
3B/8B模型实验的高度相关性（为小模型做数据选择可推广到大模型）是降低实验成本的好消息

局限性 / 可改进方向¶

仅关注数学推理类任务，对VQA、图像理解等通用VL任务的数据策划规律未探索
仅使用单一教师模型（Llama-4-Scout），不同教师模型是否有不同最优配方未知
单图场景，多图推理和视频推理的数据策划未涉及
数据来源排名可能依赖评估基准的选择，换一组evaluation可能排名不同

与相关工作的对比¶

vs OpenThoughts: OpenThoughts (2025)系统研究了文本推理数据的设计空间，HoneyBee将同样理念扩展到多模态场景，加入了图像维度的缩放和感知增强策略
vs LLaVA-CoT / R1-OneVision: 这些工作各自提出了VL推理数据集但缺乏公平对比，HoneyBee在统一框架下比较了这些数据源，发现ViRL最优
vs Math-LLaVA / MAVIS: 关注特定数学视觉场景的数据构建，HoneyBee更全面地覆盖了多种来源和干预策略

启发与关联¶

与 ideas/llm_nlp/20260317_vlm_self_evolve.md (VLM自我进化) 高度相关：HoneyBee展示了教师→学生蒸馏的数据策划方法，而self-evolve聚焦无教师场景。HoneyBee的Section 10展示了自改进的初步结果（Llama-4-Scout用自己生成的HoneyBee数据训练获得+3.7pp），可作为self-evolve的baseline
Caption-and-Solve策略启发了一个通用思路：在推理前先做显式的视觉描述，这可能对其他VL任务（如VL导航、具身智能）同样有效
数据缩放三维度的发现可用于指导其他多模态数据集的构建

评分¶

新颖性: ⭐⭐⭐⭐ 方法论本身不新（数据工程+scaling），但系统性的实验设计和反直觉发现有价值
实验充分度: ⭐⭐⭐⭐⭐ 极其充分，多模型、多数据集、多策略的全面对比，控制变量严格
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，图表精良，实验设置透明，是数据工程论文的范本
价值: ⭐⭐⭐⭐⭐ 对VL推理数据研究有很强的指导意义，数据集开源且规模大