HoneyBee: Data Recipes for Vision-Language Reasoners¶
会议: CVPR 2026
arXiv: 2510.12225
代码: https://huggingface.co/datasets/facebook/HoneyBee (数据集)
领域: 多模态VLM / 数据工程
关键词: VLM推理, CoT数据策划, 数据缩放, 视觉推理, 测试时缩放
一句话总结¶
系统性地研究了VL推理训练数据的设计空间(数据来源、干预策略、多维度缩放),基于洞察构建了250万样本的HoneyBee数据集,训练出的3B VLM在MathVerse上超越SOTA 7.8个百分点。
背景与动机¶
VLM在推理任务上的表现越来越依赖于高质量的CoT (Chain-of-Thought) 训练数据,但目前社区对"什么样的VL推理数据是好数据"缺乏系统性理解。现有工作(Math-LLaVA、LLaVA-CoT、R1-OneVision等)各用不同的数据来源、过滤策略和生成模型,无法公平比较各因素的独立贡献。同时,VL推理数据的缩放行为(该缩放图片数、问题数还是CoT数?)也从未被系统探索。
核心问题¶
如何系统性地理解并优化VL推理CoT数据集的构建过程?具体包括三个子问题:(1) 不同来源的图像-问题上下文对推理性能的影响有多大?(2) 哪些数据增强/过滤干预策略真正有效?(3) 数据在图像/问题/CoT三个维度的缩放行为是怎样的?
方法详解¶
整体框架¶
三阶段数据策划流水线:上下文策划(选择最佳数据源) → 数据干预(增强感知和推理能力) → 大规模缩放(沿多个数据轴扩展)。最终将所有发现整合为HoneyBee数据集(250万样本),用于SFT训练PLM系列VLM。
关键设计¶
-
上下文来源排名:固定CoT生成器(Llama-4-Scout)和训练流程,公平对比6个数据源(ViRL、Math-LLaVA、R1-OneVision等),每个限制50K样本。发现数据来源间性能差距高达11.4pp(ViRL最优 vs MMK12最差)。关键发现是混合数据源不如单一最优源——Top-2/Top-4混合反而性能下降。
-
数据干预策略筛选:测试了8种干预策略,分为感知增强(视觉扰动、文字丰富图像、感知冗余过滤、浅层感知过滤、Caption-and-Solve)和推理增强(纯文本推理数据、增加干扰项、长度过滤、难度均衡)。关键发现是大部分看似合理的策略反而降低性能,只有两个策略稳定有效:(a) Caption-and-Solve(在CoT前先生成图像描述作为辅助感知信号,+3.3pp);(b) 混入纯文本推理数据(OpenThoughts3 re-annotated,+7.5pp),同时实现跨模态推理迁移。
-
三维数据缩放:分别研究缩放图像数量、每图问题数(合成新问题)、每题CoT数量的效果。发现三个维度同时缩放都能持续提升性能,且在250万规模仍未饱和。最终流程:对39K真实图片生成16个CoT/题、14个合成新问题/图,经majority voting过滤后获得150万VL样本,加上104万纯文本推理样本。
损失函数 / 训练策略¶
标准SFT:最大化 \(\log p_\theta(C_j | I_j, Q_j)\),全参数微调PLM(含视觉编码器和LLM骨干)。训练5个epoch取最优checkpoint。后续可接一轮GRPO强化学习进一步提升(+1.9pp)。
实验关键数据¶
| 数据集 | 指标 | PLM-HoneyBee-3B | Qwen2.5-VL-3B | 提升 |
|---|---|---|---|---|
| Average (5 tasks) | Acc | 46.2 | 42.6 | +8.4pp |
| MathVerse | Acc | 42.8 | 35.0 | +22.3% |
| MathVista | Acc | 61.2 | 58.9 | +3.9% |
| MathVision | Acc | 29.9 | 23.7 | +26.2% |
| We-Math | Acc | 59.3 | 49.2 | +20.5% |
8B规模:PLM-HoneyBee-8B(49.8 avg)超越Qwen2.5-VL-7B-Instruct(48.5 avg),+2.7pp。 1B规模:PLM-HoneyBee-1B超越InternVL-3-1B-Instruct 28pp。
消融实验要点¶
- 数据来源选择影响巨大:最优源ViRL与最差源MMK12相差11.4pp,比任何干预策略的影响都大
- 大多数干预策略无效:视觉扰动(-1.6pp)、文字丰富图像(-1.3pp)、感知冗余过滤(-3.6pp)、难度均衡(-5.5pp)等均下降
- Caption-and-Solve的关键在于独立生成:图像描述和解题CoT分别独立生成(I→C, (I,Q)→S)效果最好
- 数据缩放未饱和:从50K到250K到2.5M,性能持续提升
- 共享Caption解码的测试时缩放:64次采样只需生成一次caption并共享,token数减少73%,性能不降
亮点¶
- 非常扎实的数据工程研究,风格类似OpenThoughts但聚焦在多模态领域,控制变量做得很好
- "大多数看似合理的数据增强策略其实无效"的发现对社区很有参考价值——不要想当然地做数据增强
- 共享Caption解码是一个非常实用的trick:训练时让模型先描述图片再解题,推理时复用描述,节省73%推理token
- 3B/8B模型实验的高度相关性(为小模型做数据选择可推广到大模型)是降低实验成本的好消息
局限性 / 可改进方向¶
- 仅关注数学推理类任务,对VQA、图像理解等通用VL任务的数据策划规律未探索
- 仅使用单一教师模型(Llama-4-Scout),不同教师模型是否有不同最优配方未知
- 单图场景,多图推理和视频推理的数据策划未涉及
- 数据来源排名可能依赖评估基准的选择,换一组evaluation可能排名不同
与相关工作的对比¶
- vs OpenThoughts: OpenThoughts (2025)系统研究了文本推理数据的设计空间,HoneyBee将同样理念扩展到多模态场景,加入了图像维度的缩放和感知增强策略
- vs LLaVA-CoT / R1-OneVision: 这些工作各自提出了VL推理数据集但缺乏公平对比,HoneyBee在统一框架下比较了这些数据源,发现ViRL最优
- vs Math-LLaVA / MAVIS: 关注特定数学视觉场景的数据构建,HoneyBee更全面地覆盖了多种来源和干预策略
启发与关联¶
- 与
ideas/llm_nlp/20260317_vlm_self_evolve.md(VLM自我进化) 高度相关:HoneyBee展示了教师→学生蒸馏的数据策划方法,而self-evolve聚焦无教师场景。HoneyBee的Section 10展示了自改进的初步结果(Llama-4-Scout用自己生成的HoneyBee数据训练获得+3.7pp),可作为self-evolve的baseline - Caption-and-Solve策略启发了一个通用思路:在推理前先做显式的视觉描述,这可能对其他VL任务(如VL导航、具身智能)同样有效
- 数据缩放三维度的发现可用于指导其他多模态数据集的构建
评分¶
- 新颖性: ⭐⭐⭐⭐ 方法论本身不新(数据工程+scaling),但系统性的实验设计和反直觉发现有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 极其充分,多模型、多数据集、多策略的全面对比,控制变量严格
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,图表精良,实验设置透明,是数据工程论文的范本
- 价值: ⭐⭐⭐⭐⭐ 对VL推理数据研究有很强的指导意义,数据集开源且规模大