R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization¶

会议: ICCV 2025
arXiv: 2503.10615
代码: 无
领域: Reinforcement Learning / Multimodal Reasoning
关键词: 多模态推理, 跨模态形式化, 强化学习, 视觉语言模型, 推理基准

一句话总结¶

提出 R1-Onevision，通过跨模态推理管线将图像转换为形式化文本表示，结合 SFT + 基于规则的强化学习（GRPO）的两阶段后训练策略，显著提升视觉语言模型的多模态推理能力，在多个数学推理基准上超越 GPT-4o。

研究背景与动机¶

大语言模型在文本推理方面取得了显著进展（如 DeepSeek-R1），但多模态推理仍面临重大挑战。现有视觉语言模型在处理复杂推理任务时存在以下问题：

感知错误：如 DeepSeek-R1 依赖 GPT-4o 的不完整图像描述，导致推理基础错误

推理深度不足：如 Qwen2.5-VL 虽有强多模态能力但缺乏深层推理，最终无法解题

模板化推理的局限：LLaVA-CoT 等使用预定义思维结构，限制了灵活性和创造性

直接模仿的泛化问题：MAmmoTH-VL 等直接模仿标准答案，缺乏试错过程

此外，现有多模态推理基准（如 MathVision、MathVista）主要聚焦数学问题，缺乏覆盖多学科、多难度级别的综合评估。

方法详解¶

整体框架¶

R1-Onevision 框架包含三个部分：(1) 跨模态推理管线构建数据集；(2) SFT + RL 两阶段后训练策略；(3) R1-Onevision-Bench 综合推理基准。

关键设计¶

跨模态推理管线（Cross-Modal Reasoning Pipeline）: 将图像内容转换为形式化文本表示，使语言推理模型能精确处理视觉信息。针对不同图像类型采用差异化策略：
- 图表/流程图：GPT-4o 生成结构化表示（SPICE 电路、PlantUML 流程图、HTML 布局、CSV/JSON 表格）
- 自然场景：Grounding DINO 提取边界框 + GPT-4o 生成描述性 caption
- 纯文本图像：EasyOCR 提取文字+位置 + GPT-4o 重建文档
- 数学图像：GPT-4o 提供推理策略
- 推理过程生成：采用角色扮演（Role-Playing）策略，迭代回顾图像、精炼理解，使用 DeepSeek R1 在 LLaVA-OneVision 上生成推理过程
- 质量保证：GPT-4o 过滤不准确/不一致的 CoT 步骤
R1-Onevision 数据集: 共 155K 精心策划的样本，涵盖科学、数学、图表、通用场景。每个样本包含详细的分步推理标注。
两阶段后训练策略:
- SFT 阶段：在 R1-Onevision 数据集上微调 Qwen2.5-VL，培养连贯的推理模式和规范的输出格式（<think>...</think> 结构）
- RL 阶段：使用 GRPO（Group Relative Policy Optimization）在 CLEVR 数据集上进行强化学习，定义两种奖励：
  - 准确性奖励：通过正则表达式提取最终答案并与标准答案比对
  - 格式奖励：确保推理过程被正确包裹在 <think> 标签中
- GRPO 损失函数：\(\mathcal{L}_{\text{GRPO}}(\theta) = -\mathbb{E}[\min(\text{ratio}_t \cdot \text{Adv}_t, \text{clipped\_ratio}_t \cdot \text{Adv}_t) - \beta \cdot \text{KL}(\pi_\theta(y|x), \pi_{\text{ref}}(y|x))]\)

损失函数 / 训练策略¶

SFT：batch size 128，学习率 1e-5，训练 1 个 epoch
RL：在 CLEVR 的 10K 子集上训练 1 个 epoch
基座模型：Qwen2.5-VL-7B 和 Qwen2.5-VL-3B

实验关键数据¶

主实验¶

数学推理基准表现:

模型	MathVision	MathVerse(ALL)	MathVerse(Vision Only)	MathVista	WeMath
Qwen2.5-VL-7B (base)	25.4	43.6	38.2	63.7	61.0
GPT-4o	30.6	41.2	34.5	60.0	69.0
InternVL2.5-8B	17.1	35.6	22.8	64.5	53.8
LLaVA-CoT-11B	-	-	22.6	52.5	-
R1-Onevision-7B	29.9	46.4	40.0	64.1	61.8

R1-Onevision-Bench 结果（部分）:

模型	平均	初中	高中	大学	社会	数学	物理	化学	生物	推演
GPT-4o	49.6	51.3	56.2	45.3	26.5	41.3	52.5	71.4	63.4	26.5
Gemini-2.0-Flash	59.1	56.0	65.9	61.2	39.8	52.3	64.4	74.3	67.2	39.8
Qwen2.5-VL-7B	32.1	33.8	37.1	25.3	19.4	31.5	27.3	39.0	47.0	19.4
R1-Onevision-7B	36.2	40.1	39.5	27.6	26.5	33.0	30.2	49.5	53.0	26.5
Qwen2.5-VL-72B	52.0	54.3	56.7	54.1	23.5	48.9	55.8	63.8	63.4	23.5

消融实验¶

训练策略消融（基于 Qwen2.5-VL-7B）:

策略	MathVision	MathVerse	MathVerse (Vision Only)
Base	25.4	43.6	38.2
+SFT	26.3	43.4	39.7
+SFT+RL	29.9	46.4	40.0
RL only (无SFT)	28.0	-	-

模型规模消融（Qwen2.5-VL-3B）:

模型	MathVision	MathVerse	MathVerse (Vision Only)
Qwen2.5-VL-3B	21.7	34.7	31.2
R1-Onevision-3B	23.7	38.6	35.5

关键发现¶

R1-Onevision-7B 在 MathVerse 和 MathVista 上分别超越 GPT-4o 达 5.2% 和 4.1%
SFT 是 RL 的重要基础：SFT+RL 比仅 RL 在 MathVision 上高 1.9%
所有模型在推演（Deduction）类题目上表现普遍较差，无模型超过 40%
7B 模型经过后训练后显著缩小了与闭源大模型的差距
方法对 3B 和 7B 两种规模均有效，验证了可扩展性

亮点与洞察¶

跨模态形式化的核心思想：将图像转为结构化文本表示（如 SPICE、PlantUML），让语言推理模型能"看见"图像内容，巧妙地将视觉推理转化为文本推理
角色扮演推理策略：通过迭代回顾图像来模拟人类理解过程，比单次描述更准确
SFT + RL 的互补性：SFT 建立推理格式和基础能力，RL 进一步增强泛化性
R1-Onevision-Bench 的教育级别设计：按初中→高中→大学→社会考试分级，提供了直观的能力评估维度

局限与展望¶

推理过程生成依赖 GPT-4o 和 DeepSeek R1 等闭源模型，数据构建成本高
RL 阶段仅在 CLEVR 数据集（10K）上训练，规模有限
所有模型在推演类题目上表现不佳，说明逻辑推理能力仍是瓶颈
基准测试中 83.1% 为选择题，对开放性推理评估不足
形式化描述依赖 OCR 和检测模型的准确性，可能引入误差

评分¶

新颖性: ⭐⭐⭐⭐ 跨模态形式化管线和教育级别基准设计新颖
实验充分度: ⭐⭐⭐⭐ 多基准评估、训练策略消融、模型规模消融
写作质量: ⭐⭐⭐⭐ 框架清晰，图示丰富
价值: ⭐⭐⭐⭐ 数据集、模型和基准三位一体的贡献