MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification¶

属性	内容
标题	MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification
会议	ACL2025
arXiv	2502.13383
代码	github.com/Aurora-slz/MM-Verify
领域	LLM Reasoning / Multimodal Math
关键词	Multimodal Verification, Chain-of-Thought, MCTS, Reward Model, Math Reasoning

一句话总结¶

本文提出MM-Verifier和MM-Reasoner两个模型，通过模拟搜索+拒绝采样合成长链CoT验证数据、以及文本蒸馏合成多模态推理数据，仅7B参数即在MathVista上达到65.3%准确率超越GPT-4o（63.8%）和人类表现（60.3%）。

研究背景与动机¶

Test-Time Scaling的启示：在纯文本LLM中，结合外部慢思考和验证机制已被证明能增强多轮推理（如DeepSeek-R1、s1等）
多模态验证器的缺失：纯文本领域的自我批评（self-critic）方法在多模态模型中效果不佳（Table 6实验验证），亟需开发强大的多模态验证器
长链CoT推理数据的缺乏：纯文本领域已有Long CoT数据（如DeepSeek-R1），但多模态领域的数学问题大多不是Long CoT格式
两个核心挑战：
如何合成高质量的多模态验证数据来训练MM-Verifier？
如何高效合成多模态Long CoT推理数据来训练MM-Reasoner？

方法详解¶

Stage 1：基于模拟搜索的长链CoT MM-Verifier¶

数据源收集¶

从MATH360V中选取七个类别的问题作为源数据池：Geometry3K (33.84%)、Super-CLEVR (24.17%)、TabMWP (22.45%)、FigureQA (18.07%)、GEOS (1.48%)等，共59,772条。

模拟搜索算法（Simulation-based Search）¶

受MCTS启发但不直接使用传统MCTS（因为多模态模型难以生成可靠奖励）：

从根节点 $q_i$ 出发，为每个节点模拟 $k$ 个子节点
对每个子节点，模型基于当前路径直接生成答案： $$\text{Simulation Answer} = LLM\left(\bigoplus_{i=1}^{d-1} u_i\right)$$
重复 $l$ 次模拟，用正确率作为奖励信号
最终收集 $n$ 个叶节点的解答对 $\langle q_i, p_j^i \rangle$，作为正/负样本

该方法能生成比直接采样更长的CoT答案（Figure 3验证）。

长链CoT验证数据合成¶

用GPT-4o对每个 $\langle q_i, p_j^i \rangle$ 对进行"逐步验证"，生成验证文本 $v_i$
数据清洗：用LLaMA-3.2-3B-Instruct提取答案，检查两个条件：
- 若提取答案匹配golden label且验证结论为"正确" → 保留
- 若提取答案不匹配且验证结论为"不正确" → 保留
- 其他情况 → 丢弃
用清洗后数据 $D_{clean}$ 对Qwen2-VL-7B-Instruct做SFT → 得到MM-Verifier (Stage 1)

Stage 2：拒绝采样进一步增强验证¶

利用Stage 1的Verifier的长链CoT推理能力，生成更多验证数据
通过字符串匹配与正确答案比对做清洗
用过滤后的数据继续训练Stage 1模型 → 得到MM-Verifier (Stage 2)

关键优势：降低API成本（不再需要GPT-4o），同时进一步提升验证能力。

MM-Reasoner：跨模态知识蒸馏¶

核心思路：利用纯文本推理模型（Qwen-QwQ）的强推理能力，通过文本描述桥接多模态数据。

选择MAVIS-GEOMETRY数据集，该数据集包含几何图形绘图和对应的文本描述指令
将几何文本描述+原始问题输入纯文本推理模型QwQ
QwQ的输出作为训练MM-Reasoner的目标
过滤错误推理结果后，用于Qwen2-VL-7B-Instruct的SFT

数据统计：MM-Reasoner训练数据32,146条（全部来自MAVIS-Geo）。

实验¶

MM-Verifier性能：MathCheck Outcome-Judging¶

7B的MM-Verifier超越所有大模型（包括GPT-4o、Gemini、Claude）和72B开源模型（Figure 1）。

MathVista结果¶

方法	Sample 4 ALL	Sample 8 ALL	Sample 12 ALL
Qwen2-VL + Majority Voting	57.1	61.1	62.9
Qwen2-VL + Qwen2-VL-72B判断	53.4	56.2	55.7
Qwen2-VL + MM-Verifier(S2)	59.8	62.5	64.1
MM-Reasoner + Majority Voting	59.4	62.2	64.8
MM-Reasoner + MM-Verifier(S2)	61.5	65.3	65.2

关键发现： - MM-Verifier(S2) 在所有设置中一致超越Majority Voting和Qwen2-VL-72B判断 - MM-Reasoner + MM-Verifier(S2) Sample 12 达到 65.3%，超越GPT-4o (63.8%) 和人类 (60.3%) - Qwen2-VL-72B作为判断器在验证MM-Reasoner长输出时性能反而下降，说明传统模型难以验证长链CoT

MathVerse结果¶

MM-Verifier + MM-Reasoner 达到25.7%（ALL），超越Math-LLaVA-13B (22.9%)和LLaVA-OneVision (20.7%)。

最终综合对比¶

模型	MathVista ALL	MathVerse ALL
Human	60.3	64.9
GPT-4o	63.8	50.8
Qwen2-VL-7B	52.5	20.1
Math-LLaVA-13B	46.6	22.9
Ours (7B)	65.3	25.7

MM-Reasoner可扩展性¶

随训练数据从6,952条增加到32,146条，性能持续稳步提升（Figure 4），验证了数据合成方法的可扩展性。

Stage 1 vs Stage 2¶

Stage 2在几乎所有设置中都优于Stage 1，验证了拒绝采样进一步增强验证器的有效性。

亮点与洞察¶

7B超越GPT-4o和人类：在MathVista上用仅7B模型达到65.3%，超越GPT-4o (63.8%)和人类 (60.3%)，充分展示了Verifier+Reasoner组合的威力
巧妙的数据合成策略：模拟搜索生成长CoT → GPT-4o验证 → 拒绝采样自增强，形成了一个渐进式的数据质量提升管线
文本-多模态桥接：通过MAVIS的文本描述将纯文本推理模型的能力蒸馏到多模态模型，避免了昂贵的多模态树搜索
揭示大模型验证长输出的缺陷：Qwen2-VL-72B对MM-Reasoner的验证性能随样本增多反而下降，说明传统模型不具备验证长链CoT的能力
两阶段验证器设计：Stage 1用外部API保证质量，Stage 2用自身能力自举，成本逐步降低

局限性¶

资源限制：未能将MM-Verifier和MM-Reasoner扩展到72B规模
可扩展性测试有限：数据量测试仅到<100K样本
推理领域单一：主要聚焦数学推理，未验证在其他多模态推理任务（如科学推理、常识推理）上的效果
依赖外部模型：Stage 1需要GPT-4o生成验证文本，数据合成成本较高
MM-Reasoner数据来源单一：仅使用MAVIS-Geometry数据，领域覆盖有限

评分 ⭐⭐⭐⭐⭐¶

优点：结果非常惊艳（7B超越GPT-4o和人类）；数据合成流水线设计精巧且每一步都有充分的消融验证；提出了多模态领域验证器的新范式；代码开源。

不足：方法对外部API（GPT-4o）有一定依赖；MM-Reasoner的数据来源过于单一（仅几何题）；在非数学任务上的泛化性未知。