CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving¶

会议: ICLR 2026
arXiv: 2601.01874
代码: https://shchen233.github.io/cogflow/
领域: 多模态VLM
关键词: 视觉数学推理, 知识内化, GRPO, 感知-推理对齐, 认知启发

一句话总结¶

CogFlow 提出认知启发的三阶段视觉数学推理框架（感知→内化→推理），通过 Synergistic Visual Rewards 增强感知、Knowledge Internalization Reward 桥接感知与推理、Visual-Gated Policy Optimization 锚定视觉推理，解决了现有方法中"感知正确但推理漂移"的核心问题。

研究背景与动机¶

领域现状：MLLM 在视觉数学题上表现不佳。早期"一步推理"框架将感知和推理混为一谈；后来的"解耦推理"管线将两者分开但各自优化。
现有痛点：
一步框架（VLM-R1）产生非结构化推理，感知和推理错误交织
解耦管线（MathFlow）虽然改善了感知，但推理阶段经常忽视感知结果——产生"reasoning drift"（推理漂移）
关键问题被所有前人忽视：提取出的视觉线索是否被忠实地整合到后续推理中？
核心矛盾：感知准确不代表推理正确——模型可能看对了图但推理时走了捷径，产生看似合理但视觉上无根据的推理链
本文要解决什么？
如何确保感知结果被忠实转化为可推理的知识表示？
如何在 RL 训练中显式地将推理锚定在感知结果上？
切入角度：认知科学中的"知识内化"——人类推理不是从感知直接跳到结论，而是先将感知信息转化为结构化知识（如"AB 是直径 + C 在圆上 → ∠ACB = 90°"），再基于此推理。
核心idea一句话：在感知和推理之间插入"知识内化"阶段，用专门的 reward model 检测推理是否忠于感知，用 visual gate 过滤低质量感知后再推理。

方法详解¶

整体框架¶

三阶段认知流：❶感知（用 Synergistic Visual Rewards 增强）→ ❷内化（用 Knowledge Internalization Reward 桥接）→ ❸推理（用 Visual-Gated Policy Optimization 锚定）。训练分 SFT + RL 两阶段。

关键设计¶

Synergistic Visual Rewards (SynVRs):
做什么：从参数空间和语义空间双重评估感知质量
核心思路：
- VPR：将几何图元转为参数方程，用匈牙利匹配 + 欧氏距离在参数空间精确评分
- VSR：从文本感知输出重新渲染图像，用 FG-CLIP 与原图计算余弦相似度评估全局布局一致性
- 最终分数 \(\mathcal{S}_{SynVRs} = \alpha \cdot \mathcal{S}_{VPR} + (1-\alpha) \cdot \mathcal{S}_{VSR}\)
设计动机：VPR 保证局部几何精度，VSR 保证全局感知一致性；两者互补避免单一指标的盲区
Knowledge Internalization Reward (IntlzR):
做什么：训练一个奖励模型检测推理是否忠于感知
核心思路：构造正-负轨迹对（1正+5负），负样本覆盖 5 种典型失败模式（遗漏图元、捏造事实、滥用定理、违反几何约束、不一致引用）。用 Softmax-DPO 训练：\(\mathcal{L} = -\log \sigma(-\log \sum_j \exp(s_j^- - s^+))\)，同时对比一个正样本和多个负样本。
设计动机：现有方法只关注感知是否准确，忽视了感知结果是否被正确使用——IntlzR 填补了这个空白
Visual-Gated Policy Optimization (VGPO):
做什么：在 RL 训练和推理时过滤低质量感知后再生成推理
核心思路：对每个输入采样 M 条感知轨迹，用 \(S_{vis}\) 评分（训练时 VPR+VSR，推理时仅 VSR）。Visual Gate \(\Gamma\) 选择第一个超过阈值 \(\tau\) 的感知，或取最高分的。通过的感知才用于条件推理生成。
设计动机：防止低质量感知"污染"后续推理——即使 RL 优化推理能力，如果感知输入错误，推理再好也没用

损失函数 / 训练策略¶

SFT 阶段：在 MathCog-SFT（120K+样本）上标准 SFT
RL 阶段：三重奖励组合——SynVRs（感知质量）+ IntlzR（内化忠实度）+ InfR（答案正确性），基于 GRPO 优化
MathCog 数据集：120K+ 感知-推理对齐的高质量标注

实验关键数据¶

主实验（视觉数学基准）¶

方法	MathVista	GeoQA	MathCheck-Geo	平均
MathFlow (解耦)	中等	中等	中等	~60%
VLM-R1 (一步)	中等	较低	较低	~55%
CogFlow	最高	最高	最高	~70%+

消融实验¶

配置	推理漂移精度↑	答案准确率↑
w/o IntlzR	73%	基线
w/o Visual Gate	低	-3%
w/o SynVRs	低	-5%
Full CogFlow	92%	最高

关键发现¶

推理漂移大幅降低：CogFlow 的推理漂移精度从 73%（MathFlow）提升到 92%——证明知识内化阶段有效
超越闭源大模型：在部分基准上匹敌或超越 GPT-4V/Claude-3.5（参数量远小于它们）
三重奖励缺一不可：去掉任何一个奖励组件都导致性能下降，IntlzR 对推理漂移影响最大
Visual Gate 提升推理鲁棒性：过滤低质量感知后，推理准确率提升约 3%

亮点与洞察¶

"知识内化"概念的引入填补了重要空白：之前所有方法都在优化"看得准"或"想得对"，忽略了两者之间的桥梁。CogFlow 证明这个桥梁（内化）至关重要——它直接降低了 19% 的推理漂移。
5 种负样本分类法很实用：对推理漂移的 5 种失败模式的系统分类（遗漏图元、捏造事实、滥用定理、违反约束、不一致引用）为后续研究提供了分析框架。
Visual Gate 的设计理念可迁移到其他多模态 RL 场景：在 RL 训练中主动过滤低质量中间输出再进行后续生成，这个"质量门控"思路适用于所有多阶段生成任务。

局限性 / 可改进方向¶

仅针对视觉数学推理，未测试自然图像理解/VQA 等场景
IntlzR 训练需要精心构造的正负样本对，扩展到新领域需要重新设计
Visual Gate 的阈值 \(\tau\) 需要手动设置，可能在不同任务间需要调整
三阶段管线增加了推理延迟（感知+内化+推理各需独立生成）
MathCog 数据集主要覆盖几何题，代数和统计图表覆盖不足

评分¶

新颖性: ⭐⭐⭐⭐⭐ "知识内化"概念首次引入视觉推理，三阶段认知框架设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 多基准、消融、推理漂移定量分析、与闭源模型对比
写作质量: ⭐⭐⭐⭐⭐ 认知科学动机清晰，图表设计精美，问题-方案对应明确
价值: ⭐⭐⭐⭐⭐ 120K 数据集 + 开源代码，对视觉推理方向有重要推动