CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving¶
会议: ICLR 2026
arXiv: 2601.01874
代码: https://shchen233.github.io/cogflow/
领域: 多模态VLM
关键词: 视觉数学推理, 知识内化, GRPO, 感知-推理对齐, 认知启发
一句话总结¶
CogFlow 提出认知启发的三阶段视觉数学推理框架(感知→内化→推理),通过 Synergistic Visual Rewards 增强感知、Knowledge Internalization Reward 桥接感知与推理、Visual-Gated Policy Optimization 锚定视觉推理,解决了现有方法中"感知正确但推理漂移"的核心问题。
研究背景与动机¶
- 领域现状:MLLM 在视觉数学题上表现不佳。早期"一步推理"框架将感知和推理混为一谈;后来的"解耦推理"管线将两者分开但各自优化。
- 现有痛点:
- 一步框架(VLM-R1)产生非结构化推理,感知和推理错误交织
- 解耦管线(MathFlow)虽然改善了感知,但推理阶段经常忽视感知结果——产生"reasoning drift"(推理漂移)
- 关键问题被所有前人忽视:提取出的视觉线索是否被忠实地整合到后续推理中?
- 核心矛盾:感知准确不代表推理正确——模型可能看对了图但推理时走了捷径,产生看似合理但视觉上无根据的推理链
- 本文要解决什么?
- 如何确保感知结果被忠实转化为可推理的知识表示?
- 如何在 RL 训练中显式地将推理锚定在感知结果上?
- 切入角度:认知科学中的"知识内化"——人类推理不是从感知直接跳到结论,而是先将感知信息转化为结构化知识(如"AB 是直径 + C 在圆上 → ∠ACB = 90°"),再基于此推理。
- 核心idea一句话:在感知和推理之间插入"知识内化"阶段,用专门的 reward model 检测推理是否忠于感知,用 visual gate 过滤低质量感知后再推理。
方法详解¶
整体框架¶
三阶段认知流:❶感知(用 Synergistic Visual Rewards 增强)→ ❷内化(用 Knowledge Internalization Reward 桥接)→ ❸推理(用 Visual-Gated Policy Optimization 锚定)。训练分 SFT + RL 两阶段。
关键设计¶
- Synergistic Visual Rewards (SynVRs):
- 做什么:从参数空间和语义空间双重评估感知质量
- 核心思路:
- VPR:将几何图元转为参数方程,用匈牙利匹配 + 欧氏距离在参数空间精确评分
- VSR:从文本感知输出重新渲染图像,用 FG-CLIP 与原图计算余弦相似度评估全局布局一致性
- 最终分数 \(\mathcal{S}_{SynVRs} = \alpha \cdot \mathcal{S}_{VPR} + (1-\alpha) \cdot \mathcal{S}_{VSR}\)
-
设计动机:VPR 保证局部几何精度,VSR 保证全局感知一致性;两者互补避免单一指标的盲区
-
Knowledge Internalization Reward (IntlzR):
- 做什么:训练一个奖励模型检测推理是否忠于感知
- 核心思路:构造正-负轨迹对(1正+5负),负样本覆盖 5 种典型失败模式(遗漏图元、捏造事实、滥用定理、违反几何约束、不一致引用)。用 Softmax-DPO 训练:\(\mathcal{L} = -\log \sigma(-\log \sum_j \exp(s_j^- - s^+))\),同时对比一个正样本和多个负样本。
-
设计动机:现有方法只关注感知是否准确,忽视了感知结果是否被正确使用——IntlzR 填补了这个空白
-
Visual-Gated Policy Optimization (VGPO):
- 做什么:在 RL 训练和推理时过滤低质量感知后再生成推理
- 核心思路:对每个输入采样 M 条感知轨迹,用 \(S_{vis}\) 评分(训练时 VPR+VSR,推理时仅 VSR)。Visual Gate \(\Gamma\) 选择第一个超过阈值 \(\tau\) 的感知,或取最高分的。通过的感知才用于条件推理生成。
- 设计动机:防止低质量感知"污染"后续推理——即使 RL 优化推理能力,如果感知输入错误,推理再好也没用
损失函数 / 训练策略¶
- SFT 阶段:在 MathCog-SFT(120K+样本)上标准 SFT
- RL 阶段:三重奖励组合——SynVRs(感知质量)+ IntlzR(内化忠实度)+ InfR(答案正确性),基于 GRPO 优化
- MathCog 数据集:120K+ 感知-推理对齐的高质量标注
实验关键数据¶
主实验(视觉数学基准)¶
| 方法 | MathVista | GeoQA | MathCheck-Geo | 平均 |
|---|---|---|---|---|
| MathFlow (解耦) | 中等 | 中等 | 中等 | ~60% |
| VLM-R1 (一步) | 中等 | 较低 | 较低 | ~55% |
| CogFlow | 最高 | 最高 | 最高 | ~70%+ |
消融实验¶
| 配置 | 推理漂移精度↑ | 答案准确率↑ |
|---|---|---|
| w/o IntlzR | 73% | 基线 |
| w/o Visual Gate | 低 | -3% |
| w/o SynVRs | 低 | -5% |
| Full CogFlow | 92% | 最高 |
关键发现¶
- 推理漂移大幅降低:CogFlow 的推理漂移精度从 73%(MathFlow)提升到 92%——证明知识内化阶段有效
- 超越闭源大模型:在部分基准上匹敌或超越 GPT-4V/Claude-3.5(参数量远小于它们)
- 三重奖励缺一不可:去掉任何一个奖励组件都导致性能下降,IntlzR 对推理漂移影响最大
- Visual Gate 提升推理鲁棒性:过滤低质量感知后,推理准确率提升约 3%
亮点与洞察¶
- "知识内化"概念的引入填补了重要空白:之前所有方法都在优化"看得准"或"想得对",忽略了两者之间的桥梁。CogFlow 证明这个桥梁(内化)至关重要——它直接降低了 19% 的推理漂移。
- 5 种负样本分类法很实用:对推理漂移的 5 种失败模式的系统分类(遗漏图元、捏造事实、滥用定理、违反约束、不一致引用)为后续研究提供了分析框架。
- Visual Gate 的设计理念可迁移到其他多模态 RL 场景:在 RL 训练中主动过滤低质量中间输出再进行后续生成,这个"质量门控"思路适用于所有多阶段生成任务。
局限性 / 可改进方向¶
- 仅针对视觉数学推理,未测试自然图像理解/VQA 等场景
- IntlzR 训练需要精心构造的正负样本对,扩展到新领域需要重新设计
- Visual Gate 的阈值 \(\tau\) 需要手动设置,可能在不同任务间需要调整
- 三阶段管线增加了推理延迟(感知+内化+推理各需独立生成)
- MathCog 数据集主要覆盖几何题,代数和统计图表覆盖不足
相关工作与启发¶
- vs MathFlow (Chen et al.): 同为解耦管线但缺少内化阶段→推理漂移明显;CogFlow 的 IntlzR 有效解决
- vs VLM-R1 (Shen et al.): 一步框架无法结构化管理感知和推理;CogFlow 的三阶段明确分工
- vs OVR (Wei et al.): 也有两阶段多模态 RL,但缺乏感知-推理对齐的显式机制
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "知识内化"概念首次引入视觉推理,三阶段认知框架设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ 多基准、消融、推理漂移定量分析、与闭源模型对比
- 写作质量: ⭐⭐⭐⭐⭐ 认知科学动机清晰,图表设计精美,问题-方案对应明确
- 价值: ⭐⭐⭐⭐⭐ 120K 数据集 + 开源代码,对视觉推理方向有重要推动