VisDoT: Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought¶
日期: 2026-03-12
arXiv: 2603.11631
代码: 无
领域: 多模态VLM / 图表推理
关键词: chart understanding, decomposition of thought, visual reasoning, graphical perception, VQA
一句话总结¶
提出 VisDoT 框架,基于图形感知理论定义四类感知任务(Position/Length/Pattern/Extract),引入分解思维(DoT)提示将复杂视觉问题拆分为感知子问题→逻辑子问题的链式推理,微调 InternVL 在 ChartQA 上提升 11.2%,超越 GPT-4o,且零样本迁移到开放域 VQA 也有效。
研究背景与动机¶
-
领域现状: LVLM 在图表/图形理解上仍然薄弱——缺乏可靠检测视觉基元(颜色、位置、长度等)并与语义对齐的能力。
-
现有痛点: 现有 CoT 推理策略对文本推理有效,但对需要视觉定位的推理场景增益有限。用户查询不提及图例标签或轴名时,LVLM 性能严重下降。
-
核心 idea: 模拟人类图形解读的认知过程——先做视觉感知(识别位置、长度、图案),再做逻辑推理。将 VQA 重新定义为感知+逻辑的组合任务。
方法详解¶
整体框架¶
图表图像 + 问题 → DoT 提示引导 → Phase 1: 问题分解(感知子问题 + 逻辑子问题)→ Phase 2: 逐步求解 → 最终答案。
关键设计¶
-
四类感知任务(基于图形感知理论):
- Position: 沿公共尺度比较对象位置,是最准确的感知通道
- Length: 无畸变的视觉属性,作为位置的辅助线索
- Pattern: 链接图案线索到图例以区分类别
- Extract: 读取显式数值,类似 OCR
-
DoT(Decomposition of Thought)提示:
- 将 \(P(A|I,Q) = \sum P(\{Q_1^p,...,Q_n^l\}|Q) \cdot \prod P(A_i|I,Q_i,A_{<i})\)
- 强制感知子问题 \(Q^p\) 在逻辑子问题 \(Q^l\) 之前
- 每个子问题的答案依赖于图像和之前的答案,支持上下文感知的多步推理
-
VisDoTQA 数据集: 331,969 个 QA 对,GPT-4o 生成问题,LLaMA-3.2-90B 生成 DoT 答案
实验关键数据¶
主实验¶
| 模型 | ChartQA Avg | ChartQAPro Avg | VisDoTQA Avg |
|---|---|---|---|
| GPT-4o | 85.7 | 37.67 | 57.14 |
| Gemini-Flash-2.0 | 85.12 | 46.85 | 61.96 |
| InternVL-4B (baseline) | 75.08 | 17.81 | 34.20 |
| InternVL-4B + VisDoT | 86.28 | 31.91 | 67.40 |
消融实验¶
| 配置 | ChartQA | 说明 |
|---|---|---|
| CoT (传统链式思维) | 79.5% | 标准 CoT 效果有限 |
| DoT (感知→逻辑分解) | 86.3% | 分解为感知+逻辑显著提升 |
关键发现¶
- 4B 模型 + VisDoT 超越 GPT-4o(86.3% vs 85.7%)
- DoT 在 POPE (+1.43%) 和 MMMU (+2.2%) 等开放域 VQA 也有提升,说明感知-逻辑分离策略通用
- 感知优先(先做视觉定位再推理)是关键——移除感知优先约束性能下降
亮点与洞察¶
- 从认知心理学出发的感知任务定义非常有理论基础——Position/Length/Pattern/Extract 与人类图形解读认知对齐
- DoT vs CoT:CoT 只做文本推理,DoT 先做视觉感知再推理,从根本上解决了 CoT 在视觉任务上增益有限的问题
-
小模型(4B) + 正确训练策略可以超越大闭源模型
-
可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
局限性 / 可改进方向¶
- VisDoTQA 的生成依赖 GPT-4o,数据构建不完全开源
- 仅在图表/图形场景深入验证,其他视觉推理场景覆盖有限
- 四类感知任务是手动定义的,可能遗漏某些重要感知维度
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
-
更大规模和更多样化数据上的泛化能力需要进一步验证
-
消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入
评分¶
- 新颖性: ⭐⭐⭐⭐ DoT 和图形感知理论的结合是新颖贡献
- 实验充分度: ⭐⭐⭐⭐ 多 benchmark + CoT/DoT 对比 + 开放域验证
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰
- 价值: ⭐⭐⭐⭐ 对图表理解和通用视觉推理都有参考价值