跳转至

Proof-of-Perception: 带组合共形保证的工具使用多模态推理

会议: CVPR 2026
arXiv: 2603.00324
代码: 待确认
领域: 多模态VLM / LLM推理 / 可靠性
关键词: 共形预测, 工具使用, 多模态推理, 不确定性, 可靠性保证

一句话总结

提出PoP框架将多模态推理建模为可执行DAG——每个感知/逻辑节点输出共形预测集提供逐步校准的不确定性,控制器在预算约束下按需调用更多工具扩展计算,在文档/图表/多图QA上优于CoT/ReAct/PoT基线。

背景与动机

多模态推理系统(Chain-of-Thought、ReAct、Program-of-Thought)在复杂视觉问答上取得了进展,但一个根本问题始终未解决:推理链中每一步的可靠性没有校准量化。模型可能在中间某步就出了错,错误沿推理链传播放大,最终得到看似自信实则错误的答案。此外,固定长度的推理管线要么计算浪费(简单问题也走完整流程),要么能力不足(困难问题步骤不够)。

核心问题

如何为多模态推理系统提供显式的、数学上有保证的可靠性证书?具体来说:(1)如何量化推理链中每一步的不确定性?(2)不确定性是否经过校准(即说80%置信就真的80%正确)?(3)能否基于逐步不确定性做智能的计算分配——低置信时多算,高置信时早停?传统softmax概率不具备这些性质,需要一个有理论保证的框架。

方法详解

整体框架

PoP将多模态推理建模为一个有向无环图(DAG),每个节点是一个感知操作(如OCR、物体检测)或逻辑操作(如比较、计数),节点之间的边表示数据依赖。整个图是可执行的——每个节点调用具体的工具/模型,并输出带共形保证的结果集。

关键设计

1. 共形集输出(Conformal Set Output) - 每个节点不输出单一答案,而是输出一个"共形预测集"——一组可能的答案 - 共形预测的核心保证:对于任意数据分布,真实答案以至少 \(1-\alpha\) 的概率落在预测集内 - 集合越大说明不确定性越高,集合缩小到1个元素说明很确信 - 这比softmax概率更可靠,不依赖模型校准

2. 组合共形保证(Compositional Conformal Guarantee) - 推理DAG中多个节点各自有共形保证,如何保证整体的可靠性? - 通过组合共形推理理论,将单节点 \(1-\alpha_i\) 保证组合为整体 \(1-\alpha\) 保证 - 误差预算在各节点间合理分配

3. 预算感知控制器(Budget-Aware Controller) - 轻量级控制器观察每个节点的共形集大小 - 如果当前集合太大(不确定性高),控制器触发额外工具调用来细化结果 - 如果集合已经很小(高确信),提前停止,节省计算 - 实现了按需计算分配:简单问题少调几个工具就够了,复杂问题自动增加计算量

损失函数/训练策略

  • 共形预测本身是免训练的统计框架,只需要一个小校准集来估计分位数阈值
  • 控制器的调度策略基于规则或轻量学习
  • 各节点使用现成的工具/模型(OCR、检测器、VLM等),不需要联合训练

实验关键数据

基准类型 PoP vs CoT/ReAct/PoT 计算效率
文档QA 性能提升 + 可靠性保证 按需分配,更高效
图表QA 性能提升 + 可靠性保证 简单图表计算量↓
多图QA 性能提升 + 可靠性保证 复杂问题计算量↑

消融实验要点

  • 共形集 vs softmax概率:共形集提供真正校准的不确定性,softmax在分布移动下失效
  • 有无控制器:没有预算控制的固定管线浪费大量计算在简单问题上
  • 校准集大小:几百个样本即可获得良好的共形保证

亮点 / 我学到了什么

  • 共形预测用在这个场景太合适了——它不要求任何分布假设,且保证是有限样本有效的
  • "逐步校准的不确定性"比"最终答案的置信度"有用得多——可以定位推理链的薄弱环节
  • 按需扩展工具调用的设计很实用:不是所有问题都需要调5个工具
  • 这是将统计学习理论(共形预测)与LLM工程实践(工具使用推理)优雅结合的典范

局限性 / 可改进方向

  • 组合共形保证需要将总误差预算\(\alpha\)分配给各节点,DAG越深越宽,每个节点分到的预算越小,共形集越大——可能在深层推理中退化为"什么都不确定"
  • 目前DAG结构可能是预定义或由LLM生成的,DAG结构本身的错误不在共形保证覆盖范围内
  • 实验规模相对小,能否扩展到更复杂的推理(如需要10+步的数学推理)?
  • 控制器的"多调一个工具"策略能否更智能——调哪个工具?

与相关工作的对比

  • vs ReAct/Toolformer等工具使用框架:PoP增加了可靠性保证维度,不只是"能用工具",而是"知道什么时候结果可信"
  • vs 共形预测在分类/回归上的应用:首次将组合共形推理用于多步工具调用推理
  • vs 不确定性估计方法(MC Dropout/Ensemble):共形预测是分布无关的,理论保证更强

与我的研究方向的关联

  • 可靠性保证对多模态感知系统至关重要,特别是自动驾驶/医疗等安全关键场景
  • 共形预测的思路可用于评估VLM的感知可靠性——不是问"答案对不对",而是"模型有多确信"
  • 按需计算分配的控制器设计思路可借鉴到自适应token压缩中

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 共形预测+多模态工具推理的首次组合,问题定义优秀
  • 实验充分度: ⭐⭐⭐⭐ — 多类QA基准验证,但规模可更大
  • 写作质量: ⭐⭐⭐⭐⭐ — 理论-实践结合紧密,叙述清晰
  • 对我的价值: ⭐⭐⭐⭐ — 可靠性框架思路有参考价值