Proof-of-Perception: 带组合共形保证的工具使用多模态推理¶

会议: CVPR 2026
arXiv: 2603.00324
代码: 待确认
领域: 多模态VLM / LLM推理 / 可靠性
关键词: 共形预测, 工具使用, 多模态推理, 不确定性, 可靠性保证

一句话总结¶

提出PoP框架将多模态推理建模为可执行DAG——每个感知/逻辑节点输出共形预测集提供逐步校准的不确定性，控制器在预算约束下按需调用更多工具扩展计算，在文档/图表/多图QA上优于CoT/ReAct/PoT基线。

背景与动机¶

多模态推理系统（Chain-of-Thought、ReAct、Program-of-Thought）在复杂视觉问答上取得了进展，但一个根本问题始终未解决：推理链中每一步的可靠性没有校准量化。模型可能在中间某步就出了错，错误沿推理链传播放大，最终得到看似自信实则错误的答案。此外，固定长度的推理管线要么计算浪费（简单问题也走完整流程），要么能力不足（困难问题步骤不够）。

核心问题¶

如何为多模态推理系统提供显式的、数学上有保证的可靠性证书？具体来说：（1）如何量化推理链中每一步的不确定性？（2）不确定性是否经过校准（即说80%置信就真的80%正确）？（3）能否基于逐步不确定性做智能的计算分配——低置信时多算，高置信时早停？传统softmax概率不具备这些性质，需要一个有理论保证的框架。

方法详解¶

整体框架¶

PoP将多模态推理建模为一个有向无环图（DAG），每个节点是一个感知操作（如OCR、物体检测）或逻辑操作（如比较、计数），节点之间的边表示数据依赖。整个图是可执行的——每个节点调用具体的工具/模型，并输出带共形保证的结果集。

关键设计¶

1. 共形集输出（Conformal Set Output） - 每个节点不输出单一答案，而是输出一个"共形预测集"——一组可能的答案 - 共形预测的核心保证：对于任意数据分布，真实答案以至少 \(1-\alpha\) 的概率落在预测集内 - 集合越大说明不确定性越高，集合缩小到1个元素说明很确信 - 这比softmax概率更可靠，不依赖模型校准

2. 组合共形保证（Compositional Conformal Guarantee） - 推理DAG中多个节点各自有共形保证，如何保证整体的可靠性？ - 通过组合共形推理理论，将单节点 \(1-\alpha_i\) 保证组合为整体 \(1-\alpha\) 保证 - 误差预算在各节点间合理分配

3. 预算感知控制器（Budget-Aware Controller） - 轻量级控制器观察每个节点的共形集大小 - 如果当前集合太大（不确定性高），控制器触发额外工具调用来细化结果 - 如果集合已经很小（高确信），提前停止，节省计算 - 实现了按需计算分配：简单问题少调几个工具就够了，复杂问题自动增加计算量

损失函数/训练策略¶

共形预测本身是免训练的统计框架，只需要一个小校准集来估计分位数阈值
控制器的调度策略基于规则或轻量学习
各节点使用现成的工具/模型（OCR、检测器、VLM等），不需要联合训练

实验关键数据¶

基准类型	PoP vs CoT/ReAct/PoT	计算效率
文档QA	性能提升 + 可靠性保证	按需分配，更高效
图表QA	性能提升 + 可靠性保证	简单图表计算量↓
多图QA	性能提升 + 可靠性保证	复杂问题计算量↑

消融实验要点¶

共形集 vs softmax概率：共形集提供真正校准的不确定性，softmax在分布移动下失效
有无控制器：没有预算控制的固定管线浪费大量计算在简单问题上
校准集大小：几百个样本即可获得良好的共形保证

亮点 / 我学到了什么¶

共形预测用在这个场景太合适了——它不要求任何分布假设，且保证是有限样本有效的
"逐步校准的不确定性"比"最终答案的置信度"有用得多——可以定位推理链的薄弱环节
按需扩展工具调用的设计很实用：不是所有问题都需要调5个工具
这是将统计学习理论（共形预测）与LLM工程实践（工具使用推理）优雅结合的典范

局限性 / 可改进方向¶

组合共形保证需要将总误差预算\(\alpha\)分配给各节点，DAG越深越宽，每个节点分到的预算越小，共形集越大——可能在深层推理中退化为"什么都不确定"
目前DAG结构可能是预定义或由LLM生成的，DAG结构本身的错误不在共形保证覆盖范围内
实验规模相对小，能否扩展到更复杂的推理（如需要10+步的数学推理）？
控制器的"多调一个工具"策略能否更智能——调哪个工具？

与相关工作的对比¶

vs ReAct/Toolformer等工具使用框架：PoP增加了可靠性保证维度，不只是"能用工具"，而是"知道什么时候结果可信"
vs 共形预测在分类/回归上的应用：首次将组合共形推理用于多步工具调用推理
vs 不确定性估计方法（MC Dropout/Ensemble）：共形预测是分布无关的，理论保证更强

与我的研究方向的关联¶

可靠性保证对多模态感知系统至关重要，特别是自动驾驶/医疗等安全关键场景
共形预测的思路可用于评估VLM的感知可靠性——不是问"答案对不对"，而是"模型有多确信"
按需计算分配的控制器设计思路可借鉴到自适应token压缩中

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 共形预测+多模态工具推理的首次组合，问题定义优秀
实验充分度: ⭐⭐⭐⭐ — 多类QA基准验证，但规模可更大
写作质量: ⭐⭐⭐⭐⭐ — 理论-实践结合紧密，叙述清晰
对我的价值: ⭐⭐⭐⭐ — 可靠性框架思路有参考价值