Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees¶

会议: CVPR 2026
arXiv: 2603.00324
代码: https://github.com/AryaFayyazi/PoP
领域: 多模态推理 / 可靠AI
关键词: 保形预测, 工具使用, 多模态推理, 不确定性量化, 自适应计算

一句话总结¶

提出 Proof-of-Perception (PoP)，将多模态推理建模为可执行的有向无环图(DAG)，每个感知/逻辑节点输出带有保形预测证书的集合值（提供逐步可靠性保证），并用轻量控制器基于这些证书在计算预算内自适应分配算力，在文档、图表和多图QA基准上超越CoT、ReAct和PoT基线。

研究背景与动机¶

领域现状：多模态LLM在文档理解、图表推理等任务上取得进展，但通常将细粒度感知（OCR、检测、图表解析）和符号推理混在单次前向传播中。工具使用和结构化提示（CoT、ReAct、PoT）部分缓解了这一问题。

现有痛点：(1) 中间步骤输出单一猜测值，静默传播错误；(2) 计算分配靠启发式（固定重试次数、未校准阈值），无法做准确率-成本权衡；(3) 校准（如果有的话）仅在最终答案上，中间步骤的逐步可靠性无保证。

核心矛盾：现有方法在中间感知步骤"单点提交"——一旦OCR错了一个字、检测漏了一个框，后续推理就被迫在错误基础上合理化。而且何时该扩展推理（多工具调用）、何时该提前停止，缺乏原则性判据。

本文目标 如何为多步多模态推理的每个中间步骤提供可靠性保证，并将不确定性转化为计算分配策略？

切入角度：保形预测（Conformal Prediction）提供无分布假设的有限样本覆盖保证。将其应用到推理DAG的每个节点，输出的不再是单点值而是有覆盖保证的集合。

核心 idea：在推理DAG的每个感知/逻辑节点上用保形预测输出校准的集合值，控制器基于集合大小和预算决定是接受、重试还是扩展。

方法详解¶

整体框架¶

给定多图+文本查询，MLLM 规划器生成DSL程序定义推理DAG \(G=(V,E)\)。每个工具节点调用外部感知工具（OCR/检测/图表解析），每个融合节点在MLLM内部融合上游结果。每个节点配备证书头输出非一致性分数，通过split-conformal校准得到阈值，输出集合值预测。控制器观察节点级证书和全局预算，决定 ACCEPT/RETRY/EXPAND/ABORT。

关键设计¶

节点级保形预测证书（Node-Level Conformal Certificates）:
- 功能：为每种节点类型（OCR/检测/图表解析/逻辑融合）定义非一致性函数和校准阈值，输出集合值预测
- 核心思路：对第 \(t\) 类节点，非一致性函数 \(s^{(t)}(x_v, z)\) 度量候选输出 \(z\) 的"异常"程度。通过校准集计算阈值 \(\tau_\delta^{(t)} = \alpha_{(k)}^{(t)}, k = \lceil(n_t+1)(1-\delta)\rceil\)。集合预测 \(\Gamma_\delta^{(t)}(x_v) = \{z : s^{(t)}(x_v, z) \leq \tau_\delta^{(t)}\}\)，保证覆盖概率 \(\geq 1-\delta\)
- 设计动机：单点预测在中间步骤静默传播错误，集合值预测保留多个校准候选直到证据消除歧义，减少错误级联
自适应控制器（Adaptive Controller for Compute Allocation）:
- 功能：轻量策略网络 \(\pi_\phi\)，基于每个节点的证书状态 \(c_v\)（阈值、集合大小、节点类型）和全局预算 \(b\)，输出动作 \(a_v \in \{\text{ACCEPT, RETRY, EXPAND, ABORT}\}\)
- 核心思路：ACCEPT保留当前集合，RETRY用更高精度重跑（如高分辨率裁剪），EXPAND添加新子节点（如额外OCR调用），ABORT在预算耗尽时提前终止。控制器用策略梯度优化 \(R(x) = -C_{err}(x) - \beta C_{comp}(x)\)
- 设计动机：不确定性不该是被动评分，而应主动指导计算分配——集合大时扩展计算，集合小（置信高）时提前停止
自博弈对抗样本挖掘（Self-Play Counterexample Mining）:
- 功能：在训练中由冻结的对手生成扰动输入（裁剪、仿射变换、OCR噪声），筛选导致错误的反例用于增强学生和校准集
- 核心思路：对手执行推理图并对输入做可控扰动，筛选预测错误或非一致性分数大的样本作为反例。反例用于训练学生保持覆盖率，并追加到校准池使阈值反映真实失败模式
- 设计动机：标准校准假设可交换性，但分布偏移下证书可能失效。自博弈让校准在对抗扰动下仍可靠

损失函数 / 训练策略¶

总损失 \(\mathcal{L} = \mathcal{L}_{task} + \gamma_{plan}\mathcal{L}_{plan} + \gamma_{cert}\mathcal{L}_{cert} + \gamma_{ctrl}\mathcal{L}_{ctrl}\)：任务损失（最终答案准确率）、规划损失（程序生成序列交叉熵）、证书损失（边距约束保证覆盖）、控制器损失（策略梯度优化准确率-成本权衡）。

实验关键数据¶

主实验¶

方法	DocVQA	TextVQA	InfoVQA	ChartQA	MultiDoc2Dial
CoT (GPT-4V)	74.2	68.1	51.3	71.8	42.5
ReAct	76.8	70.3	54.1	74.2	45.7
PoT	78.1	71.5	56.4	76.9	47.2
PoP	82.3	75.8	61.2	80.5	52.8

消融实验¶

配置	DocVQA	计算成本(归一化)
PoP (full)	82.3	1.0x
w/o Conformal (单点预测)	77.5	0.8x
w/o Controller (固定扩展)	80.1	1.6x
w/o Self-Play	80.8	1.0x

关键发现¶

PoP在所有5个基准上超越CoT、ReAct、PoT基线，DocVQA提升4.2%，ChartQA提升3.6%
去掉保形证书（退化为单点预测）性能大幅下降，验证了集合值中间输出的价值
去掉控制器后计算成本增加60%但性能仅提升微弱，说明控制器有效减少不必要计算
自博弈挖掘贡献1.5%的性能提升，增强了分布偏移下的鲁棒性

亮点与洞察¶

将不确定性从"被动评分"变为"主动计算策略"是核心insight——保形集合大→分配更多计算（EXPAND），集合小→提前终止（ACCEPT）
组合式的保形保证（每步覆盖 \(1-\delta\)）比仅在最终答案做校准更有意义，可追溯错误到具体步骤
框架高度模块化，工具集和节点类型可灵活扩展

局限与展望¶

保形预测假设可交换性，虽然自博弈部分缓解，但严格的分布偏移下覆盖保证可能失效
候选集大小受限于beam search或采样的候选数 \(K_{max}\)，可能遗漏正确答案
控制器的离散动作空间（4种）可能过于简单，更细粒度的计算分配策略有探索空间

评分¶

新颖性: ⭐⭐⭐⭐⭐ 保形预测+工具使用+自适应计算控制的组合在多模态推理中首次提出
实验充分度: ⭐⭐⭐⭐ 五个基准、完整消融、成本分析
写作质量: ⭐⭐⭐⭐ 理论严谨，形式化完整
价值: ⭐⭐⭐⭐⭐ 对可靠AI推理有深远影响，保形证书+计算控制的范式可广泛迁移