跳转至

Faithful-First Reasoning, Planning, and Acting for Multimodal LLMs

会议: ACL 2026
arXiv: 2511.08409
代码: GitHub
领域: 多模态 VLM / 推理忠实性
关键词: 感知忠实性, 推理规划与执行, 多模态幻觉, 视觉证据验证, 逐步推理

一句话总结

本文提出 Faithful-First RPA 框架,通过 FaithEvi 管线在每一步推理中评估感知忠实性(claimed objects 是否在图像中真实存在),以及 FaithAct 机制在推理生成过程中强制执行基于证据的规划和行动,在不降低任务准确率的前提下将感知忠实性提升最高 24%。

研究背景与动机

领域现状:多模态大语言模型(MLLMs)在 VQA、视觉推理等任务上取得了显著进展,但其推理轨迹经常出现"不忠实"现象——生成的解释与视觉证据不符,或事后合理化其预测结果。

现有痛点:(1) 现有工作主要关注行为忠实性(推理链是否反映模型的决策过程),忽略了感知忠实性(推理步骤是否基于可验证的视觉输入);(2) CoT 和 ReAct 等推理框架不验证中间步骤的感知基础;(3) 模型可能在答案正确的同时依赖错误的视觉描述(如将黑色自行车描述为黄色)。

核心矛盾:现有推理框架采用"先生成后验证"的范式,当推理链已经生成完毕才发现感知错误,修正成本高且效果有限。忠实性应该是设计原则而非事后评估指标。

本文目标:建立一个统一框架,既能量化评估推理链的感知忠实性,又能在推理过程中主动强制执行证据验证。

切入角度:基于"感知忠实的模型只推理视觉上可观察到的内容"这一原则,将推理过程形式化为忠实性约束的规划问题。

核心 idea:在推理的每一步,先提取声称的对象、通过偏好投票和视觉定位验证其存在性、计算忠实性分数,不满足阈值的步骤必须修正后才能进入推理链。

方法详解

整体框架

Faithful-First RPA 由两个核心组件构成:(1) FaithEvi 评估管线——对推理链进行逐步和链级的感知忠实性评估;(2) FaithAct 规划与执行机制——利用 FaithEvi 的信号在推理生成过程中动态验证和修正每个步骤。整体流程为:输入图像+问题 → MLLM 生成推理步骤 → FaithEvi 评估该步骤忠实性 → 若不达标则 FaithAct 触发修正 → 通过后进入推理链 → 继续下一步。

关键设计

  1. FaithEvi: 感知忠实性评估管线:

    • 功能:量化推理链中每一步的视觉证据支撑程度
    • 核心思路:分三阶段。阶段一:声称对象提取——用 Qwen2.5-7B-Instruct 从每个推理步骤中提取声称存在的对象集合 \(O_t = \{O_t^1, \dots, O_t^{m_t}\}\)阶段二:偏好投票 + 视觉定位——(a) 用冻结的 CLIP-ViT-Large 编码图像和对象文本,通过两层 MLP(在 POPE 数据集上训练)预测对象存在概率 \(c_p\);(b) 用冻结的 GroundingDINO 定位对象并获得检测置信度 \(c_g\)阶段三:忠实性评分——融合两个置信度 \(c_t^i = 0.7 \cdot c_p + 0.3 \cdot c_g\),映射为三级离散分数(<0.4→0, 0.4-0.6→\(c_t^i\), >0.6→1),步级分数 \(F_{\text{step},t} = \frac{1}{m_t}\sum f_t^i\),链级分数 \(F_{\text{chain}} = \frac{1}{n}\sum F_{\text{step},t}\)
    • 设计动机:偏好投票提供全局存在性验证(弱视觉线索下检测器置信度不可靠),定位提供区域级空间证据,两者互补
  2. FaithAct: 忠实性优先的规划与执行:

    • 功能:将推理过程转化为忠实性约束的规划问题
    • 核心思路:规划目标为 \(S^* = \arg\max F_{\text{step}}(s_t)\) s.t. \(\forall t, F_{\text{step}}(s_t) \geq c\)。每一步生成后立即通过 FaithEvi 验证,不满足阈值的步骤被送回 MLLM 重新生成,附带更新后的证据信息(对象存在性标签、边界框、计数)。提供可扩展的函数接口:Poll()(存在性概率)、Ground()(边界框检测)、Select()(确认存在)、Abstain()(确认不存在)、Count()(计数推理)
    • 设计动机:不同于"生成-然后-验证"范式,FaithAct 采用"边验证边生成"原则,在推理链中尽早纠正感知错误,防止错误传播
  3. 行动引导的推理修正:

    • 功能:修复未通过忠实性阈值的推理步骤
    • 核心思路:未通过验证的步骤不是直接丢弃,而是通过更新的证据重新生成。修正 prompt 引导模型保持逻辑连续性的同时修正感知描述
    • 设计动机:FaithAct 后期步骤的忠实性提升尤为显著——与先前工作发现过长 CoT 在后期更易受噪声影响的结论一致

损失函数 / 训练策略

本文为推理时框架,不涉及模型训练。偏好投票头在 POPE 数据集上训练(两层 MLP),GroundingDINO 和 CLIP 均冻结使用。GroundingDINO 的 box threshold=0.35,text threshold=0.25。

实验关键数据

主实验

感知忠实性评估(\(F_{\text{chain}}\), %)

模型 + 方法 LLaVA-bench RealWorldQA POPE MMHal 平均
Qwen + CoT 46.05 48.11 45.21 53.34 48.18
Qwen + ReAct 54.82 56.82 45.02 33.76 47.61
Qwen + FaithAct 55.10 57.22 56.87 66.45 58.91
InternVL + CoT 45.63 44.23 43.25 53.17 46.57
InternVL + FaithAct 52.64 57.35 56.01 61.71 56.93
LLaVA + CoT 47.56 52.31 52.28 30.63 45.70
LLaVA + FaithAct 52.82 58.11 56.09 39.91 51.73

任务准确率保持

模型 方法 RealWorldQA(%) MMHal(rating)
Qwen CoT 70.1 3.40
Qwen FaithAct 74.5 3.48
InternVL CoT 70.8 3.61
InternVL FaithAct 71.2 3.58

消融实验

核心组件消融(Qwen, RealWorldQA / MMHal)

配置 RealWorldQA(%) MMHal(%)
FaithAct (完整) 57.22 66.45
w/o Poll() 54.24 (-3.0) 63.25 (-3.2)
w/o Ground() 53.16 (-4.1) 62.47 (-4.0)

关键发现

  • FaithAct 平均感知忠实性达 55.86%,比最强基线 ReAct (48.10%) 提升 7.76 个百分点
  • 在幻觉敏感基准 MMHal 上提升最大:比 CoT 平均提升 21.99%,比工具增强方法平均提升 9.81%
  • 忠实性提升不损害任务准确率——Qwen 在 RealWorldQA 上甚至从 70.1% 提升到 74.5%
  • Ground() 的贡献略大于 Poll(),说明空间定位提供了更关键的视觉证据
  • 替换 GroundingDINO 为 SAM3 导致性能下降约 5%,说明框架需要定位专用模型
  • FaithAct 的收益在推理链后期步骤更显著,验证了后期步骤更易产生幻觉的假设
  • 人工验证 LLM 对象提取精度达 99.42%(7550 个对象级标签),片段有效性 0.968
  • 推理时间增加约 2-3 倍(FaithAct 14-19秒 vs CoT 3-11秒)

亮点与洞察

  • "忠实性应是设计原则而非事后指标"的理念很有说服力——将忠实性约束嵌入推理循环,使得每一步都有证据支撑
  • 感知忠实性 vs 行为忠实性的区分具有理论价值——模型可以"答对但理由错"(行为忠实但感知不忠实),也可以"理由对但答错"(感知忠实但行为不忠实)
  • 可扩展的函数接口设计(Poll/Ground/Select/Abstain/Count)使得框架易于扩展到属性和关系验证

局限与展望

  • 目前仅在对象存在性层面验证忠实性,未涉及属性(颜色、大小)和关系(空间关系、动作)级别
  • 推理时间增加约 2-3 倍
  • 未直接评估行为忠实性,仅假设感知忠实会促进行为一致
  • 在感知需求较弱的基准(MathVista)上优势不明显

相关工作与启发

  • vs Grounded-CoT (Wu et al., 2025): 后者在推理后附加定位信息,本文在推理过程中实时验证——FaithAct 在 11/12 个设置中优于 Grounded-CoT
  • vs ReAct (Yao et al., 2022): ReAct 允许调用工具但不强制忠实性约束,本文证明 \(F_{\text{chain}}\) of ReAct 理论上被 FaithAct 上界限定
  • vs VAT (Liu et al., 2025): 视觉抽象思维在 POPE 上严重退化(21.46%),说明抽象化可能加剧感知脱节

评分

  • 新颖性: ⭐⭐⭐⭐ 感知忠实性的形式化定义和"边验证边生成"范式有新意
  • 实验充分度: ⭐⭐⭐⭐ 3 个模型、4 个基准、完整消融和人工验证
  • 写作质量: ⭐⭐⭐⭐ 感知/行为忠实性区分清晰,框架设计逻辑严谨
  • 价值: ⭐⭐⭐⭐ 为多模态推理的可信度提供了实用框架,函数接口可扩展

相关论文