Faithful-First Reasoning, Planning, and Acting for Multimodal LLMs¶

会议: ACL 2026
arXiv: 2511.08409
代码: GitHub
领域: 多模态 VLM / 推理忠实性
关键词: 感知忠实性, 推理规划与执行, 多模态幻觉, 视觉证据验证, 逐步推理

一句话总结¶

本文提出 Faithful-First RPA 框架，通过 FaithEvi 管线在每一步推理中评估感知忠实性（claimed objects 是否在图像中真实存在），以及 FaithAct 机制在推理生成过程中强制执行基于证据的规划和行动，在不降低任务准确率的前提下将感知忠实性提升最高 24%。

研究背景与动机¶

领域现状：多模态大语言模型（MLLMs）在 VQA、视觉推理等任务上取得了显著进展，但其推理轨迹经常出现"不忠实"现象——生成的解释与视觉证据不符，或事后合理化其预测结果。

现有痛点：(1) 现有工作主要关注行为忠实性（推理链是否反映模型的决策过程），忽略了感知忠实性（推理步骤是否基于可验证的视觉输入）；(2) CoT 和 ReAct 等推理框架不验证中间步骤的感知基础；(3) 模型可能在答案正确的同时依赖错误的视觉描述（如将黑色自行车描述为黄色）。

核心矛盾：现有推理框架采用"先生成后验证"的范式，当推理链已经生成完毕才发现感知错误，修正成本高且效果有限。忠实性应该是设计原则而非事后评估指标。

本文目标：建立一个统一框架，既能量化评估推理链的感知忠实性，又能在推理过程中主动强制执行证据验证。

切入角度：基于"感知忠实的模型只推理视觉上可观察到的内容"这一原则，将推理过程形式化为忠实性约束的规划问题。

核心 idea：在推理的每一步，先提取声称的对象、通过偏好投票和视觉定位验证其存在性、计算忠实性分数，不满足阈值的步骤必须修正后才能进入推理链。

方法详解¶

整体框架¶

Faithful-First RPA 由两个核心组件构成：(1) FaithEvi 评估管线——对推理链进行逐步和链级的感知忠实性评估；(2) FaithAct 规划与执行机制——利用 FaithEvi 的信号在推理生成过程中动态验证和修正每个步骤。整体流程为：输入图像+问题 → MLLM 生成推理步骤 → FaithEvi 评估该步骤忠实性 → 若不达标则 FaithAct 触发修正 → 通过后进入推理链 → 继续下一步。

关键设计¶

FaithEvi: 感知忠实性评估管线:
- 功能：量化推理链中每一步的视觉证据支撑程度
- 核心思路：分三阶段。阶段一：声称对象提取——用 Qwen2.5-7B-Instruct 从每个推理步骤中提取声称存在的对象集合 \(O_t = \{O_t^1, \dots, O_t^{m_t}\}\)。阶段二：偏好投票 + 视觉定位——(a) 用冻结的 CLIP-ViT-Large 编码图像和对象文本，通过两层 MLP（在 POPE 数据集上训练）预测对象存在概率 \(c_p\)；(b) 用冻结的 GroundingDINO 定位对象并获得检测置信度 \(c_g\)。阶段三：忠实性评分——融合两个置信度 \(c_t^i = 0.7 \cdot c_p + 0.3 \cdot c_g\)，映射为三级离散分数（<0.4→0, 0.4-0.6→\(c_t^i\), >0.6→1），步级分数 \(F_{\text{step},t} = \frac{1}{m_t}\sum f_t^i\)，链级分数 \(F_{\text{chain}} = \frac{1}{n}\sum F_{\text{step},t}\)
- 设计动机：偏好投票提供全局存在性验证（弱视觉线索下检测器置信度不可靠），定位提供区域级空间证据，两者互补
FaithAct: 忠实性优先的规划与执行:
- 功能：将推理过程转化为忠实性约束的规划问题
- 核心思路：规划目标为 \(S^* = \arg\max F_{\text{step}}(s_t)\) s.t. \(\forall t, F_{\text{step}}(s_t) \geq c\)。每一步生成后立即通过 FaithEvi 验证，不满足阈值的步骤被送回 MLLM 重新生成，附带更新后的证据信息（对象存在性标签、边界框、计数）。提供可扩展的函数接口：Poll()（存在性概率）、Ground()（边界框检测）、Select()（确认存在）、Abstain()（确认不存在）、Count()（计数推理）
- 设计动机：不同于"生成-然后-验证"范式，FaithAct 采用"边验证边生成"原则，在推理链中尽早纠正感知错误，防止错误传播
行动引导的推理修正:
- 功能：修复未通过忠实性阈值的推理步骤
- 核心思路：未通过验证的步骤不是直接丢弃，而是通过更新的证据重新生成。修正 prompt 引导模型保持逻辑连续性的同时修正感知描述
- 设计动机：FaithAct 后期步骤的忠实性提升尤为显著——与先前工作发现过长 CoT 在后期更易受噪声影响的结论一致

损失函数 / 训练策略¶

本文为推理时框架，不涉及模型训练。偏好投票头在 POPE 数据集上训练（两层 MLP），GroundingDINO 和 CLIP 均冻结使用。GroundingDINO 的 box threshold=0.35，text threshold=0.25。

实验关键数据¶

主实验¶

感知忠实性评估（\(F_{\text{chain}}\), %）

模型 + 方法	LLaVA-bench	RealWorldQA	POPE	MMHal	平均
Qwen + CoT	46.05	48.11	45.21	53.34	48.18
Qwen + ReAct	54.82	56.82	45.02	33.76	47.61
Qwen + FaithAct	55.10	57.22	56.87	66.45	58.91
InternVL + CoT	45.63	44.23	43.25	53.17	46.57
InternVL + FaithAct	52.64	57.35	56.01	61.71	56.93
LLaVA + CoT	47.56	52.31	52.28	30.63	45.70
LLaVA + FaithAct	52.82	58.11	56.09	39.91	51.73

任务准确率保持

模型	方法	RealWorldQA(%)	MMHal(rating)
Qwen	CoT	70.1	3.40
Qwen	FaithAct	74.5	3.48
InternVL	CoT	70.8	3.61
InternVL	FaithAct	71.2	3.58

消融实验¶

核心组件消融（Qwen, RealWorldQA / MMHal）

配置	RealWorldQA(%)	MMHal(%)
FaithAct (完整)	57.22	66.45
w/o Poll()	54.24 (-3.0)	63.25 (-3.2)
w/o Ground()	53.16 (-4.1)	62.47 (-4.0)

关键发现¶

FaithAct 平均感知忠实性达 55.86%，比最强基线 ReAct (48.10%) 提升 7.76 个百分点
在幻觉敏感基准 MMHal 上提升最大：比 CoT 平均提升 21.99%，比工具增强方法平均提升 9.81%
忠实性提升不损害任务准确率——Qwen 在 RealWorldQA 上甚至从 70.1% 提升到 74.5%
Ground() 的贡献略大于 Poll()，说明空间定位提供了更关键的视觉证据
替换 GroundingDINO 为 SAM3 导致性能下降约 5%，说明框架需要定位专用模型
FaithAct 的收益在推理链后期步骤更显著，验证了后期步骤更易产生幻觉的假设
人工验证 LLM 对象提取精度达 99.42%（7550 个对象级标签），片段有效性 0.968
推理时间增加约 2-3 倍（FaithAct 14-19秒 vs CoT 3-11秒）

亮点与洞察¶

"忠实性应是设计原则而非事后指标"的理念很有说服力——将忠实性约束嵌入推理循环，使得每一步都有证据支撑
感知忠实性 vs 行为忠实性的区分具有理论价值——模型可以"答对但理由错"（行为忠实但感知不忠实），也可以"理由对但答错"（感知忠实但行为不忠实）
可扩展的函数接口设计（Poll/Ground/Select/Abstain/Count）使得框架易于扩展到属性和关系验证

局限与展望¶

目前仅在对象存在性层面验证忠实性，未涉及属性（颜色、大小）和关系（空间关系、动作）级别
推理时间增加约 2-3 倍
未直接评估行为忠实性，仅假设感知忠实会促进行为一致
在感知需求较弱的基准（MathVista）上优势不明显

评分¶

新颖性: ⭐⭐⭐⭐ 感知忠实性的形式化定义和"边验证边生成"范式有新意
实验充分度: ⭐⭐⭐⭐ 3 个模型、4 个基准、完整消融和人工验证
写作质量: ⭐⭐⭐⭐ 感知/行为忠实性区分清晰，框架设计逻辑严谨
价值: ⭐⭐⭐⭐ 为多模态推理的可信度提供了实用框架，函数接口可扩展