跳转至

MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration

会议: ACL 2025
arXiv: 2505.23224
代码: https://github.com/Zhitao-He/MMBoundary
领域: LLM推理
关键词: 多模态LLM, 置信度校准, 推理步骤, 知识边界, 强化学习

一句话总结

提出 MMBoundary 框架,通过在推理链的每一步插入自然语言置信度表述(而非只在最终回答后给置信度),结合文本+跨模态的自奖励信号估计置信度,并用 SFT+RL 两阶段训练实现步级置信度校准,平均降低 7.5% 校准误差并提升 8.3% 任务准确率。

研究背景与动机

  1. 领域现状:多模态大语言模型(MLLM)在跨模态推理中表现出色,但可靠性存疑——它们常"自信地犯错"。现有置信度估计工作只在整体回答层面训练模型输出置信度分数。

  2. 现有痛点:(a) 整体置信度无法定位错误源头——感知层面的错误(如误识别物体)和推理层面的错误表现为同一个低置信度;(b) 错误的早期步骤不被标记,导致"幻觉滚雪球"——前一步的感知错误会在后续推理中传播放大;(c) 训练后的模型倾向输出均匀的置信度水平,无区分度。

  3. 核心矛盾:要让 MLLM 知道自己"哪里不确定",需要步级别的细粒度置信度估计,但标注步级置信度成本极高,且模型的内部不确定性信号与表达的置信度之间存在鸿沟。

  4. 本文要解决什么? 让 MLLM 在每一个推理步骤后自动表达校准过的自然语言置信度声明,使模型"知道自己不知道什么"。

  5. 切入角度:利用模型内部状态(token概率、熵)+ 视觉对齐信号(CLIPScore)作为步级置信度的自奖励估计,通过 SFT 预热 + PPO 强化学习两阶段实现表达和校准。

  6. 核心idea一句话:在推理链的每一句后面插入置信度声明,用多源自奖励信号估计初始置信度,再通过 RL 校准使表达的置信度与真实正确性对齐。

方法详解

整体框架

输入:图像 \(I\) + 问题 \(Q\)。输出:交替的推理步骤和置信度声明序列 \([z_1, c_1, z_2, c_2, ..., z_T, c_T]\)。两阶段训练:SFT 预热(学会生成置信度声明)→ PPO 强化学习(校准置信度准确性)。

关键设计

  1. 多源内部置信度估计:
  2. 做什么:综合 4 种信号估计每个句子的置信度分数
  3. 核心思路:(a) 长度归一化对数概率 \(U_{LNLP}\)——句子级平均 token 负对数概率;(b) 平均 token 熵 \(U_{MTE}\)——每个 token 分布的熵的均值;(c) TokenSAR——考虑 token 与全文相关性的加权负对数概率;(d) CLIPScore——生成文本与输入图像的 CLIP 嵌入余弦相似度。四者加权平均后映射到 5 级置信度
  4. 设计动机:单一信号不够可靠,文本不确定性方法无法捕捉视觉一致性。CLIPScore 弥补了跨模态对齐的估计缺口,使置信度估计在多模态场景下更准确

  5. 置信度分数-声明互映射:

  6. 做什么:建立数值置信度分数与自然语言声明之间的双向映射
  7. 核心思路:预设 5 级置信度声明池(从"不确定"到"完全确信"),每级包含多种表述。正向:根据估计分数从对应池随机选声明插入训练数据。反向:RL 阶段用句子编码器计算生成声明与各池声明的余弦相似度,反向映射回分数
  8. 设计动机:自然语言声明比数字分数更适合人类阅读和推理链的连贯性,同时反向映射使 RL 奖励计算成为可能

  9. SFT 预热阶段:

  10. 做什么:微调模型学会在每句话后生成置信度声明
  11. 核心思路:用内部估计的置信度标注训练数据,在每句后插入对应声明,用标准交叉熵损失微调
  12. 设计动机:RL 直接训练从零开始太难,SFT 先让模型学会生成格式正确的声明(warm-up)

  13. PPO 强化学习阶段:

  14. 做什么:用三个奖励函数进一步校准表达的置信度并提升回答质量
  15. 核心思路:\(R = \alpha R_{KA} + \beta R_{EC} + \gamma R_{CS}\),其中:(a) 知识准确率奖励 \(R_{KA}\):生成句子与参考推理链的匹配度;(b) 期望校准奖励 \(R_{EC}\):表达置信度与实际正确性的一致性(类似 ECE);(c) 置信度自校准奖励 \(R_{CS}\):表达置信度与内部估计置信度的一致性
  16. 设计动机:SFT 后模型倾向生成均匀置信度,RL 通过区分性奖励鼓励高准确性→高置信度、低准确性→低置信度的对齐

损失函数 / 训练策略

SFT 使用标准交叉熵损失。RL 使用 PPO 算法,带 GAE 优势估计。标注参考推理链用于知识准确率奖励的计算。

实验关键数据

主实验

在 A-OKVQA、ScienceVQA、CulturalVQA 三个多模态推理数据集上评测。

方法 A-OKVQA ECE↓ A-OKVQA Acc↑ ScienceVQA ECE↓ ScienceVQA Acc↑
Vanilla 基线 基线 基线 基线
SaySelf 0.345 0.734 0.386 -
MMBoundary 最优 最优 最优 最优
  • 平均降低 7.5% 校准误差(ECE)
  • 提升高达 8.3% 任务准确率

消融实验

配置 效果 说明
完整 MMBoundary 最优 SFT + RL
只有 SFT 置信度均匀,区分度差 验证了 RL 的必要性
去掉 CLIPScore 多模态校准下降 视觉信号对跨模态置信度估计重要
去掉 \(R_{CS}\) 内外一致性下降 自校准奖励帮助对齐内部和表达置信度

关键发现

  • 步级置信度比整体置信度更有用:低置信度步骤可以触发自我修正,而整体置信度即使正确步骤也混在错误中被低估
  • RL 阶段关键:SFT 后模型生成均匀置信度,RL 三个奖励函数协同工作才能实现有区分度的校准
  • 跨模态信号不可或缺:CLIPScore 捕捉了纯文本方法无法估计的视觉感知不确定性
  • 置信度提升也带来准确率提升:知识准确率奖励在校准置信度的同时优化了回答质量

亮点与洞察

  • 步级置信度声明:每句话后附置信度是创新设计,使推理链变成"有自知之明"的推理。这种模式可迁移到任何需要细粒度不确定性估计的 LLM 应用
  • 自奖励+RL 的训练范式:不需要人工标注置信度,利用模型内部状态作为自监督信号。SFT→RL 的两阶段策略优雅地解决了格式学习和校准优化的分离
  • 自然语言置信度表述:比数字分数更直观,与推理链自然融合,也便于下游系统处理(如自动跳过低置信度步骤)

局限性 / 可改进方向

  • 参考推理链依赖:知识准确率奖励需要标注参考推理链,获取成本较高
  • 5 级置信度粒度是否足够:更细的粒度可能提供更精确的校准,但也增加映射复杂度
  • 自我修正的触发机制未详述:论文提到低置信度可触发自修正,但具体如何实现修正策略未充分展开
  • 仅在 VQA 任务上评测:更复杂的多模态推理任务(如视觉规划、多步数学推理)上的表现有待验证

相关工作与启发

  • vs SaySelf:SaySelf 也训练模型表达置信度,但只在整体回答层面。MMBoundary 提升到步级,解决了幻觉传播问题
  • vs 基于采样的置信度方法:多次采样观察一致性虽直观但计算开销大且无法定位具体步骤。MMBoundary 用内部状态单次估计,效率更高
  • vs Verbalized Confidence:直接提示模型说出置信度容易被表面校准骗过,MMBoundary 通过 RL 真正对齐知识和置信度

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 步级置信度校准是重要的新方向,多源信号+SFT+RL 的完整框架设计精良
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集+多种指标+消融分析,但缺少更多多模态推理基准
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述系统化,公式和图表丰富
  • 价值: ⭐⭐⭐⭐⭐ 解决MLLM的核心可靠性问题,步级置信度对AI安全和人机协作有重要意义