MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration¶
会议: ACL 2025
arXiv: 2505.23224
代码: https://github.com/Zhitao-He/MMBoundary
领域: LLM推理
关键词: 多模态LLM, 置信度校准, 推理步骤, 知识边界, 强化学习
一句话总结¶
提出 MMBoundary 框架,通过在推理链的每一步插入自然语言置信度表述(而非只在最终回答后给置信度),结合文本+跨模态的自奖励信号估计置信度,并用 SFT+RL 两阶段训练实现步级置信度校准,平均降低 7.5% 校准误差并提升 8.3% 任务准确率。
研究背景与动机¶
-
领域现状:多模态大语言模型(MLLM)在跨模态推理中表现出色,但可靠性存疑——它们常"自信地犯错"。现有置信度估计工作只在整体回答层面训练模型输出置信度分数。
-
现有痛点:(a) 整体置信度无法定位错误源头——感知层面的错误(如误识别物体)和推理层面的错误表现为同一个低置信度;(b) 错误的早期步骤不被标记,导致"幻觉滚雪球"——前一步的感知错误会在后续推理中传播放大;(c) 训练后的模型倾向输出均匀的置信度水平,无区分度。
-
核心矛盾:要让 MLLM 知道自己"哪里不确定",需要步级别的细粒度置信度估计,但标注步级置信度成本极高,且模型的内部不确定性信号与表达的置信度之间存在鸿沟。
-
本文要解决什么? 让 MLLM 在每一个推理步骤后自动表达校准过的自然语言置信度声明,使模型"知道自己不知道什么"。
-
切入角度:利用模型内部状态(token概率、熵)+ 视觉对齐信号(CLIPScore)作为步级置信度的自奖励估计,通过 SFT 预热 + PPO 强化学习两阶段实现表达和校准。
-
核心idea一句话:在推理链的每一句后面插入置信度声明,用多源自奖励信号估计初始置信度,再通过 RL 校准使表达的置信度与真实正确性对齐。
方法详解¶
整体框架¶
输入:图像 \(I\) + 问题 \(Q\)。输出:交替的推理步骤和置信度声明序列 \([z_1, c_1, z_2, c_2, ..., z_T, c_T]\)。两阶段训练:SFT 预热(学会生成置信度声明)→ PPO 强化学习(校准置信度准确性)。
关键设计¶
- 多源内部置信度估计:
- 做什么:综合 4 种信号估计每个句子的置信度分数
- 核心思路:(a) 长度归一化对数概率 \(U_{LNLP}\)——句子级平均 token 负对数概率;(b) 平均 token 熵 \(U_{MTE}\)——每个 token 分布的熵的均值;(c) TokenSAR——考虑 token 与全文相关性的加权负对数概率;(d) CLIPScore——生成文本与输入图像的 CLIP 嵌入余弦相似度。四者加权平均后映射到 5 级置信度
-
设计动机:单一信号不够可靠,文本不确定性方法无法捕捉视觉一致性。CLIPScore 弥补了跨模态对齐的估计缺口,使置信度估计在多模态场景下更准确
-
置信度分数-声明互映射:
- 做什么:建立数值置信度分数与自然语言声明之间的双向映射
- 核心思路:预设 5 级置信度声明池(从"不确定"到"完全确信"),每级包含多种表述。正向:根据估计分数从对应池随机选声明插入训练数据。反向:RL 阶段用句子编码器计算生成声明与各池声明的余弦相似度,反向映射回分数
-
设计动机:自然语言声明比数字分数更适合人类阅读和推理链的连贯性,同时反向映射使 RL 奖励计算成为可能
-
SFT 预热阶段:
- 做什么:微调模型学会在每句话后生成置信度声明
- 核心思路:用内部估计的置信度标注训练数据,在每句后插入对应声明,用标准交叉熵损失微调
-
设计动机:RL 直接训练从零开始太难,SFT 先让模型学会生成格式正确的声明(warm-up)
-
PPO 强化学习阶段:
- 做什么:用三个奖励函数进一步校准表达的置信度并提升回答质量
- 核心思路:\(R = \alpha R_{KA} + \beta R_{EC} + \gamma R_{CS}\),其中:(a) 知识准确率奖励 \(R_{KA}\):生成句子与参考推理链的匹配度;(b) 期望校准奖励 \(R_{EC}\):表达置信度与实际正确性的一致性(类似 ECE);(c) 置信度自校准奖励 \(R_{CS}\):表达置信度与内部估计置信度的一致性
- 设计动机:SFT 后模型倾向生成均匀置信度,RL 通过区分性奖励鼓励高准确性→高置信度、低准确性→低置信度的对齐
损失函数 / 训练策略¶
SFT 使用标准交叉熵损失。RL 使用 PPO 算法,带 GAE 优势估计。标注参考推理链用于知识准确率奖励的计算。
实验关键数据¶
主实验¶
在 A-OKVQA、ScienceVQA、CulturalVQA 三个多模态推理数据集上评测。
| 方法 | A-OKVQA ECE↓ | A-OKVQA Acc↑ | ScienceVQA ECE↓ | ScienceVQA Acc↑ |
|---|---|---|---|---|
| Vanilla | 基线 | 基线 | 基线 | 基线 |
| SaySelf | 0.345 | 0.734 | 0.386 | - |
| MMBoundary | 最优 | 最优 | 最优 | 最优 |
- 平均降低 7.5% 校准误差(ECE)
- 提升高达 8.3% 任务准确率
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 完整 MMBoundary | 最优 | SFT + RL |
| 只有 SFT | 置信度均匀,区分度差 | 验证了 RL 的必要性 |
| 去掉 CLIPScore | 多模态校准下降 | 视觉信号对跨模态置信度估计重要 |
| 去掉 \(R_{CS}\) | 内外一致性下降 | 自校准奖励帮助对齐内部和表达置信度 |
关键发现¶
- 步级置信度比整体置信度更有用:低置信度步骤可以触发自我修正,而整体置信度即使正确步骤也混在错误中被低估
- RL 阶段关键:SFT 后模型生成均匀置信度,RL 三个奖励函数协同工作才能实现有区分度的校准
- 跨模态信号不可或缺:CLIPScore 捕捉了纯文本方法无法估计的视觉感知不确定性
- 置信度提升也带来准确率提升:知识准确率奖励在校准置信度的同时优化了回答质量
亮点与洞察¶
- 步级置信度声明:每句话后附置信度是创新设计,使推理链变成"有自知之明"的推理。这种模式可迁移到任何需要细粒度不确定性估计的 LLM 应用
- 自奖励+RL 的训练范式:不需要人工标注置信度,利用模型内部状态作为自监督信号。SFT→RL 的两阶段策略优雅地解决了格式学习和校准优化的分离
- 自然语言置信度表述:比数字分数更直观,与推理链自然融合,也便于下游系统处理(如自动跳过低置信度步骤)
局限性 / 可改进方向¶
- 参考推理链依赖:知识准确率奖励需要标注参考推理链,获取成本较高
- 5 级置信度粒度是否足够:更细的粒度可能提供更精确的校准,但也增加映射复杂度
- 自我修正的触发机制未详述:论文提到低置信度可触发自修正,但具体如何实现修正策略未充分展开
- 仅在 VQA 任务上评测:更复杂的多模态推理任务(如视觉规划、多步数学推理)上的表现有待验证
相关工作与启发¶
- vs SaySelf:SaySelf 也训练模型表达置信度,但只在整体回答层面。MMBoundary 提升到步级,解决了幻觉传播问题
- vs 基于采样的置信度方法:多次采样观察一致性虽直观但计算开销大且无法定位具体步骤。MMBoundary 用内部状态单次估计,效率更高
- vs Verbalized Confidence:直接提示模型说出置信度容易被表面校准骗过,MMBoundary 通过 RL 真正对齐知识和置信度
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 步级置信度校准是重要的新方向,多源信号+SFT+RL 的完整框架设计精良
- 实验充分度: ⭐⭐⭐⭐ 三个数据集+多种指标+消融分析,但缺少更多多模态推理基准
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法描述系统化,公式和图表丰富
- 价值: ⭐⭐⭐⭐⭐ 解决MLLM的核心可靠性问题,步级置信度对AI安全和人机协作有重要意义