MMBoundary: Advancing MLLM Knowledge Boundary Awareness through Reasoning Step Confidence Calibration¶

会议: ACL 2025
arXiv: 2505.23224
代码: https://github.com/Zhitao-He/MMBoundary
领域: LLM推理
关键词: 多模态LLM, 置信度校准, 推理步骤, 知识边界, 强化学习

一句话总结¶

提出 MMBoundary 框架，通过在推理链的每一步插入自然语言置信度表述（而非只在最终回答后给置信度），结合文本+跨模态的自奖励信号估计置信度，并用 SFT+RL 两阶段训练实现步级置信度校准，平均降低 7.5% 校准误差并提升 8.3% 任务准确率。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）在跨模态推理中表现出色，但可靠性存疑——它们常"自信地犯错"。现有置信度估计工作只在整体回答层面训练模型输出置信度分数。
现有痛点：(a) 整体置信度无法定位错误源头——感知层面的错误（如误识别物体）和推理层面的错误表现为同一个低置信度；(b) 错误的早期步骤不被标记，导致"幻觉滚雪球"——前一步的感知错误会在后续推理中传播放大；(c) 训练后的模型倾向输出均匀的置信度水平，无区分度。
核心矛盾：要让 MLLM 知道自己"哪里不确定"，需要步级别的细粒度置信度估计，但标注步级置信度成本极高，且模型的内部不确定性信号与表达的置信度之间存在鸿沟。
本文要解决什么？ 让 MLLM 在每一个推理步骤后自动表达校准过的自然语言置信度声明，使模型"知道自己不知道什么"。
切入角度：利用模型内部状态（token概率、熵）+ 视觉对齐信号（CLIPScore）作为步级置信度的自奖励估计，通过 SFT 预热 + PPO 强化学习两阶段实现表达和校准。
核心idea一句话：在推理链的每一句后面插入置信度声明，用多源自奖励信号估计初始置信度，再通过 RL 校准使表达的置信度与真实正确性对齐。

方法详解¶

整体框架¶

输入：图像 \(I\) + 问题 \(Q\)。输出：交替的推理步骤和置信度声明序列 \([z_1, c_1, z_2, c_2, ..., z_T, c_T]\)。两阶段训练：SFT 预热（学会生成置信度声明）→ PPO 强化学习（校准置信度准确性）。

关键设计¶

多源内部置信度估计:
做什么：综合 4 种信号估计每个句子的置信度分数
核心思路：(a) 长度归一化对数概率 \(U_{LNLP}\)——句子级平均 token 负对数概率；(b) 平均 token 熵 \(U_{MTE}\)——每个 token 分布的熵的均值；(c) TokenSAR——考虑 token 与全文相关性的加权负对数概率；(d) CLIPScore——生成文本与输入图像的 CLIP 嵌入余弦相似度。四者加权平均后映射到 5 级置信度
设计动机：单一信号不够可靠，文本不确定性方法无法捕捉视觉一致性。CLIPScore 弥补了跨模态对齐的估计缺口，使置信度估计在多模态场景下更准确
置信度分数-声明互映射:
做什么：建立数值置信度分数与自然语言声明之间的双向映射
核心思路：预设 5 级置信度声明池（从"不确定"到"完全确信"），每级包含多种表述。正向：根据估计分数从对应池随机选声明插入训练数据。反向：RL 阶段用句子编码器计算生成声明与各池声明的余弦相似度，反向映射回分数
设计动机：自然语言声明比数字分数更适合人类阅读和推理链的连贯性，同时反向映射使 RL 奖励计算成为可能
SFT 预热阶段:
做什么：微调模型学会在每句话后生成置信度声明
核心思路：用内部估计的置信度标注训练数据，在每句后插入对应声明，用标准交叉熵损失微调
设计动机：RL 直接训练从零开始太难，SFT 先让模型学会生成格式正确的声明（warm-up）
PPO 强化学习阶段:
做什么：用三个奖励函数进一步校准表达的置信度并提升回答质量
核心思路：\(R = \alpha R_{KA} + \beta R_{EC} + \gamma R_{CS}\)，其中：(a) 知识准确率奖励 \(R_{KA}\)：生成句子与参考推理链的匹配度；(b) 期望校准奖励 \(R_{EC}\)：表达置信度与实际正确性的一致性（类似 ECE）；(c) 置信度自校准奖励 \(R_{CS}\)：表达置信度与内部估计置信度的一致性
设计动机：SFT 后模型倾向生成均匀置信度，RL 通过区分性奖励鼓励高准确性→高置信度、低准确性→低置信度的对齐

损失函数 / 训练策略¶

SFT 使用标准交叉熵损失。RL 使用 PPO 算法，带 GAE 优势估计。标注参考推理链用于知识准确率奖励的计算。

实验关键数据¶

主实验¶

在 A-OKVQA、ScienceVQA、CulturalVQA 三个多模态推理数据集上评测。

方法	A-OKVQA ECE↓	A-OKVQA Acc↑	ScienceVQA ECE↓	ScienceVQA Acc↑
Vanilla	基线	基线	基线	基线
SaySelf	0.345	0.734	0.386	-
MMBoundary	最优	最优	最优	最优

平均降低 7.5% 校准误差（ECE）
提升高达 8.3% 任务准确率

消融实验¶

配置	效果	说明
完整 MMBoundary	最优	SFT + RL
只有 SFT	置信度均匀，区分度差	验证了 RL 的必要性
去掉 CLIPScore	多模态校准下降	视觉信号对跨模态置信度估计重要
去掉 \(R_{CS}\)	内外一致性下降	自校准奖励帮助对齐内部和表达置信度

关键发现¶

步级置信度比整体置信度更有用：低置信度步骤可以触发自我修正，而整体置信度即使正确步骤也混在错误中被低估
RL 阶段关键：SFT 后模型生成均匀置信度，RL 三个奖励函数协同工作才能实现有区分度的校准
跨模态信号不可或缺：CLIPScore 捕捉了纯文本方法无法估计的视觉感知不确定性
置信度提升也带来准确率提升：知识准确率奖励在校准置信度的同时优化了回答质量

亮点与洞察¶

步级置信度声明：每句话后附置信度是创新设计，使推理链变成"有自知之明"的推理。这种模式可迁移到任何需要细粒度不确定性估计的 LLM 应用
自奖励+RL 的训练范式：不需要人工标注置信度，利用模型内部状态作为自监督信号。SFT→RL 的两阶段策略优雅地解决了格式学习和校准优化的分离
自然语言置信度表述：比数字分数更直观，与推理链自然融合，也便于下游系统处理（如自动跳过低置信度步骤）

局限性 / 可改进方向¶

参考推理链依赖：知识准确率奖励需要标注参考推理链，获取成本较高
5 级置信度粒度是否足够：更细的粒度可能提供更精确的校准，但也增加映射复杂度
自我修正的触发机制未详述：论文提到低置信度可触发自修正，但具体如何实现修正策略未充分展开
仅在 VQA 任务上评测：更复杂的多模态推理任务（如视觉规划、多步数学推理）上的表现有待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 步级置信度校准是重要的新方向，多源信号+SFT+RL 的完整框架设计精良
实验充分度: ⭐⭐⭐⭐ 三个数据集+多种指标+消融分析，但缺少更多多模态推理基准
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述系统化，公式和图表丰富
价值: ⭐⭐⭐⭐⭐ 解决MLLM的核心可靠性问题，步级置信度对AI安全和人机协作有重要意义