跳转至

Refine and Align: Confidence Calibration through Multi-Agent Interaction in VQA

会议: AAAI 2026
arXiv: 2511.11169
代码: ayushp88/AgenticCalibration
领域: 医学图像 / 视觉问答
关键词: VQA, 置信度校准, 多智能体辩论, 视觉语言模型, AlignCal损失, 医学影像问答

一句话总结

提出 AlignVQA,一个基于多智能体辩论的VQA置信度校准框架:专家agent生成候选答案后,通用agent进行结构化辩论(支持论据 vs 反对论据)来修正置信度;同时提出可微分的校准感知损失 AlignCal,通过最小化校准误差上界(UBCE)来训练更校准的agent,在VQARad和ScienceQA上将ECE从0.375降至0.098。

研究背景与动机

领域现状:VQA(视觉问答)在医学诊断、自动驾驶、视觉辅助等高风险领域日益应用。现代VLM(视觉语言模型)如Gemma 3、Qwen2.5-VL等在准确率上不断提升,但其置信度估计严重偏高——模型"过度自信"。

现有痛点: - 过度自信问题:VLM经常在错误答案上给出高置信度。例如Gemma 3 4B在VQARad上ECE高达0.375,MCE达0.818 - 安全隐患:在医学诊断中,过度自信的错误答案可能误导临床医生;在自动驾驶中可能导致危险决策 - 现有校准方法局限:温度缩放(TS)等后处理方法受限于单次粗粒度调整;Focal Loss只间接改善校准;label smoothing粗暴地平滑所有目标 - 多智能体校准未被探索:现有多智能体VQA系统关注准确率,但未显式优化校准

核心矛盾:VLM的准确率提升并不伴随校准质量的同步改善——越准确的模型反而可能越过度自信。

本文目标 让VQA系统的置信度更真实地反映其预测的实际正确概率,尤其在医学等高风险场景。

切入角度:模拟人类的集体决策过程——通过多智能体辩论(argue for/against),让模型在交换论据后修正不合理的置信度;同时从理论上推导可微分的校准损失来训练更校准的agent。

核心 idea:多样化专家agent + 结构化辩论 + 理论驱动的校准感知损失 = 更可靠的VQA置信度。

方法详解

整体框架(两阶段)

第一阶段:专家agent集成与立场生成

  1. 部署4个不同VLM骨干的专家agent:Qwen2.5-VL-3B、Llava-OneVision、Gemma 3 4B、Phi-4-multimodal
  2. 每个agent使用不同的提示策略:Chain-of-Thought(多步推理)、Self-Ask(递归分解)、Search-style(外部检索)、GENREAD(结构化理解)
  3. 各agent独立生成答案 \(\hat{y}_i\) 和序列概率 \(p_i\)(通过next-token概率的几何平均推断)
  4. 用GPT-3.5将语义等价但词汇不同的答案合并为K个唯一立场 \(\{s_1, \ldots, s_K\}\)
  5. 为每个立场计算频率 \(f_k\) 和平均置信度 \(\bar{c}_k\)

第二阶段:通用agent辩论与置信度修正

  1. 初始化M个通用agent(Phi-4-multimodal骨干),按立场频率概率分配初始立场
  2. 每个agent为其立场构建支持论据(for argument),探索独特推理路径
  3. 其他agent提供反馈:逻辑一致性、事实性、清晰度、简洁性评分
  4. 用Chain-of-Verification提示检查事实性,Search-augmented agent验证不实陈述
  5. 每个agent获得一对支持/反对论据,综合后产出最终答案 \(y_j' = f_j(s_j, \bar{c}_j, a_p, a_n)\)
  6. 记录每个agent最终回复的序列概率作为修正后的置信度
  7. 最终答案通过多数投票选择,最终置信度为该立场支持者的平均置信度

关键设计:AlignCal 校准感知损失

动机:ECE等标准校准指标通过binning聚合误差,可能掩盖个体样本的置信度偏差。上界校准误差(UBCE)对每个样本计算绝对差值,是对ECE的保守上界。

UBCE形式化: $\(\text{UBCE} = \mathbb{E}[t(1-p_{\max}) + (1-t)p_{\max}]\)$

其中 \(t = \mathbb{I}\{\hat{y}=y\}\) 是正确性指示函数,\(p_{\max}\) 是最高预测置信度。

可微代理损失:由于指示函数 \(t\) 不可微,用模型自身对正确性的软信念 \(p_y\) 替代:

\[\mathcal{L}_{\text{AlignCal}}(p_y, p_{\max}) = p_y(1-p_{\max}) + (1-p_y)p_{\max}\]

总损失\(\mathcal{L}_{tot} = \mathcal{L}_{FL} + \lambda\mathcal{L}_{\text{AlignCal}}\)

其中 \(\mathcal{L}_{FL}\) 是focal loss,\(\lambda=2\)

梯度分析: - 当模型正确但不够自信(\(p_y\) 高但 \(p_{\max}\) 低):梯度推高 \(p_{\max}\) - 当模型过度自信但错误(\(p_{\max}\) 高但 \(p_y\) 低):梯度降低 \(p_{\hat{y}}\) 并提升 \(p_y\) - 自修正反馈:改善置信度 → \(p_y\) 更诚实 → 代理更紧 → 进一步改善

训练细节

  • LoRA微调:rank=8, scaling=8, dropout=0.05,仅注入q_proj和v_proj
  • 4-bit量化(BitsAndBytes)
  • VQARad:6 epochs,ScienceQA:10 epochs
  • Batch size=2,AdamW优化器,lr=2e-4
  • NVIDIA A100 40GB GPU

实验

数据集

数据集 样本数 类型 特点
ScienceQA 21,208 多模态MCQ 多学科科学问题
VQARad 3,515 医学VQA 放射学Yes/No问答

SOTA VLM的校准问题(基线)

模型 ScienceQA ECE↓ VQARad ECE↓ VQARad MCE↓
LLAVA OneVision 0.335 0.232 0.286
Gemma 3 4B 0.398 0.375 0.818
Qwen2.5-VL-3B 0.302 0.295 0.297
Phi-4-multimodal 0.574 0.134 0.425

所有VLM都存在严重校准问题,尤其Gemma 3在VQARad上ECE高达0.375。

方法对比(VQARad)

方法 ACC↑ ECE↓ ACE↓ MCE↓
Gemma 3 4B (baseline) 59.4% 0.375 0.208 0.818
Agentic Framework 65.7% 0.146 0.144 0.820
Agentic + TS 65.7% 0.117 0.114 0.765
Agentic + DC 65.7% 0.041 0.097 0.113
Agentic + FL 68.5% 0.073 0.116 0.393
Agentic + AlignCal + FL 68.2% 0.098 0.095 0.267

方法对比(ScienceQA)

方法 ACC↑ ECE↓ ACE↓ MCE↓
Gemma 3 4B (baseline) 71.0% 0.398 0.398 0.464
Agentic Framework 72.8% 0.270 0.265 0.438
Agentic + AlignCal + FL 76.1% 0.055 0.110 0.331

关键发现

  1. 辩论框架有效:仅通过多智能体辩论(无AlignCal),VQARad上ECE从0.375降至0.146(-61%)
  2. AlignCal有效:单独使用AlignCal微调Gemma 3,ScienceQA上ECE从0.232降至0.058(-75%)
  3. 组合效果最佳:AlignCal微调的agent参与辩论进一步降低ECE——ScienceQA: 0.055,VQARad: 0.098
  4. AlignCal vs 其他训练时校准:AlignCal + FL 显著优于单独的Focal Loss(ECE: 0.055 vs 0.180 on ScienceQA)和Label Smoothing(ECE: 0.055 vs 0.186)
  5. 后处理方法比较:Dirichlet Calibration在VQARad上ECE降至0.041,但在ScienceQA上不可用(无法获取其他选项概率)
  6. 准确率也提升:ScienceQA上从71.0%提至76.1%,校准和准确率不矛盾

亮点与洞察

  1. 理论驱动的损失设计:AlignCal不是启发式的,而是从UBCE的数学推导得到的可微代理——通过plug-in principle替换不可微的正确性指示函数,具有严格的理论保证
  2. 自修正反馈机制:AlignCal的梯度分析揭示了一个优美的自修正循环——改善置信度 → \(p_y\) 更准确 → 代理损失更紧 → 进一步改善
  3. 辩论框架直觉正确:模拟人类集体决策——通过支持/反对论据的交换,高置信度的错误答案在辩论中更容易被纠正
  4. 多样性是校准的关键:4种不同VLM + 4种提示策略确保了意见多样性,避免了集体偏见
  5. VQA校准的首次多智能体方法:之前没有工作将多智能体辩论用于VQA的置信度校准

局限性

  1. 计算成本高:4个VLM骨干 + 辩论过程 + GPT-3.5判断语义等价,推理延迟和API成本显著
  2. MCE指标改善有限:UBCE是期望值上界,不直接保证最坏情况(MCE),VQARad上MCE仍高达0.267-0.820
  3. 仅验证MCQ场景:仅在多选题VQA上验证,开放式VQA的校准未测试
  4. 数据集规模较小:VQARad仅3,515个问题,ScienceQA虽大但非医学专用
  5. 依赖GPT-3.5:语义等价判断依赖外部模型,增加推理依赖
  6. VLM骨干固定:框架虽然声称model-agnostic,但实际只测试了4种3-5B参数的小型VLM
  7. 辩论轮数和agent数量的影响:主文中仅在附录提及,消融不够充分

相关工作

  • 训练时校准:Label Smoothing, Focal Loss, MMCE (核化校准惩罚)
  • 后处理校准:Temperature Scaling, Dirichlet Calibration, Platt Scaling
  • LLM多智能体校准:Collaborative Calibration (共享预测和推理的群体对话)
  • VQA校准:Whitehead (选择性回答), GLEN (模型简化+focal loss), IVON (贝叶斯变分微调)
  • 多智能体VQA:Top-Down Reasoning (responder+seeker+integrator), ARE (动作推理)

评分与推荐

⭐⭐⭐⭐ (4/5)

  • 创新性: ⭐⭐⭐⭐⭐ — AlignCal损失理论推导优美,多智能体校准思路新颖
  • 实验: ⭐⭐⭐⭐ — 多方法对比充分,但数据集有限
  • 写作: ⭐⭐⭐ — 理论推导详细但部分内容重复
  • 实用性: ⭐⭐⭐ — 推理开销较大,AlignCal损失单独可用于微调

相关论文