Refine and Align: Confidence Calibration through Multi-Agent Interaction in VQA¶
会议: AAAI 2026
arXiv: 2511.11169
代码: ayushp88/AgenticCalibration
领域: 医学图像 / 视觉问答
关键词: VQA, 置信度校准, 多智能体辩论, 视觉语言模型, AlignCal损失, 医学影像问答
一句话总结¶
提出 AlignVQA,一个基于多智能体辩论的VQA置信度校准框架:专家agent生成候选答案后,通用agent进行结构化辩论(支持论据 vs 反对论据)来修正置信度;同时提出可微分的校准感知损失 AlignCal,通过最小化校准误差上界(UBCE)来训练更校准的agent,在VQARad和ScienceQA上将ECE从0.375降至0.098。
研究背景与动机¶
领域现状:VQA(视觉问答)在医学诊断、自动驾驶、视觉辅助等高风险领域日益应用。现代VLM(视觉语言模型)如Gemma 3、Qwen2.5-VL等在准确率上不断提升,但其置信度估计严重偏高——模型"过度自信"。
现有痛点: - 过度自信问题:VLM经常在错误答案上给出高置信度。例如Gemma 3 4B在VQARad上ECE高达0.375,MCE达0.818 - 安全隐患:在医学诊断中,过度自信的错误答案可能误导临床医生;在自动驾驶中可能导致危险决策 - 现有校准方法局限:温度缩放(TS)等后处理方法受限于单次粗粒度调整;Focal Loss只间接改善校准;label smoothing粗暴地平滑所有目标 - 多智能体校准未被探索:现有多智能体VQA系统关注准确率,但未显式优化校准
核心矛盾:VLM的准确率提升并不伴随校准质量的同步改善——越准确的模型反而可能越过度自信。
本文目标 让VQA系统的置信度更真实地反映其预测的实际正确概率,尤其在医学等高风险场景。
切入角度:模拟人类的集体决策过程——通过多智能体辩论(argue for/against),让模型在交换论据后修正不合理的置信度;同时从理论上推导可微分的校准损失来训练更校准的agent。
核心 idea:多样化专家agent + 结构化辩论 + 理论驱动的校准感知损失 = 更可靠的VQA置信度。
方法详解¶
整体框架(两阶段)¶
第一阶段:专家agent集成与立场生成
- 部署4个不同VLM骨干的专家agent:Qwen2.5-VL-3B、Llava-OneVision、Gemma 3 4B、Phi-4-multimodal
- 每个agent使用不同的提示策略:Chain-of-Thought(多步推理)、Self-Ask(递归分解)、Search-style(外部检索)、GENREAD(结构化理解)
- 各agent独立生成答案 \(\hat{y}_i\) 和序列概率 \(p_i\)(通过next-token概率的几何平均推断)
- 用GPT-3.5将语义等价但词汇不同的答案合并为K个唯一立场 \(\{s_1, \ldots, s_K\}\)
- 为每个立场计算频率 \(f_k\) 和平均置信度 \(\bar{c}_k\)
第二阶段:通用agent辩论与置信度修正
- 初始化M个通用agent(Phi-4-multimodal骨干),按立场频率概率分配初始立场
- 每个agent为其立场构建支持论据(for argument),探索独特推理路径
- 其他agent提供反馈:逻辑一致性、事实性、清晰度、简洁性评分
- 用Chain-of-Verification提示检查事实性,Search-augmented agent验证不实陈述
- 每个agent获得一对支持/反对论据,综合后产出最终答案 \(y_j' = f_j(s_j, \bar{c}_j, a_p, a_n)\)
- 记录每个agent最终回复的序列概率作为修正后的置信度
- 最终答案通过多数投票选择,最终置信度为该立场支持者的平均置信度
关键设计:AlignCal 校准感知损失¶
动机:ECE等标准校准指标通过binning聚合误差,可能掩盖个体样本的置信度偏差。上界校准误差(UBCE)对每个样本计算绝对差值,是对ECE的保守上界。
UBCE形式化: $\(\text{UBCE} = \mathbb{E}[t(1-p_{\max}) + (1-t)p_{\max}]\)$
其中 \(t = \mathbb{I}\{\hat{y}=y\}\) 是正确性指示函数,\(p_{\max}\) 是最高预测置信度。
可微代理损失:由于指示函数 \(t\) 不可微,用模型自身对正确性的软信念 \(p_y\) 替代:
总损失:\(\mathcal{L}_{tot} = \mathcal{L}_{FL} + \lambda\mathcal{L}_{\text{AlignCal}}\)
其中 \(\mathcal{L}_{FL}\) 是focal loss,\(\lambda=2\)
梯度分析: - 当模型正确但不够自信(\(p_y\) 高但 \(p_{\max}\) 低):梯度推高 \(p_{\max}\) - 当模型过度自信但错误(\(p_{\max}\) 高但 \(p_y\) 低):梯度降低 \(p_{\hat{y}}\) 并提升 \(p_y\) - 自修正反馈:改善置信度 → \(p_y\) 更诚实 → 代理更紧 → 进一步改善
训练细节¶
- LoRA微调:rank=8, scaling=8, dropout=0.05,仅注入q_proj和v_proj
- 4-bit量化(BitsAndBytes)
- VQARad:6 epochs,ScienceQA:10 epochs
- Batch size=2,AdamW优化器,lr=2e-4
- NVIDIA A100 40GB GPU
实验¶
数据集¶
| 数据集 | 样本数 | 类型 | 特点 |
|---|---|---|---|
| ScienceQA | 21,208 | 多模态MCQ | 多学科科学问题 |
| VQARad | 3,515 | 医学VQA | 放射学Yes/No问答 |
SOTA VLM的校准问题(基线)¶
| 模型 | ScienceQA ECE↓ | VQARad ECE↓ | VQARad MCE↓ |
|---|---|---|---|
| LLAVA OneVision | 0.335 | 0.232 | 0.286 |
| Gemma 3 4B | 0.398 | 0.375 | 0.818 |
| Qwen2.5-VL-3B | 0.302 | 0.295 | 0.297 |
| Phi-4-multimodal | 0.574 | 0.134 | 0.425 |
所有VLM都存在严重校准问题,尤其Gemma 3在VQARad上ECE高达0.375。
方法对比(VQARad)¶
| 方法 | ACC↑ | ECE↓ | ACE↓ | MCE↓ |
|---|---|---|---|---|
| Gemma 3 4B (baseline) | 59.4% | 0.375 | 0.208 | 0.818 |
| Agentic Framework | 65.7% | 0.146 | 0.144 | 0.820 |
| Agentic + TS | 65.7% | 0.117 | 0.114 | 0.765 |
| Agentic + DC | 65.7% | 0.041 | 0.097 | 0.113 |
| Agentic + FL | 68.5% | 0.073 | 0.116 | 0.393 |
| Agentic + AlignCal + FL | 68.2% | 0.098 | 0.095 | 0.267 |
方法对比(ScienceQA)¶
| 方法 | ACC↑ | ECE↓ | ACE↓ | MCE↓ |
|---|---|---|---|---|
| Gemma 3 4B (baseline) | 71.0% | 0.398 | 0.398 | 0.464 |
| Agentic Framework | 72.8% | 0.270 | 0.265 | 0.438 |
| Agentic + AlignCal + FL | 76.1% | 0.055 | 0.110 | 0.331 |
关键发现¶
- 辩论框架有效:仅通过多智能体辩论(无AlignCal),VQARad上ECE从0.375降至0.146(-61%)
- AlignCal有效:单独使用AlignCal微调Gemma 3,ScienceQA上ECE从0.232降至0.058(-75%)
- 组合效果最佳:AlignCal微调的agent参与辩论进一步降低ECE——ScienceQA: 0.055,VQARad: 0.098
- AlignCal vs 其他训练时校准:AlignCal + FL 显著优于单独的Focal Loss(ECE: 0.055 vs 0.180 on ScienceQA)和Label Smoothing(ECE: 0.055 vs 0.186)
- 后处理方法比较:Dirichlet Calibration在VQARad上ECE降至0.041,但在ScienceQA上不可用(无法获取其他选项概率)
- 准确率也提升:ScienceQA上从71.0%提至76.1%,校准和准确率不矛盾
亮点与洞察¶
- 理论驱动的损失设计:AlignCal不是启发式的,而是从UBCE的数学推导得到的可微代理——通过plug-in principle替换不可微的正确性指示函数,具有严格的理论保证
- 自修正反馈机制:AlignCal的梯度分析揭示了一个优美的自修正循环——改善置信度 → \(p_y\) 更准确 → 代理损失更紧 → 进一步改善
- 辩论框架直觉正确:模拟人类集体决策——通过支持/反对论据的交换,高置信度的错误答案在辩论中更容易被纠正
- 多样性是校准的关键:4种不同VLM + 4种提示策略确保了意见多样性,避免了集体偏见
- VQA校准的首次多智能体方法:之前没有工作将多智能体辩论用于VQA的置信度校准
局限性¶
- 计算成本高:4个VLM骨干 + 辩论过程 + GPT-3.5判断语义等价,推理延迟和API成本显著
- MCE指标改善有限:UBCE是期望值上界,不直接保证最坏情况(MCE),VQARad上MCE仍高达0.267-0.820
- 仅验证MCQ场景:仅在多选题VQA上验证,开放式VQA的校准未测试
- 数据集规模较小:VQARad仅3,515个问题,ScienceQA虽大但非医学专用
- 依赖GPT-3.5:语义等价判断依赖外部模型,增加推理依赖
- VLM骨干固定:框架虽然声称model-agnostic,但实际只测试了4种3-5B参数的小型VLM
- 辩论轮数和agent数量的影响:主文中仅在附录提及,消融不够充分
相关工作¶
- 训练时校准:Label Smoothing, Focal Loss, MMCE (核化校准惩罚)
- 后处理校准:Temperature Scaling, Dirichlet Calibration, Platt Scaling
- LLM多智能体校准:Collaborative Calibration (共享预测和推理的群体对话)
- VQA校准:Whitehead (选择性回答), GLEN (模型简化+focal loss), IVON (贝叶斯变分微调)
- 多智能体VQA:Top-Down Reasoning (responder+seeker+integrator), ARE (动作推理)
评分与推荐¶
⭐⭐⭐⭐ (4/5)
- 创新性: ⭐⭐⭐⭐⭐ — AlignCal损失理论推导优美,多智能体校准思路新颖
- 实验: ⭐⭐⭐⭐ — 多方法对比充分,但数据集有限
- 写作: ⭐⭐⭐ — 理论推导详细但部分内容重复
- 实用性: ⭐⭐⭐ — 推理开销较大,AlignCal损失单独可用于微调
相关论文¶
- [AAAI 2026] LungNoduleAgent: A Collaborative Multi-Agent System for Precision Diagnosis of Lung Nodules
- [ACL 2025] Align-Pro: Align Protein Representations Through Multi-Modal Learning
- [AAAI 2026] MAMA-Memeia! Multi-Aspect Multi-Agent Collaboration for Depressive Symptoms Identification in Memes
- [AAAI 2026] MAPI-GNN: Multi-Activation Plane Interaction Graph Neural Network for Multimodal Medical Diagnosis
- [AAAI 2026] Bidirectional Channel-selective Semantic Interaction for Semi-Supervised Medical Segmentation