CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution¶
会议: AAAI 2026
arXiv: 2511.21717
代码: 未公开
领域: 多模态VLM
关键词: 多模态冲突检测, 组合推理失败, Benchmark, 跨模态一致性, 矛盾推理
一句话总结¶
构建CrossCheck-Bench——首个专注于多模态矛盾检测与解决的诊断基准,包含15K QA对、3层推理复杂度和7种原子能力,发现13个SOTA VLM从感知匹配到逻辑矛盾检测性能一致下降,CoT/SoM等提示策略收效甚微,仅交错符号推理+视觉grounding的方法才有稳定提升。
背景与动机¶
现有MLLM主要在对齐的图文对上训练和评估,但现实场景中视觉和文本线索常常冲突——这要求模型具备超越表面对齐的结构化推理能力。这一能力目前缺乏系统的评估基准和深入分析,严重制约了模型在开放域应用中的可靠性(如事实核查、文档验证、新闻审核等)。
核心问题¶
MLLM在面对跨模态矛盾时的推理能力如何?它们的失败模式是什么?传统提示策略能否有效解决?这些问题此前缺乏标准化的评估框架来回答。
方法详解¶
整体框架¶
CrossCheck-Bench采用分层任务框架: - Level 1 (Perception): 单模态实体识别——模型能否正确感知图像/文本中的各个实体 - Level 2 (Integration): 跨模态信息整合——模型能否将多模态线索综合起来 - Level 3 (Reasoning): 逻辑矛盾检测——模型能否基于综合信息进行推理判断矛盾
关键设计¶
- 7种原子能力定义: 覆盖从基础感知到高阶推理的完整技能谱系,为诊断模型弱点提供细粒度工具
- 多阶段标注流水线: 从真实世界artifacts出发+合成注入矛盾,累计450+小时专家标注,确保语义有效性和跨层级难度校准
- 15K QA对: 规模大、覆盖广,跨多种矛盾类型和推理深度
损失函数 / 训练策略¶
这是一个benchmark论文,无训练方法。评估了13个SOTA VLM。
实验关键数据¶
- 所有模型从Level 1到Level 3性能一致下降——单实体识别表现好,但多线索综合和矛盾推理大幅退化
- 能力层面分析揭示不均匀的技能获得——需要多步推理或规则验证的任务尤其薄弱
- CoT和SoM提示策略仅带来边际提升(几乎无效)
- 交错符号推理+grounded视觉处理的方法获得更稳定改进
消融实验要点¶
- Level 1→Level 3逐级递增的难度梯度设计合理,确认了模型性能退化不是noise而是系统性缺陷
- 不同VLM在7种原子能力上的profile差异大——某些模型感知强但推理弱,反之亦然
- 常规提示工程对矛盾检测几乎无效,暗示需要更根本的架构或训练变革
亮点¶
- 填补重要空白——多模态矛盾检测是VLM可靠部署的关键但被忽视的能力
- 分层任务框架使得诊断非常系统——可以精确定位模型在哪个推理层级、哪种原子能力上失败
- "CoT对矛盾检测无效"的发现有重要启示——表明矛盾推理需要完全不同于常规QA的处理范式
- 450+小时专家标注确保了数据质量
局限性 / 可改进方向¶
- 仅基于abstract level信息,具体per-model数字未获取到完整数据
- 合成注入矛盾可能不完全反映真实世界的自然矛盾模式
- 未提出解决方案——仅诊断问题
- 矛盾类型可能需要扩展到更多modality(如视频、音频)
与相关工作的对比¶
- 区别于POPE(只测幻觉)、MMBench(综合能力)——CrossCheck-Bench专注于模态间冲突而非对齐
- 与CrossVid(跨视频推理)互补——CrossVid测跨源推理,CrossCheck测同源矛盾
启发与关联¶
- 矛盾检测能力的缺失可能需要从训练数据入手——加入deliberate contradictions作为训练样本
- "符号推理+视觉grounding"的组合可以参考Concept-RuleNet的思路
- 可以与AStar的thought cards结合——为矛盾检测任务专门设计"矛盾推理模板"
评分¶
- 新颖性: ⭐⭐⭐⭐ 聚焦于被忽视但重要的跨模态矛盾检测能力
- 实验充分度: ⭐⭐⭐⭐ 13个模型+分层分析+多策略对比
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,框架设计系统
- 价值: ⭐⭐⭐⭐ 诊断性benchmark有长期影响力,但缺少解决方案