跳转至

CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution

会议: AAAI 2026
arXiv: 2511.21717
代码: 未公开
领域: 多模态VLM
关键词: 多模态冲突检测, 组合推理失败, Benchmark, 跨模态一致性, 矛盾推理

一句话总结

构建CrossCheck-Bench——首个专注于多模态矛盾检测与解决的诊断基准,包含15K QA对、3层推理复杂度和7种原子能力,发现13个SOTA VLM从感知匹配到逻辑矛盾检测性能一致下降,CoT/SoM等提示策略收效甚微,仅交错符号推理+视觉grounding的方法才有稳定提升。

背景与动机

现有MLLM主要在对齐的图文对上训练和评估,但现实场景中视觉和文本线索常常冲突——这要求模型具备超越表面对齐的结构化推理能力。这一能力目前缺乏系统的评估基准和深入分析,严重制约了模型在开放域应用中的可靠性(如事实核查、文档验证、新闻审核等)。

核心问题

MLLM在面对跨模态矛盾时的推理能力如何?它们的失败模式是什么?传统提示策略能否有效解决?这些问题此前缺乏标准化的评估框架来回答。

方法详解

整体框架

CrossCheck-Bench采用分层任务框架: - Level 1 (Perception): 单模态实体识别——模型能否正确感知图像/文本中的各个实体 - Level 2 (Integration): 跨模态信息整合——模型能否将多模态线索综合起来 - Level 3 (Reasoning): 逻辑矛盾检测——模型能否基于综合信息进行推理判断矛盾

关键设计

  1. 7种原子能力定义: 覆盖从基础感知到高阶推理的完整技能谱系,为诊断模型弱点提供细粒度工具
  2. 多阶段标注流水线: 从真实世界artifacts出发+合成注入矛盾,累计450+小时专家标注,确保语义有效性和跨层级难度校准
  3. 15K QA对: 规模大、覆盖广,跨多种矛盾类型和推理深度

损失函数 / 训练策略

这是一个benchmark论文,无训练方法。评估了13个SOTA VLM。

实验关键数据

  • 所有模型从Level 1到Level 3性能一致下降——单实体识别表现好,但多线索综合和矛盾推理大幅退化
  • 能力层面分析揭示不均匀的技能获得——需要多步推理或规则验证的任务尤其薄弱
  • CoT和SoM提示策略仅带来边际提升(几乎无效)
  • 交错符号推理+grounded视觉处理的方法获得更稳定改进

消融实验要点

  • Level 1→Level 3逐级递增的难度梯度设计合理,确认了模型性能退化不是noise而是系统性缺陷
  • 不同VLM在7种原子能力上的profile差异大——某些模型感知强但推理弱,反之亦然
  • 常规提示工程对矛盾检测几乎无效,暗示需要更根本的架构或训练变革

亮点

  • 填补重要空白——多模态矛盾检测是VLM可靠部署的关键但被忽视的能力
  • 分层任务框架使得诊断非常系统——可以精确定位模型在哪个推理层级、哪种原子能力上失败
  • "CoT对矛盾检测无效"的发现有重要启示——表明矛盾推理需要完全不同于常规QA的处理范式
  • 450+小时专家标注确保了数据质量

局限性 / 可改进方向

  • 仅基于abstract level信息,具体per-model数字未获取到完整数据
  • 合成注入矛盾可能不完全反映真实世界的自然矛盾模式
  • 未提出解决方案——仅诊断问题
  • 矛盾类型可能需要扩展到更多modality(如视频、音频)

与相关工作的对比

  • 区别于POPE(只测幻觉)、MMBench(综合能力)——CrossCheck-Bench专注于模态间冲突而非对齐
  • 与CrossVid(跨视频推理)互补——CrossVid测跨源推理,CrossCheck测同源矛盾

启发与关联

  • 矛盾检测能力的缺失可能需要从训练数据入手——加入deliberate contradictions作为训练样本
  • "符号推理+视觉grounding"的组合可以参考Concept-RuleNet的思路
  • 可以与AStar的thought cards结合——为矛盾检测任务专门设计"矛盾推理模板"

评分

  • 新颖性: ⭐⭐⭐⭐ 聚焦于被忽视但重要的跨模态矛盾检测能力
  • 实验充分度: ⭐⭐⭐⭐ 13个模型+分层分析+多策略对比
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,框架设计系统
  • 价值: ⭐⭐⭐⭐ 诊断性benchmark有长期影响力,但缺少解决方案