CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution¶

会议: AAAI 2026
arXiv: 2511.21717
代码: 未公开
领域: 多模态VLM
关键词: 多模态冲突检测, 组合推理失败, Benchmark, 跨模态一致性, 矛盾推理

一句话总结¶

构建CrossCheck-Bench——首个专注于多模态矛盾检测与解决的诊断基准，包含15K QA对、3层推理复杂度和7种原子能力，发现13个SOTA VLM从感知匹配到逻辑矛盾检测性能一致下降，CoT/SoM等提示策略收效甚微，仅交错符号推理+视觉grounding的方法才有稳定提升。

背景与动机¶

现有MLLM主要在对齐的图文对上训练和评估，但现实场景中视觉和文本线索常常冲突——这要求模型具备超越表面对齐的结构化推理能力。这一能力目前缺乏系统的评估基准和深入分析，严重制约了模型在开放域应用中的可靠性（如事实核查、文档验证、新闻审核等）。

核心问题¶

MLLM在面对跨模态矛盾时的推理能力如何？它们的失败模式是什么？传统提示策略能否有效解决？这些问题此前缺乏标准化的评估框架来回答。

方法详解¶

整体框架¶

CrossCheck-Bench采用分层任务框架： - Level 1 (Perception): 单模态实体识别——模型能否正确感知图像/文本中的各个实体 - Level 2 (Integration): 跨模态信息整合——模型能否将多模态线索综合起来 - Level 3 (Reasoning): 逻辑矛盾检测——模型能否基于综合信息进行推理判断矛盾

关键设计¶

7种原子能力定义: 覆盖从基础感知到高阶推理的完整技能谱系，为诊断模型弱点提供细粒度工具
多阶段标注流水线: 从真实世界artifacts出发+合成注入矛盾，累计450+小时专家标注，确保语义有效性和跨层级难度校准
15K QA对: 规模大、覆盖广，跨多种矛盾类型和推理深度

损失函数 / 训练策略¶

这是一个benchmark论文，无训练方法。评估了13个SOTA VLM。

实验关键数据¶

所有模型从Level 1到Level 3性能一致下降——单实体识别表现好，但多线索综合和矛盾推理大幅退化
能力层面分析揭示不均匀的技能获得——需要多步推理或规则验证的任务尤其薄弱
CoT和SoM提示策略仅带来边际提升（几乎无效）
交错符号推理+grounded视觉处理的方法获得更稳定改进

消融实验要点¶

Level 1→Level 3逐级递增的难度梯度设计合理，确认了模型性能退化不是noise而是系统性缺陷
不同VLM在7种原子能力上的profile差异大——某些模型感知强但推理弱，反之亦然
常规提示工程对矛盾检测几乎无效，暗示需要更根本的架构或训练变革

亮点¶

填补重要空白——多模态矛盾检测是VLM可靠部署的关键但被忽视的能力
分层任务框架使得诊断非常系统——可以精确定位模型在哪个推理层级、哪种原子能力上失败
"CoT对矛盾检测无效"的发现有重要启示——表明矛盾推理需要完全不同于常规QA的处理范式
450+小时专家标注确保了数据质量

局限性 / 可改进方向¶

仅基于abstract level信息，具体per-model数字未获取到完整数据
合成注入矛盾可能不完全反映真实世界的自然矛盾模式
未提出解决方案——仅诊断问题
矛盾类型可能需要扩展到更多modality（如视频、音频）

与相关工作的对比¶

区别于POPE（只测幻觉）、MMBench（综合能力）——CrossCheck-Bench专注于模态间冲突而非对齐
与CrossVid（跨视频推理）互补——CrossVid测跨源推理，CrossCheck测同源矛盾

启发与关联¶

矛盾检测能力的缺失可能需要从训练数据入手——加入deliberate contradictions作为训练样本
"符号推理+视觉grounding"的组合可以参考Concept-RuleNet的思路
可以与AStar的thought cards结合——为矛盾检测任务专门设计"矛盾推理模板"

评分¶

新颖性: ⭐⭐⭐⭐ 聚焦于被忽视但重要的跨模态矛盾检测能力
实验充分度: ⭐⭐⭐⭐ 13个模型+分层分析+多策略对比
写作质量: ⭐⭐⭐⭐ 问题动机清晰，框架设计系统
价值: ⭐⭐⭐⭐ 诊断性benchmark有长期影响力，但缺少解决方案