CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution¶

会议: AAAI2026
arXiv: 2511.21717
代码: https://github.com/bytedance/CrossCheck-Bench (有)
领域: 多模态评估 / VLM推理
关键词: [多模态冲突检测, 组合推理, 诊断评估, 视觉语言模型, 层级基准]

一句话总结¶

构建包含15k对抗性QA样本的三级层次基准CrossCheck-Bench，通过7种原子能力和15个任务诊断VLM在多模态冲突解决中的组合推理失败，揭示从感知(L1)到推理(L3)的系统性性能衰退以及传统提示策略的局限性。

研究背景与动机¶

领域现状 开放域多模态内容中，视觉和文本线索经常相互矛盾——例如电商页面展示奢侈品牌logo却标着可疑低价，或运动鞋图配正装描述。人类能直觉地识别此类不一致，但现有VLM主要在对齐的图文对上训练和评估。

现有痛点 现有基准（VCR、MMMU、MathVista等）主要评估模态互相增强的组合任务，默认视觉-文本一致性。MMIR等不一致检测基准局限于预定义错误类型，缺乏细粒度能力诊断。没有基准能系统地测试模型是否能验证多模态信号的逻辑兼容性。

核心矛盾 VLM可能自信地肯定不兼容的线索，产生逻辑上与输入证据不一致的输出。这种能力缺陷在真实部署中构成切实风险（如判断商品真伪、内容审核）。

本文目标 如何系统地评估和诊断VLM检测、分析和解决跨模态不一致的能力。

切入角度 设计三级层次结构（感知→整合→推理）和七种原子能力的诊断框架，从真实世界数据构建有注入矛盾的评估样本。

核心 idea 通过层级化能力分解和级联失败分析，揭示VLM在多模态冲突推理中"感知层看似成功但推理层系统失败"的深层问题。

方法详解¶

整体框架¶

CrossCheck-Bench构建pipeline包含三个阶段：(1) 线索编码——从30+品类、5种语言的真实电商数据聚合为多模态线索图(MCG)，每个MCG包含(实体, 模态, 属性, 值)四元组；(2) QA组合——基于MCG采样1-n个线索生成三级层次QA对；(3) 质量控制——三步循环（专家审核、模型过滤、难度平衡），投入450+专家小时。

关键设计¶

三级诊断层次与七种原子能力:
- 功能：将多模态冲突检测能力分解为可独立测量和组合分析的细粒度单元
- 核心思路：定义七种原子能力（A1视觉定位、A2实体识别、A3属性对比、A4多帧推理、A5数值合理性、A6区域约束OCR、A7规则逻辑），构建三个认知层级——L1感知（单一能力）、L2整合（2-3能力组合）、L3推理（多步推断+规则验证）。每个层次建立在前一层基础上，形成级联依赖关系
- 设计动机：使模型失败可追溯到具体能力缺陷，区分"感知问题"和"推理问题"，实现精确的失败归因
多模态线索图(MCG)与对抗性QA生成:
- 功能：从真实世界数据构建结构化事实表征，并基于此生成具有注入矛盾的评估样本
- 核心思路：MCG构建经过实体提取（YOLOv8-L + GroundingDINO + 视觉embedding集成 + fine-tuned Qwen3-8B文本识别）、属性提取（规则模板 + GPT-4o增强）、交叉验证（GPT-4o + 15%人工审核达98.2%准确率）。最终22.8k MCG平均包含12.7个可验证线索。QA生成采用混合策略：L1模板驱动(45+规则模板)、L2模型辅助(GPT-4o生成+人工精修)、L3专家手工制作
- 设计动机：保证评估数据真实性（源自真实电商场景）、矛盾注入的可控性（通过MCG精确操控）和质量的可靠性（三步验证pipeline）

损失函数 / 训练策略¶

本文为基准评估工作，不涉及模型训练。评估采用混合评分：确定性选择题用精确匹配，开放式回答由GPT-4o语义判断。提出的MM-CoT（多模态交错思维链）分两阶段：Stage 1生成候选答案并提取视觉元素标注bbox；Stage 2将标注增强输入和推理trace一起重新输入模型进行迭代推理。

实验关键数据¶

主实验¶

模型	平均准确率	L1感知	L2整合	L3推理
Human	95.2	94.5-98.1	85.6-97.8	82.1-94.3
GPT-4.1	76.8	85.3	~80	75.7
Gemini-2.5-pro	76.2	80.9	~83.7	~70.2
InternVL3-78B	71.5	74.4	~74.0	~64.0
Qwen2.5VL-72B	69.9	75.1	~69.1	~63.6
MiMo-VL-7B	65.3	62.9	~66.1	~46.7

消融实验¶

提示策略	A5数值推理	A6 OCR	A7逻辑推断
Base (Vanilla)	61.2	58.7	49.1
CoT	62.0	56.3	50.8 ↑
SoM	62.4	60.9 ↑	48.6
CoT + SoM	61.8	59.3	50.1
CSFT (500样本)	63.5 ↑	60.2	49.5
MM-CoT (本文)	65.3 ↑	61.7 ↑	53.5 ↑

关键发现¶

所有模型从L1到L3一致出现性能衰退：GPT-4.1从85.3%降至75.7%，开源模型衰退更剧烈（MiMo-VL L1 62.9% → L3 46.7%）
原子能力组合导致12%-35%的准确率下降：单一能力表现良好但组合后崩溃
模型参数扩展在低层任务有效（Qwen2.5-VL 7B→72B L1提升近9分），但高层推理提升停滞甚至下降
人类与最佳模型间差距超18分，L3推理任务差距更大（88% vs ~76%）
传统CoT和SoM提示仅带来边际提升甚至负效果，MM-CoT通过视觉定位与符号推理的交错反馈显著更优

亮点与洞察¶

级联失败分析揭示深层问题：同一样本在L1成功但L2/L3失败，说明表面感知掩盖了推理层的崩塌
能力分解设计使失败可归因、可诊断，而非仅给出一个总分数
发现模型参数扩展对组合推理的边际收益递减，暗示纯scaling不能解决推理瓶颈
MM-CoT提供了有效的改进方向：通过推理-定位的迭代反馈循环增强跨模态验证

局限与展望¶

数据主要来自电商场景，领域多样性有待扩展到新闻、社交媒体等
MCG构建依赖GPT-4o和专家标注，成本高且难以自动化扩展
仅测试零样本QA协议，few-shot或fine-tuning场景下的表现未知
MM-CoT需要两次推理调用，推理开销翻倍
L3任务的难度标定可能受模型共识偏差影响（18%专家覆盖）

评分¶

新颖性: ⭐⭐⭐⭐ 首个层级化多模态冲突诊断基准，问题定义有新意
实验充分度: ⭐⭐⭐⭐⭐ 13个模型、15k样本、多维度分析，覆盖全面
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，数据呈现直观
价值: ⭐⭐⭐⭐ 为VLM可靠性评估和改进提供了重要工具和方向