跳转至

Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional

会议: ICLR2026
arXiv: 2509.23499
代码: 待确认
领域: multimodal_vlm
关键词: 多模态基准评测, VQA, 模态偏差, 单模态捷径, MLLM

一句话总结

大规模实证研究揭示23个VQA基准中存在严重的单模态依赖问题——许多为消除文本偏差而设计的基准反而引入了图像偏差,模型利用单模态捷径而非真正的跨模态推理。

研究背景与动机

  • 多模态大语言模型(MLLM)在各种VQA基准上性能飙升,但这些高分是否真正反映了跨模态理解能力?
  • 早期VQA研究已发现text-only bias问题(模型仅看问题就能答对),社区据此设计了一批"去偏"基准
  • 然而,这些去偏基准是否真正解决了问题?是否引入了新的偏差?缺乏系统性量化研究
  • 需要一个统一框架来度量数据集中的intra-modality dependency(单模态内的可预测性)和inter-modality dependency(跨模态的必要性)

方法详解

关键设计

  1. 多模态数据谱(Multi-modal Data Spectrum)
  2. 提出一个二维空间来刻画每个数据集:X轴=文本模态依赖强度,Y轴=图像模态依赖强度
  3. 使用信息论指标量化各模态对答案的条件互信息
  4. 单模态探测实验
  5. Text-only: 仅输入问题(不给图像),测MLLM准确率
  6. Image-only: 仅输入图像(不给问题),测MLLM准确率
  7. Full: 同时输入图像+问题
  8. 三者的gap量化了跨模态推理的真实贡献
  9. 跨模型分析:对比不同规模MLLM(7B到72B)在各偏差模式下的行为差异
  10. 覆盖23个VQA基准:包括VQAv2、GQA、OKVQA、TextVQA、ChartQA、DocVQA等经典和新近基准

实验关键数据

  • 核心发现:许多为消除text-only bias设计的基准(如GQA),实际引入了image-only bias——模型不看问题就能答对相当比例的题目
  • 模型规模效应:更大的MLLM(如72B)更善于利用单模态捷径,而非进行更多跨模态推理
  • Text-only准确率:部分基准text-only准确率高达60-70%(如OKVQA),说明"需要外部知识"的标签名不副实
  • Image-only准确率:ChartQA、DocVQA等图表类基准image-only效果出奇地高
  • 真正需要跨模态推理的基准很少——大多数基准可被单模态信号大幅解决

亮点与洞察

  • 首次系统量化了23个主流VQA基准的模态偏差分布,结论直击社区痛点
  • "消除text bias → 引入image bias"的发现非常反直觉,对基准设计有重要警示
  • 大模型更善于利用捷径的结论挑战了"scale solves everything"的假设
  • 数据谱框架简洁通用,可扩展到其他多模态任务(音视频VQA、多模态检索等)

局限性/可改进方向

  • 分析主要基于黑盒探测(text-only/image-only测试),缺乏模型内部机制的分析(如注意力、梯度)
  • 仅覆盖VQA范式,多模态生成、检索等任务模式未涉及
  • 数据谱的量化指标依赖于特定MLLM的能力天花板,不同模型可能给出不同的谱分布
  • 未给出如何设计"真正需要跨模态推理"的基准的具体建议

相关工作与启发

  • VQA偏差分析:VQA-CP、AdVQA——本文将单点偏差分析推广到系统化谱分析
  • MLLM评测:MMBench、MM-Vet——本文揭示这些评测可能高估了跨模态推理能力
  • 数据集设计:Balanced VQA、CounterFactual VQA——消除了一种bias但引入了另一种
  • 启发:未来多模态基准设计应先在数据谱上标定偏差分布,确保跨模态推理是真正的瓶颈而非捷径
  • 延伸思考:数据谱方法论可推广到audio-language、video-language等更多模态组合的基准质量审计

评分

  • 新颖性: ⭐⭐⭐⭐ (数据谱框架新颖,发现有价值)
  • 实验充分度: ⭐⭐⭐⭐⭐ (23个基准+多模型规模,极为全面)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,可视化直观)
  • 价值: ⭐⭐⭐⭐⭐ (对社区基准设计和模型评测有直接指导意义)