Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional¶
会议: ICLR2026
arXiv: 2509.23499
代码: 待确认
领域: multimodal_vlm
关键词: 多模态基准评测, VQA, 模态偏差, 单模态捷径, MLLM
一句话总结¶
大规模实证研究揭示23个VQA基准中存在严重的单模态依赖问题——许多为消除文本偏差而设计的基准反而引入了图像偏差,模型利用单模态捷径而非真正的跨模态推理。
研究背景与动机¶
- 多模态大语言模型(MLLM)在各种VQA基准上性能飙升,但这些高分是否真正反映了跨模态理解能力?
- 早期VQA研究已发现text-only bias问题(模型仅看问题就能答对),社区据此设计了一批"去偏"基准
- 然而,这些去偏基准是否真正解决了问题?是否引入了新的偏差?缺乏系统性量化研究
- 需要一个统一框架来度量数据集中的intra-modality dependency(单模态内的可预测性)和inter-modality dependency(跨模态的必要性)
方法详解¶
关键设计¶
- 多模态数据谱(Multi-modal Data Spectrum):
- 提出一个二维空间来刻画每个数据集:X轴=文本模态依赖强度,Y轴=图像模态依赖强度
- 使用信息论指标量化各模态对答案的条件互信息
- 单模态探测实验:
- Text-only: 仅输入问题(不给图像),测MLLM准确率
- Image-only: 仅输入图像(不给问题),测MLLM准确率
- Full: 同时输入图像+问题
- 三者的gap量化了跨模态推理的真实贡献
- 跨模型分析:对比不同规模MLLM(7B到72B)在各偏差模式下的行为差异
- 覆盖23个VQA基准:包括VQAv2、GQA、OKVQA、TextVQA、ChartQA、DocVQA等经典和新近基准
实验关键数据¶
- 核心发现:许多为消除text-only bias设计的基准(如GQA),实际引入了image-only bias——模型不看问题就能答对相当比例的题目
- 模型规模效应:更大的MLLM(如72B)更善于利用单模态捷径,而非进行更多跨模态推理
- Text-only准确率:部分基准text-only准确率高达60-70%(如OKVQA),说明"需要外部知识"的标签名不副实
- Image-only准确率:ChartQA、DocVQA等图表类基准image-only效果出奇地高
- 真正需要跨模态推理的基准很少——大多数基准可被单模态信号大幅解决
亮点与洞察¶
- 首次系统量化了23个主流VQA基准的模态偏差分布,结论直击社区痛点
- "消除text bias → 引入image bias"的发现非常反直觉,对基准设计有重要警示
- 大模型更善于利用捷径的结论挑战了"scale solves everything"的假设
- 数据谱框架简洁通用,可扩展到其他多模态任务(音视频VQA、多模态检索等)
局限性/可改进方向¶
- 分析主要基于黑盒探测(text-only/image-only测试),缺乏模型内部机制的分析(如注意力、梯度)
- 仅覆盖VQA范式,多模态生成、检索等任务模式未涉及
- 数据谱的量化指标依赖于特定MLLM的能力天花板,不同模型可能给出不同的谱分布
- 未给出如何设计"真正需要跨模态推理"的基准的具体建议
相关工作与启发¶
- VQA偏差分析:VQA-CP、AdVQA——本文将单点偏差分析推广到系统化谱分析
- MLLM评测:MMBench、MM-Vet——本文揭示这些评测可能高估了跨模态推理能力
- 数据集设计:Balanced VQA、CounterFactual VQA——消除了一种bias但引入了另一种
- 启发:未来多模态基准设计应先在数据谱上标定偏差分布,确保跨模态推理是真正的瓶颈而非捷径
- 延伸思考:数据谱方法论可推广到audio-language、video-language等更多模态组合的基准质量审计
评分¶
- 新颖性: ⭐⭐⭐⭐ (数据谱框架新颖,发现有价值)
- 实验充分度: ⭐⭐⭐⭐⭐ (23个基准+多模型规模,极为全面)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,可视化直观)
- 价值: ⭐⭐⭐⭐⭐ (对社区基准设计和模型评测有直接指导意义)