跳转至

VisNec: Measuring and Leveraging Visual Necessity for Multimodal Instruction Tuning

日期: 2026-03-01
arXiv: 2603.01195
代码: 即将开源
领域: 多模态VLM / 数据选择
关键词: visual necessity, data selection, multimodal instruction tuning, LLaVA, data efficiency

一句话总结

VisNec 提出"视觉必要性分数"——通过比较有/无视觉输入时的预测损失差异来量化每个训练样本是否真正需要视觉推理,配合语义聚类保持任务多样性。仅用 LLaVA-665K 的 15% 数据达到 100.2% 的全量性能,在 Vision-Flan-186K 上甚至超过全量训练 15.8%。

研究背景与动机

  1. 领域现状:多模态指令微调(如 LLaVA)依赖大规模图文数据对。但数据中存在大量"视觉冗余"样本——不看图片也能用纯文本答对(如常识问题配了图但图无关紧要)。
  2. 现有痛点:(a) 视觉冗余样本不仅浪费训练计算,还可能让模型学会"忽略图片"的捷径;(b) 更糟的是存在"多模态失配"样本——图文标注不一致甚至矛盾,会损害学习;(c) 现有数据选择方法(如质量过滤、难度过滤)不量化"视觉是否必要"
  3. 核心矛盾:数据越多越好?不——视觉冗余和多模态失配的数据反而伤害模型
  4. 切入角度:用一个简单的信息论标准——"有无视觉输入的预测损失差"——精确度量视觉必要性
  5. 核心 ideaVisNec = Loss(无图) - Loss(有图),正值 = 视觉关键样本,接近零 = 视觉冗余,负值 = 多模态失配。选高 VisNec 样本训练

方法详解

整体框架

给定多模态训练集 → 用基础模型分别算每个样本有图和无图时的 loss → 计算 VisNec 分数 → 语义聚类保持任务多样性 → 每个聚类内选高 VisNec 样本 → 子集训练。

关键设计

  1. Visual Necessity Score(VisNec)

    • 做什么:量化单个训练样本中视觉输入的边际贡献
    • 核心思路:\(\text{VisNec}(x) = \mathcal{L}(y|t) - \mathcal{L}(y|t, v)\),其中 \(t\) 是文本、\(v\) 是视觉输入、\(y\) 是标签
    • 三类样本分类:
    • VisNec >> 0:视觉关键(必须看图才能答对)→ 保留
    • VisNec ≈ 0:视觉冗余(不看图也能答对)→ 可剔除
    • VisNec < 0:多模态失配(看图反而答错)→ 必须剔除
  2. 语义聚类多样性保持

    • 做什么:避免只选某一类高 VisNec 样本导致任务分布偏斜
    • 核心思路:对所有样本做语义嵌入聚类(如 CLIP 嵌入 + K-Means),在每个聚类内按 VisNec 排序选 Top-K
    • 设计动机:纯按 VisNec 全局排序会过度偏向复杂视觉任务(如细粒度识别),忽略简单但必要的任务(如 OCR)
  3. 计算效率

    • VisNec 计算只需在基础模型上做一轮前向传播(有图/无图各一次)
    • 不需要训练任何额外模型

实验关键数据

主实验

数据集 选择比例 相对全量性能
LLaVA-665K 15% 100.2%
Vision-Flan-186K 15% 115.8%

10 个下游 Benchmark 详细结果

Benchmark Full Data VisNec 15% 差异
VQAv2 基准 ≈基准 持平
GQA 基准 ≈基准 持平
POPE 基准 +轻微 幻觉减少
TextVQA 基准 ≈基准 持平
MMBench 基准 +轻微 综合提升

消融实验

配置 相对性能 说明
随机选 15% 90-95% 基本下降
按数据质量选 15% 95-98% 不错但不最优
按 VisNec 选(无聚类) 98-100% 可能任务偏斜
VisNec + 聚类 100.2% 最优

关键发现

  • 85% 的数据是可以安全丢弃的——大多数样本要么视觉冗余要么多模态失配
  • 在 Vision-Flan 上超过全量 15.8% 说明有害数据比没有数据更糟——少即是多
  • 多模态失配样本(VisNec < 0)是伤害最大的——它们让模型学会忽略视觉输入
  • 语义聚类对维持任务多样性至关重要——纯 VisNec 选择会过度偏向密集视觉推理任务
  • POPE 幻觉指标改善说明去除冗余样本有助于减少"懒惰捷径"

亮点与洞察

  • 信息论标准的极致简洁\(\mathcal{L}(\text{无图}) - \mathcal{L}(\text{有图})\) 就能精确量化视觉必要性——不需要复杂模型或人工标注
  • 85% 可丢弃的惊人发现:直接挑战了"数据越多越好"的直觉,对多模态数据构建有范式性启示
  • 对幻觉的间接贡献:去除视觉冗余样本 → 模型不再走纯文本捷径 → 幻觉减少

局限性 / 可改进方向

  • VisNec 计算依赖一个基础模型——模型选择可能影响分数
  • 15% 是经验选择,最优比例可能因数据集而异
  • 未探索动态数据选择(随训练进程调整选择策略)
  • 在更大 VLM(如 LLaVA-34B)上的验证待补充

相关工作与启发

  • vs LESS: LESS 用梯度相似性选数据,VisNec 用 loss 差更直接且计算更轻
  • vs 数据质量过滤: 质量过滤不区分"质量好但视觉无关"的样本,VisNec 专门处理这个盲区

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 视觉必要性分数的定义简洁优雅,揭示了85%冗余的惊人事实
  • 实验充分度: ⭐⭐⭐⭐⭐ 10 个 benchmark + 两个数据集 + 充分消融
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,实验有说服力
  • 价值: ⭐⭐⭐⭐⭐ 对多模态数据构建和训练效率有范式性指导