跳转至

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

日期: 2026-03-10
arXiv: 2603.09715
代码: 无
领域: 多模态/VLM / 数据选择
关键词: data selection, visual instruction tuning, training-free, cross-modal reasoning, VLLM

一句话总结

提出 CVS(Conditional Verdict Shift),一种无需训练的 VLM 数据选择方法——利用冻结 VLLM 作为评估器,比较加入问题前后模型对答案有效性判断的变化,筛选真正需要视觉-语言联合推理的样本。在 Vision-Flan 上仅用 10%/15% 数据超越全量训练 3.5%/4.8%。

研究背景与动机

  1. 领域现状: 视觉指令微调(VIT)是提升 VLM 的关键,但很多样本可以通过语言模式或常识捷径回答,不需要真正的跨模态推理。

  2. 现有痛点: (i) 基于分数的方法(如 EL2N)难以区分真正需要视觉推理的样本和可用语言捷径解决的样本;(ii) 基于聚类的方法关注多样性但不保证问题有意义地约束答案;(iii) 大多方法需要训练代理模型,开销大。

  3. 核心 insight: 对于高质量多模态样本,引入问题应该显著改变模型对答案有效性的判断——如果没有改变,说明问题是冗余的。

方法详解

CVS 核心机制

  1. 条件肯定位移(CVS_Yes): $\(\text{CVS}_{\text{Yes}} = \log \frac{P(\text{Yes}|I,Q,A)}{P(\text{Yes}|I,A)}\)$ 问题 Q 是否增强模型对答案正确性的信心。正值=Q 提供了有价值的约束信息

  2. 条件否定位移(CVS_No): $\(\text{CVS}_{\text{No}} = \log \frac{P(\text{No}|I,Q,A)}{P(\text{No}|I,A)}\)$ 问题 Q 是否增强模型的拒绝倾向。正值=Q 暴露了答案与图像的语义冲突

过滤协议

  • 语义一致性约束: 保留 CVS_Yes > 0 CVS_No < 0 的样本(公式8)
  • 含义:问题增强了肯定(答案确实相关),同时降低了否定(没有语义冲突)
  • 零阈值天然分离正/负位移,无需调参
  • 过滤后保留 59.29%(Vision-Flan)/ 63.97%(The Cauldron)

决策边界优先策略(Hard Positive Selection)

  • 反直觉设计: 优先选择 CVS_Yes 较(而非最高)的正样本
  • 为什么?高 CVS_Yes = 模型几乎不看图像就能靠语言捷径验证答案→训练价值低
  • 低 CVS_Yes = 模型需要真正联合推理视觉+语言才能验证→靠近决策边界→提供最强梯度信号
  • 类比 SVM:支持向量(决策边界附近样本)对分类器定义贡献最大

视觉锚定的必要性

  • 消融:去掉分母中的图像 I(变为 \(P(\text{Yes}|I,Q,A)/P(\text{Yes}|A)\))→性能严重退化(甚至低于随机采样 10+%)
  • 原因:无视觉锚定时,低 CVS_Yes 变成"(I,Q) 对 A 没有信息量"的样本=弱相关噪声对
  • 有视觉锚定时,低 CVS_Yes 才是"Q 在视觉基础上提供非平凡推理约束"的高价值样本

核心设计哲学

  • Low 策略(选决策边界样本) > High 策略 > Random > No 策略
  • "容易"样本(高 CVS_Yes)存在语言捷径,训练价值低
  • "有冲突"样本(高 CVS_No)是噪声,会损害语义空间

实验关键数据

Vision-Flan(ARP,100 = 全量训练水平)

方法 5% 10% 15%
Random 93.0 95.3 93.6
COINCIDE ~96 ~97 ~95
XMAS ~95 ~96 ~94
CVS ~96 103.5 104.8

关键发现

  • 10% 和 15% 数据超越全量训练——"less is more" 现象
  • 计算开销仅 10.5 GPU 小时(vs COINCIDE 12.7h, XMAS 18.9h)
  • 跨评估器架构/规模鲁棒(Qwen2.5-VL ↔ InternVL3)
  • 跨目标模型有效(LLaVA-1.5 → Qwen2-VL)

亮点与洞察

  • "问题是否真的重要" 的视角非常新颖——从信息增益角度量化样本价值
  • 选择决策边界样本而非高置信样本 反直觉但有效——这类样本提供最强的梯度信号
  • 视觉锚定(分母保留图像 I)是关键——没有它方法完全失效
  • 冻结 VLLM + 仅推理 实现了 0 额外训练开销

局限性 / 可改进方向

  • 在高结构化冗余数据集(如 The Cauldron)上,大预算时聚类方法可能更优
  • 5% 采样率时存在冷启动问题
  • 仅用 Yes/No 二分类评估答案有效性,可能丢失细粒度信息

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "条件判断位移"作为数据质量度量的 idea 很原创
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集 + 12 个评测基准 + 多消融 + 跨模型验证
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,方法推导严谨,消融设计有说服力
  • 价值: ⭐⭐⭐⭐⭐ 对 VLM 数据选择领域有重要方法论贡献