Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT¶

日期: 2026-03-10
arXiv: 2603.09715
代码: 无
领域: 多模态/VLM / 数据选择
关键词: data selection, visual instruction tuning, training-free, cross-modal reasoning, VLLM

一句话总结¶

提出 CVS（Conditional Verdict Shift），一种无需训练的 VLM 数据选择方法——利用冻结 VLLM 作为评估器，比较加入问题前后模型对答案有效性判断的变化，筛选真正需要视觉-语言联合推理的样本。在 Vision-Flan 上仅用 10%/15% 数据超越全量训练 3.5%/4.8%。

研究背景与动机¶

领域现状: 视觉指令微调（VIT）是提升 VLM 的关键，但很多样本可以通过语言模式或常识捷径回答，不需要真正的跨模态推理。
现有痛点: (i) 基于分数的方法（如 EL2N）难以区分真正需要视觉推理的样本和可用语言捷径解决的样本；(ii) 基于聚类的方法关注多样性但不保证问题有意义地约束答案；(iii) 大多方法需要训练代理模型，开销大。
核心 insight: 对于高质量多模态样本，引入问题应该显著改变模型对答案有效性的判断——如果没有改变，说明问题是冗余的。

方法详解¶

CVS 核心机制¶

条件肯定位移（CVS_Yes）: $$\text{CVS}_{\text{Yes}} = \log \frac{P(\text{Yes}|I,Q,A)}{P(\text{Yes}|I,A)}$$ 问题 Q 是否增强模型对答案正确性的信心。正值=Q 提供了有价值的约束信息
条件否定位移（CVS_No）: $$\text{CVS}_{\text{No}} = \log \frac{P(\text{No}|I,Q,A)}{P(\text{No}|I,A)}$$ 问题 Q 是否增强模型的拒绝倾向。正值=Q 暴露了答案与图像的语义冲突

过滤协议¶

语义一致性约束: 保留 CVS_Yes > 0 且 CVS_No < 0 的样本（公式8）
含义：问题增强了肯定（答案确实相关），同时降低了否定（没有语义冲突）
零阈值天然分离正/负位移，无需调参
过滤后保留 59.29%（Vision-Flan）/ 63.97%（The Cauldron）

决策边界优先策略（Hard Positive Selection）¶

反直觉设计: 优先选择 CVS_Yes 较低（而非最高）的正样本
为什么？高 CVS_Yes = 模型几乎不看图像就能靠语言捷径验证答案→训练价值低
低 CVS_Yes = 模型需要真正联合推理视觉+语言才能验证→靠近决策边界→提供最强梯度信号
类比 SVM：支持向量（决策边界附近样本）对分类器定义贡献最大

视觉锚定的必要性¶

消融：去掉分母中的图像 I（变为 $P(\text{Yes}|I,Q,A)/P(\text{Yes}|A)$）→性能严重退化（甚至低于随机采样 10+%）
原因：无视觉锚定时，低 CVS_Yes 变成"(I,Q) 对 A 没有信息量"的样本=弱相关噪声对
有视觉锚定时，低 CVS_Yes 才是"Q 在视觉基础上提供非平凡推理约束"的高价值样本

核心设计哲学¶

Low 策略（选决策边界样本） > High 策略 > Random > No 策略
"容易"样本（高 CVS_Yes）存在语言捷径，训练价值低
"有冲突"样本（高 CVS_No）是噪声，会损害语义空间

实验关键数据¶

Vision-Flan（ARP，100 = 全量训练水平）¶

方法	5%	10%	15%
Random	93.0	95.3	93.6
COINCIDE	~96	~97	~95
XMAS	~95	~96	~94
CVS	~96	103.5	104.8

关键发现¶

10% 和 15% 数据超越全量训练——"less is more" 现象
计算开销仅 10.5 GPU 小时（vs COINCIDE 12.7h, XMAS 18.9h）
跨评估器架构/规模鲁棒（Qwen2.5-VL ↔ InternVL3）
跨目标模型有效（LLaVA-1.5 → Qwen2-VL）

亮点与洞察¶

"问题是否真的重要" 的视角非常新颖——从信息增益角度量化样本价值
选择决策边界样本而非高置信样本 反直觉但有效——这类样本提供最强的梯度信号
视觉锚定（分母保留图像 I）是关键——没有它方法完全失效
冻结 VLLM + 仅推理 实现了 0 额外训练开销

局限性 / 可改进方向¶

在高结构化冗余数据集（如 The Cauldron）上，大预算时聚类方法可能更优
5% 采样率时存在冷启动问题
仅用 Yes/No 二分类评估答案有效性，可能丢失细粒度信息

评分¶

新颖性: ⭐⭐⭐⭐⭐ "条件判断位移"作为数据质量度量的 idea 很原创
实验充分度: ⭐⭐⭐⭐⭐ 两个数据集 + 12 个评测基准 + 多消融 + 跨模型验证
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，方法推导严谨，消融设计有说服力
价值: ⭐⭐⭐⭐⭐ 对 VLM 数据选择领域有重要方法论贡献