Importance-Aware Data Selection for Efficient LLM Instruction Tuning¶

会议: AAAI 2026
arXiv: 2511.07074
代码: 无
领域: 对齐RLHF / 数据选择
关键词: 数据选择, MIWV, ICL, 数据效率, 指令微调

一句话总结¶

提出MIWV（Model Instruction Weakness Value）指标，通过比较LLM在有/无one-shot ICL示例下的损失差来衡量每条指令数据对模型能力提升的重要性，在Alpaca数据集上仅用1%（520条）数据即全面超越全量52002条的微调效果。

领域现状：指令微调(Instruction Tuning)是提升LLM任务遵循能力的关键方法。现有方法大多关注收集更大、更多样的数据集（如Alpaca 52K、WizardLM 63K），或使用ChatGPT/外部模型打分筛选数据。
现有痛点：(a) 盲目增大数据集会引入噪声和冗余，不一定提升效果；(b) InstructMining等质量打分方法效果有限，无法超越全量训练；(c) Alpagasus/Deita依赖ChatGPT API打分，成本高且效率受限；(d) SelectIT/DiverseEvol需要额外模型训练，效率低。
核心矛盾：现有数据选择方法要么依赖外部模型（成本高、可能有偏差），要么只评估数据自身质量（不考虑目标模型的特点），无法针对特定LLM选出最有价值的数据。
本文要解决什么？ 如何仅利用目标LLM自身能力（无需外部模型、无需训练），选出对该模型能力提升最大的指令数据子集。
切入角度：关键观察——如果给模型一个相似的one-shot示例后，模型在某条指令上的表现反而变差（损失增大），说明模型对这类指令的基础能力不足，它才是最值得学习的数据。
核心idea一句话：用"模型在有/无ICL提示下的损失差（MIWV）"衡量每条数据对模型能力提升的重要性，MIWV越高说明模型越需要学习这条数据。

输入是完整指令数据集 \(D = \{(x_1,y_1),...,(x_n,y_n)\}\)，输出是按MIWV排序后的高质量子集。流程：向量嵌入→检索one-shot示例→计算MIWV→Top-K选择→指令微调。

One-shot示例检索：
做什么：为每条指令找到数据集中最相似的另一条作为ICL示例
核心思路：用BGE-en-large嵌入模型计算所有指令的向量表示 \(h_i = \frac{1}{Q}\sum_{q=1}^Q h_i^q\)，对每条 \(x_i\) 找余弦相似度最高的 \(x_k\)（排除自身）：\(k = \arg\max_{j \neq i} sim(h_i, h_j)\)
设计动机：one-shot示例需要与目标指令相关，这样ICL的效果才能反映模型对该类型指令的真实能力
MIWV计算：
做什么：量化每条指令数据对模型能力提升的重要程度
核心思路：分别计算无示例损失 \(L_\theta(y_i|x_i)\) 和有one-shot示例损失 \(L_\theta(y_i|x_i, C)\)，其中 \(C = \text{Prompt}(x_k, y_k)\)。MIWV定义为：\(\text{MIWV}(x_i, y_i) = L_\theta(y_i|x_i, C) - L_\theta(y_i|x_i)\)
设计动机：MIWV高意味着给了示例后模型反而更困惑→模型缺乏处理该类指令的基本能力→这正是模型最需要学习的数据。特别地，当数据集中没有与目标指令高度相似的样本时（示例不太相关），高MIWV自然筛选出多样性数据
Top-K高质量数据选择：
做什么：按MIWV降序选取数据子集用于指令微调
核心思路：直接取MIWV值最高的Top-K%样本作为微调数据
设计动机：简单直接，无需复杂的多目标平衡。消融实验证明Low MIWV和Random选择都显著差于Full data训练

数据集/模型	MIWV比例	Pairwise Win Rate	Open LLM Avg	AlpacaEval
Alpaca/LLaMA2-7B	100%	1.000	55.25	27.75
Alpaca/LLaMA2-7B	1% (520条)	1.127	56.17	39.50
Alpaca/LLaMA2-7B	5% (2600条)	1.214	56.91	39.87
Alpaca/LLaMA2-13B	100%	1.000	58.78	35.00
Alpaca/LLaMA2-13B	1% (520条)	1.063	60.36	41.30
WizardLM/LLaMA2-7B	100%	1.000	55.02	59.25
WizardLM/LLaMA2-7B	1% (636条)	1.048	55.45	60.12

"ICL差异"作为数据重要性度量极其巧妙：不是评估数据本身好不好，而是评估"这条数据对这个具体模型是否有用"——同一条数据对不同模型的MIWV可能完全不同。这实现了真正的模型-数据适配
无需外部模型、无需训练的完全自动化方法：只需目标LLM自身做两次前向传播（有/无ICL），比Alpagasus（需ChatGPT）、SelectIT（需训练模型）高效得多
MIWV的反直觉洞察：给了相关示例后表现更差的数据反而最有价值——这揭示了模型的能力缺口。这个思路可推广到任何领域的主动学习/课程学习