Token-level Data Selection for Safe LLM Fine-tuning¶

会议: ICLR 2026 arXiv: 2603.01185 代码: github.com/Polly-LYP/TOSS 领域: llm_efficiency 关键词: LLM safety, fine-tuning safety, token-level selection, data curation, safety-utility tradeoff

一句话总结¶

提出 TOSS（Token-level data Selection for Safe LLM fine-tuning），首个 token 级别的数据选择框架,通过安全退化模型和效用导向模型之间的损失差评估每个 token 的安全风险，实现比样本级方法更优的安全-效用权衡。

研究背景与动机¶

LLM 在自定义数据集上微调是适配特定领域的标准实践，但微调过程会严重侵蚀模型的安全对齐。现有防御手段均在样本级别操作：

数据混合 (Bianchi et al., 2023)：将安全数据掺入自定义数据集，但过多安全数据导致模型过度拒绝
样本过滤 (SEAL, Shen et al., 2024)：识别并丢弃被判定为不安全的整个样本，但丢弃有价值的下游任务信息

核心发现：安全退化不是样本级问题，而是 token 级问题。通过 token 级诊断分析发现： - 最显著的分布偏移发生在响应的最初几个 token——模型将安全拒绝前缀替换为顺从有害指令的前缀 - 但危害不仅限于初始 token：中间和后期 token 也表现出向安全退化模型的显著偏离 - 即使表面上良性的数据也可能在 token 级别侵蚀安全对齐 - 简单的固定位置 token 遮蔽（如遮蔽前 5 个 token）虽改善安全但损害效用

因此需要精细的 token 级选择机制，能准确识别并移除有害 token 同时保留关键的任务适配 token。

方法详解¶

整体框架¶

TOSS 框架包含三个阶段：参考模型训练 → token 评估 → token 级选择微调

关键设计 1：参考模型训练¶

构建两个专门的参考模型：

安全退化模型 \(f_{\theta^h}\)：在有害参考数据集 \(\mathcal{D}^h\) 上训练，学习有害的下一 token 预测模式：

\[\mathcal{L}_{f_{\theta^h}} = \frac{1}{\sum_{i=1}^H L_i} \sum_{i=1}^H \sum_{j=1}^{L_i} -\log P(y_{i,j}^h | \boldsymbol{x}_i^h, \boldsymbol{y}_{i,:j-1}^h; \theta)\]

效用导向模型 \(f_{\theta^u}\)：在高质量效用参考数据集 \(\mathcal{D}^u\) 上训练，学习下游任务数据分布。

关键设计 2：Token 评估¶

核心指标——损失差分评估每个 token 的安全风险：

\[\mathcal{S}(y_{i,j}^{\text{cus}}) = -\log P(y_{i,j}^{\text{cus}}|\boldsymbol{x}_i^{\text{cus}}, \boldsymbol{y}_{i,:j-1}^{\text{cus}}; \theta^u) + \log P(y_{i,j}^{\text{cus}}|\boldsymbol{x}_i^{\text{cus}}, \boldsymbol{y}_{i,:j-1}^{\text{cus}}; \theta^h)\]

直觉：高分 token 在安全退化模型下概率高（低损失），在效用导向模型下概率低（高损失），表明安全风险大。

分数可分解为两个竞争分量之和： - 效用相关分数：衡量 token 与期望任务分布的对齐度 - 安全相关分数：衡量 token 与有害模式的对齐度

关键设计 3：全局排序与 Token 遮蔽¶

对自定义数据集中所有 token 进行全局排序，丢弃得分最高的前 \(d \times 100\%\)：

\[m_{i,j} = \begin{cases} 0 & \text{if } \mathcal{S}(y_{i,j}^{\text{cus}}) \text{ 在全局前 } d\times100\% \\ 1 & \text{otherwise} \end{cases}\]

全局排序优于样本内局部排序，因为有害样本中有害 token 的比例不均匀。

损失函数¶

Token 级选择微调损失：

\[\mathcal{L}^{\text{cus}} = \frac{1}{\sum_{i=1}^N L_i} \sum_{i=1}^N \sum_{j=1}^{L_i} -m_{i,j} \log P(y_{i,j}^{\text{cus}} | \boldsymbol{x}_i^{\text{cus}}, \boldsymbol{y}_{j-1}^{\text{cus}}; \theta)\]

TOSS-Pro：渐进式精化¶

迭代增强安全退化模型的能力： 1. 使用当前安全退化模型 \(f_{\theta_t^h}\) 和固定效用模型 \(f_{\theta^u}\) 计算 token 级分数 2. 从最高分 token 对应的样本中选择 \(k\) 个加入有害数据集 3. 在扩展的有害数据集 \(\mathcal{D}_{t+1}^h = \mathcal{D}_t^h \cup \mathcal{D}_t^s\) 上更新安全退化模型 4. 重复 \(T\) 次，最终使用精化后的模型进行最终 token 选择

实验关键数据¶

主实验¶

方法	Llama-3-8B (HH / HEx-PHI / SLIMORCA / AVG)	Llama-2-7B (HH / HEx-PHI / SLIMORCA / AVG)
Standard SFT	50 / 50 / 50 / 50	50 / 50 / 50 / 50
SafeInstr	51.5 / 64.6 / 50.5 / 55.5	48.2 / 51.3 / 53.1 / 50.9
DSIR	67.4 / 60.8 / 53.8 / 60.7	63.7 / 57.0 / 52.0 / 57.6
SEAL	58.2 / 68.8 / 57.4 / 61.5	58.6 / 50.3 / 52.5 / 53.8
TOSS	88.8 / 87.5 / 68.4 / 81.6	83.2 / 69.9 / 57.3 / 70.1
TOSS-Pro	88.9 / 93.8 / 68.9 / 83.8	87.0 / 74.4 / 60.7 / 74.0

TOSS 相比 SEAL：安全提升高达 30%，效用提升高达 11%。TOSS-Pro 在 TOSS 基础上安全再提升 6%。

迁移性实验¶

将 Llama-3-8B-Instruct 选出的数据直接用于 Llama-3.2-1B/3B（共享 tokenizer）：

方法	Llama-3.2-1B AVG	Llama-3.2-3B AVG
Standard SFT	50	50
SEAL	56.3	53.7
TOSS	63.9	68.1

token 级选择仅需执行一次，可跨共享 tokenizer 的模型复用。

消融实验¶

消融项	发现
全局 vs 局部排序	全局排序显著更优,有害样本中有害 token 比例不均
Token 级 vs 样本级	Token 级在安全和效用上均优
仅安全退化模型	安全提升但效用大降——丢弃了对任务适配关键的 token
仅效用导向模型	效用可接受但安全无改善——无法识别有害 token
随机选样 vs 指标选样（TOSS-Pro）	随机选样无效甚至退化,精确选择信息丰富的样本是关键
TOSS-Pro 迭代次数	1-2 次迭代即可持续改善安全性能

关键发现¶

安全退化是 token 级问题：有害信号和有益信号交织在同一样本中
两个参考模型的互补性至关重要：缺少任何一个都会导致安全或效用的显著退化
全局排序优于局部排序：因为有害 token 在不同样本中的分布高度不均
渐进精化比一步到位更有效：迭代选择更高质量的有害样本持续改善识别精度

亮点与洞察¶

"安全退化的基本单元不是样本而是 token"——这一核心假设通过诊断分析得到充分验证，是方法论的关键突破
损失差分指标的设计优雅地统一了安全和效用两个目标：高分 = 安全退化模型"喜欢" + 效用模型"不喜欢" = 需要丢弃
TOSS-Pro 的渐进精化利用了一个自举效应：更好的安全退化模型 → 更准确的 token 识别 → 更高质量的有害样本 → 更好的安全退化模型
跨 tokenizer 共享的迁移性使得该方法具有显著的实用价值——大模型做一次 token 选择，小模型直接复用

局限性¶

需要额外构建有害参考数据集和效用参考数据集：虽然用量较小（~10%），但仍需领域知识
token 丢弃比例 \(d\) 固定为 0.1：不同数据集可能需要不同比例
安全退化模型的训练本身存在伦理考虑——需要显式训练一个"有害"模型
评估依赖 GPT-4o 作为裁判：可能引入评估偏差
实验仅在 Llama 系列上验证：未测试 Mistral、Qwen 等其他架构
未讨论不同类型有害内容的差异性：不同安全类别的 token 级特征可能不同

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次系统性地在 token 级别诊断和解决微调安全退化问题
实验充分度: ⭐⭐⭐⭐ — 多模型、多基准、全面消融、迁移性验证
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，诊断分析↔方法设计↔实验验证的闭环完整
价值: ⭐⭐⭐⭐⭐ — 为安全微调提供了新范式，性能大幅超越现有方法，代码开源