跳转至

Token-Importance Guided Direct Preference Optimization (TI-DPO)

会议: ICLR 2026
arXiv: 2505.19653
代码: https://github.com/gracefulning/TIDPO
领域: 对齐RLHF / DPO
关键词: token级DPO, 梯度归因, 混合权重, 三元组损失, 细粒度对齐

一句话总结

提出TI-DPO,通过梯度归因+高斯先验的混合权重机制精确量化每个token对偏好的贡献,结合三元组损失在连续语义空间引导优化,在6个基准上平均62.3分达到SOTA,同时具备可解释的token级控制能力。

研究背景与动机

  1. 领域现状:DPO在序列级优化偏好,忽略不同token的差异化重要性。已有token级方法(TDPO/TIS-DPO)用概率代理评估重要性,但有偏差。
  2. 现有痛点
  3. DPO的粗粒度优化对数据噪声敏感、分布偏移严重
  4. 现有token级方法的概率代理产生不一致输出
  5. 二元"好/坏"对比框架无法在连续语义空间精细调整生成行为
  6. 核心矛盾:需要同时精确识别关键token + 在连续空间引导偏好调整
  7. 核心idea一句话:梯度归因定位关键token + 高斯先验修正位置偏差 + 三元组损失做连续空间引导

方法详解

整体框架

\(\mathcal{L}_{\text{TI-DPO}} = \mathcal{L}_{\text{DPO-w}} + \gamma \mathcal{L}_{\text{triplet}}\)

关键设计

  1. 混合权重机制:
  2. 梯度归因:\(I_i = \|\nabla_{e_i}\mathcal{L}_{\text{target}}\|_1\),计算每个token embedding对最终预测的梯度贡献
  3. 高斯先验:\(\mathcal{P}(t) = \exp(-\frac{1}{2}(\frac{t-\mu}{\sigma})^2)\)\(\mu=(T-1)/2\), \(\sigma=T/4\),修正模型的U型注意力偏差(首尾token被过度关注)
  4. 凸组合:\(W = \lambda \cdot \mathcal{I}_{\text{norm}} + (1-\lambda) \cdot \mathcal{P}\)
  5. 分别对 \(y_w\)\(y_l\) 独立计算权重

  6. 加权token级DPO:

  7. \(\Delta r_{\text{token}} = \sum_t w_t^w \log\frac{\pi_\theta(y_w^t|\cdot)}{\pi_{\text{ref}}(y_w^t|\cdot)} - \sum_t w_t^l \log\frac{\pi_\theta(y_l^t|\cdot)}{\pi_{\text{ref}}(y_l^t|\cdot)}\)
  8. 关键token的贡献被放大,噪声token被抑制

  9. 三元组损失:

  10. 从策略模型生成锚点回答 \(y\),在隐式奖励空间拉近 \(y\)\(y_w\)、推远 \(y\)\(y_l\)
  11. \(\mathcal{L}_{\text{triplet}} = \max(0, d(y, y_w) - d(y, y_l) + \alpha)\)
  12. 在连续语义空间提供比二元对比更细粒度的引导

实验关键数据

主实验(3模型平均)

方法 MMLU GSM8K HumanEval TruthfulQA IFEval Avg
DPO 65.3 69.3 61.0 56.7 70.0 57.7
SimPO 63.5 64.7 58.2 54.2 64.7 54.5
GRPO 70.7 75.7 64.3 59.9 74.0 62.1
TI-DPO 70.0 73.0 67.0 62.0 75.7 62.3

消融实验(Llama-3.2-3B)

配置 General Math Code Reliability
Full TI-DPO 65.4 80.7 33.0 86.8
无三元组损失 64.0 79.0 31.0 83.0
均匀权重 64.0 78.2 29.0 80.0
无高斯先验 64.5 79.7 31.5 82.5

关键发现

  • TI-DPO与GRPO持平:平均62.3 vs 62.1,但TI-DPO在HumanEval(67 vs 64.3)和IFEval(75.7 vs 74)上领先
  • 权重分布适应任务:数学任务的权重集中在[0.2,0.5](关键符号少),安全任务的权重偏向[0.6,0.8](需全面关注)
  • 噪声鲁棒性:标签噪声增加时,TI-DPO性能退化最少
  • 可解释性:可可视化哪些token被赋予高权重,如医疗场景中"medical attention"权重高而"painkillers"被降权

亮点与洞察

  • 梯度归因+位置先验的互补设计:梯度归因捕获语义重要性但有位置偏差,高斯先验修正偏差——两者互补
  • 三元组损失打破二元框架:从"好/坏"对比扩展到"与好样本对齐+远离坏样本"的连续空间引导
  • 可解释的token级控制:不仅提升性能,还能可视化关键token——对安全审计有直接价值

局限性 / 可改进方向

  • 计算开销:梯度归因需要额外前向+反向传播
  • 高斯先验假设:假设重要token在序列中均匀分布,某些任务可能不成立
  • 改进思路:可结合Uni-DPO的质量权重做数据级+token级的双层动态调权

相关工作与启发

  • vs TDPO/TIS-DPO:使用概率代理有偏差,TI-DPO用梯度归因+高斯先验更准确
  • vs Uni-DPO:Uni-DPO在数据级调权,TI-DPO在token级调权——两者正交可组合
  • vs GRPO:GRPO用RL探索,TI-DPO用监督信号的token级细化——性能相当但机制不同

评分

  • 新颖性: ⭐⭐⭐⭐ 混合权重机制+三元组损失的组合设计精巧
  • 实验充分度: ⭐⭐⭐⭐⭐ 6基准×3模型×详尽消融+噪声实验
  • 写作质量: ⭐⭐⭐⭐ 理论动机清晰
  • 价值: ⭐⭐⭐⭐ token级DPO的实用改进,可解释性是差异化优势