Token-Importance Guided Direct Preference Optimization (TI-DPO)¶

会议: ICLR 2026
arXiv: 2505.19653
代码: https://github.com/gracefulning/TIDPO
领域: 对齐RLHF / DPO
关键词: token级DPO, 梯度归因, 混合权重, 三元组损失, 细粒度对齐

一句话总结¶

提出TI-DPO，通过梯度归因+高斯先验的混合权重机制精确量化每个token对偏好的贡献，结合三元组损失在连续语义空间引导优化，在6个基准上平均62.3分达到SOTA，同时具备可解释的token级控制能力。

\(\mathcal{L}_{\text{TI-DPO}} = \mathcal{L}_{\text{DPO-w}} + \gamma \mathcal{L}_{\text{triplet}}\)

混合权重机制:
梯度归因：\(I_i = \|\nabla_{e_i}\mathcal{L}_{\text{target}}\|_1\)，计算每个token embedding对最终预测的梯度贡献
高斯先验：\(\mathcal{P}(t) = \exp(-\frac{1}{2}(\frac{t-\mu}{\sigma})^2)\)，\(\mu=(T-1)/2\), \(\sigma=T/4\)，修正模型的U型注意力偏差（首尾token被过度关注）
凸组合：\(W = \lambda \cdot \mathcal{I}_{\text{norm}} + (1-\lambda) \cdot \mathcal{P}\)
分别对 \(y_w\) 和 \(y_l\) 独立计算权重
加权token级DPO:
\(\Delta r_{\text{token}} = \sum_t w_t^w \log\frac{\pi_\theta(y_w^t|\cdot)}{\pi_{\text{ref}}(y_w^t|\cdot)} - \sum_t w_t^l \log\frac{\pi_\theta(y_l^t|\cdot)}{\pi_{\text{ref}}(y_l^t|\cdot)}\)
关键token的贡献被放大，噪声token被抑制
三元组损失:
从策略模型生成锚点回答 \(y\)，在隐式奖励空间拉近 \(y\) 与 \(y_w\)、推远 \(y\) 与 \(y_l\)
\(\mathcal{L}_{\text{triplet}} = \max(0, d(y, y_w) - d(y, y_l) + \alpha)\)
在连续语义空间提供比二元对比更细粒度的引导

方法	MMLU	GSM8K	HumanEval	TruthfulQA	IFEval	Avg
DPO	65.3	69.3	61.0	56.7	70.0	57.7
SimPO	63.5	64.7	58.2	54.2	64.7	54.5
GRPO	70.7	75.7	64.3	59.9	74.0	62.1
TI-DPO	70.0	73.0	67.0	62.0	75.7	62.3

配置	General	Math	Code	Reliability
Full TI-DPO	65.4	80.7	33.0	86.8
无三元组损失	64.0	79.0	31.0	83.0
均匀权重	64.0	78.2	29.0	80.0
无高斯先验	64.5	79.7	31.5	82.5

TI-DPO与GRPO持平：平均62.3 vs 62.1，但TI-DPO在HumanEval(67 vs 64.3)和IFEval(75.7 vs 74)上领先
权重分布适应任务：数学任务的权重集中在[0.2,0.5]（关键符号少），安全任务的权重偏向[0.6,0.8]（需全面关注）
噪声鲁棒性：标签噪声增加时，TI-DPO性能退化最少
可解释性：可可视化哪些token被赋予高权重，如医疗场景中"medical attention"权重高而"painkillers"被降权