NTIL: Advancing Sequential Numerical Prediction in Autoregressive Models¶
会议: ACL 2025
arXiv: 2505.13077
代码: GitHub
领域: LLM训练 / 数值预测
关键词: 数值token完整性, Earth Mover's Distance, 序列数值预测, 自回归模型, 交叉熵局限
一句话总结¶
提出 NTIL(Numerical Token Integrity Loss)解决自回归模型数值预测的两大缺陷——(1) token 级用 EMD 替代交叉熵保留数字间序数关系+指数位置加权,(2) 序列级通过可微数值构建+相对偏差度量评估整体数值误差。首次将 EMD 用于自回归模型优化,在目标检测/文本识别/数学推理上显著提升。
背景与动机¶
自回归 LLM/MLLM 逐 token 生成数值(如坐标"0.98"→"0",".", "9","8"),但标准交叉熵有两大缺陷:
- token 级:CE 忽略数字间的邻近性——预测分布偏向"2"vs偏向"9"对ground truth"3"的CE损失相同,但前者更好
- 序列级:CE 只关注逐 token 匹配——预测1.01(CE高因为"1"≠"0"等)比1.98(CE低因为多数token匹配)的CE更差,但数值误差0.03 vs 1.00,实际1.01好得多
核心问题¶
如何让自回归模型在数值预测中既保持 token 间的序数关系又捕获整体数值误差?
方法详解¶
Token 级:指数加权 EMD¶
- 用 EMD 替代 CE——EMD 考虑将一个分布"搬运"到另一个分布的最小成本,天然保持序数关系
- 指数位置加权:\(\mathbf{W_{exp}} = [(1+\sigma)^{n-i-1}]_{i=0}^{n-1}\)——高位数字权重指数级更大("1"和"2"的差比小数点后的差重要得多)
- 首次将 EMD 用于自回归模型的损失函数
序列级:多 token 数值优化¶
- 可微数值构建:用 Gumbel-softmax 近似从离散 token 预测构建连续数值
- 相对偏差度量:\(\mathcal{L}_{relative} = |X-Y| / (\max(X,Y) + \epsilon)\)——归一化跨量级,比绝对差更公平
- 在 CE/EMD token 损失之上加入序列级数值损失
总损失¶
\(\mathcal{L} = \mathcal{L}_{EMD} + \lambda \mathcal{L}_{relative}\)
实验关键数据¶
| 任务 | 提升 |
|---|---|
| 目标检测(LLM/MLLM) | 坐标预测精度显著提升 |
| 文本识别 | OCR 数字识别改善 |
| 数学推理 | 数值答案准确率提升 |
- 可无缝集成到 LLM 和 MLLM 训练中
- 与标准 CE 训练对比均有一致改善
亮点¶
- 首次将 EMD 用于自回归模型优化——概念新颖
- 指数位置加权捕获位值系统——符合人类数字认知
- Gumbel-softmax 实现可微数值构建——巧妙的工程方案
- CE 缺陷分析清晰直观——图示对比令人信服
局限性 / 可改进方向¶
- EMD 计算开销:比 CE 更消耗计算资源
- 仅非负数值:负数、科学计数法等特殊格式未处理
- Gumbel-softmax 近似精度:温度参数影响梯度质量
- 仅在 ByteDance 内部模型验证:外部 LLM 效果待验证
与相关工作的对比¶
- vs 标准 CE 训练:CE 忽略数字序数关系和整体数值;NTIL 双层面优化
- vs Wasserstein GAN:GAN 中 EMD 用于稳定训练;NTIL 将 EMD 用于自回归模型的数值预测
- vs 专用数字编码方案:如 xVal 等修改 tokenizer;NTIL 不修改 tokenizer 仅改损失
启发与关联¶
- 自回归模型对数值的"无知"是一个被低估的系统性问题
- EMD 作为保序损失可推广到任何需要保持序数关系的离散预测任务
- 位值系统的显式编码提示:LLM 对数字的理解可能需要特殊归纳偏置
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次EMD用于自回归+序列级数值优化,概念和实现都新颖
- 实验充分度: ⭐⭐⭐⭐ 3类任务验证,但缺少外部LLM对比
- 写作质量: ⭐⭐⭐⭐⭐ CE缺陷分析图示极其直观
- 价值: ⭐⭐⭐⭐ 对所有需要数值预测的LLM应用有实用价值