跳转至

NTIL: Advancing Sequential Numerical Prediction in Autoregressive Models

会议: ACL 2025
arXiv: 2505.13077
代码: GitHub
领域: LLM训练 / 数值预测
关键词: 数值token完整性, Earth Mover's Distance, 序列数值预测, 自回归模型, 交叉熵局限

一句话总结

提出 NTIL(Numerical Token Integrity Loss)解决自回归模型数值预测的两大缺陷——(1) token 级用 EMD 替代交叉熵保留数字间序数关系+指数位置加权,(2) 序列级通过可微数值构建+相对偏差度量评估整体数值误差。首次将 EMD 用于自回归模型优化,在目标检测/文本识别/数学推理上显著提升。

背景与动机

自回归 LLM/MLLM 逐 token 生成数值(如坐标"0.98"→"0",".", "9","8"),但标准交叉熵有两大缺陷:

  1. token 级:CE 忽略数字间的邻近性——预测分布偏向"2"vs偏向"9"对ground truth"3"的CE损失相同,但前者更好
  2. 序列级:CE 只关注逐 token 匹配——预测1.01(CE高因为"1"≠"0"等)比1.98(CE低因为多数token匹配)的CE更差,但数值误差0.03 vs 1.00,实际1.01好得多

核心问题

如何让自回归模型在数值预测中既保持 token 间的序数关系又捕获整体数值误差?

方法详解

Token 级:指数加权 EMD

  • 用 EMD 替代 CE——EMD 考虑将一个分布"搬运"到另一个分布的最小成本,天然保持序数关系
  • 指数位置加权\(\mathbf{W_{exp}} = [(1+\sigma)^{n-i-1}]_{i=0}^{n-1}\)——高位数字权重指数级更大("1"和"2"的差比小数点后的差重要得多)
  • 首次将 EMD 用于自回归模型的损失函数

序列级:多 token 数值优化

  • 可微数值构建:用 Gumbel-softmax 近似从离散 token 预测构建连续数值
  • 相对偏差度量\(\mathcal{L}_{relative} = |X-Y| / (\max(X,Y) + \epsilon)\)——归一化跨量级,比绝对差更公平
  • 在 CE/EMD token 损失之上加入序列级数值损失

总损失

\(\mathcal{L} = \mathcal{L}_{EMD} + \lambda \mathcal{L}_{relative}\)

实验关键数据

任务 提升
目标检测(LLM/MLLM) 坐标预测精度显著提升
文本识别 OCR 数字识别改善
数学推理 数值答案准确率提升
  • 可无缝集成到 LLM 和 MLLM 训练中
  • 与标准 CE 训练对比均有一致改善

亮点

  • 首次将 EMD 用于自回归模型优化——概念新颖
  • 指数位置加权捕获位值系统——符合人类数字认知
  • Gumbel-softmax 实现可微数值构建——巧妙的工程方案
  • CE 缺陷分析清晰直观——图示对比令人信服

局限性 / 可改进方向

  • EMD 计算开销:比 CE 更消耗计算资源
  • 仅非负数值:负数、科学计数法等特殊格式未处理
  • Gumbel-softmax 近似精度:温度参数影响梯度质量
  • 仅在 ByteDance 内部模型验证:外部 LLM 效果待验证

与相关工作的对比

  • vs 标准 CE 训练:CE 忽略数字序数关系和整体数值;NTIL 双层面优化
  • vs Wasserstein GAN:GAN 中 EMD 用于稳定训练;NTIL 将 EMD 用于自回归模型的数值预测
  • vs 专用数字编码方案:如 xVal 等修改 tokenizer;NTIL 不修改 tokenizer 仅改损失

启发与关联

  • 自回归模型对数值的"无知"是一个被低估的系统性问题
  • EMD 作为保序损失可推广到任何需要保持序数关系的离散预测任务
  • 位值系统的显式编码提示:LLM 对数字的理解可能需要特殊归纳偏置

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次EMD用于自回归+序列级数值优化,概念和实现都新颖
  • 实验充分度: ⭐⭐⭐⭐ 3类任务验证,但缺少外部LLM对比
  • 写作质量: ⭐⭐⭐⭐⭐ CE缺陷分析图示极其直观
  • 价值: ⭐⭐⭐⭐ 对所有需要数值预测的LLM应用有实用价值