NTIL: Advancing Sequential Numerical Prediction in Autoregressive Models¶

会议: ACL 2025
arXiv: 2505.13077
代码: GitHub
领域: LLM训练 / 数值预测
关键词: 数值token完整性, Earth Mover's Distance, 序列数值预测, 自回归模型, 交叉熵局限

一句话总结¶

提出 NTIL（Numerical Token Integrity Loss）解决自回归模型数值预测的两大缺陷——(1) token 级用 EMD 替代交叉熵保留数字间序数关系+指数位置加权，(2) 序列级通过可微数值构建+相对偏差度量评估整体数值误差。首次将 EMD 用于自回归模型优化，在目标检测/文本识别/数学推理上显著提升。

背景与动机¶

自回归 LLM/MLLM 逐 token 生成数值（如坐标"0.98"→"0",".", "9","8"），但标准交叉熵有两大缺陷：

token 级：CE 忽略数字间的邻近性——预测分布偏向"2"vs偏向"9"对ground truth"3"的CE损失相同，但前者更好
序列级：CE 只关注逐 token 匹配——预测1.01（CE高因为"1"≠"0"等）比1.98（CE低因为多数token匹配）的CE更差，但数值误差0.03 vs 1.00，实际1.01好得多

核心问题¶

如何让自回归模型在数值预测中既保持 token 间的序数关系又捕获整体数值误差？

方法详解¶

Token 级：指数加权 EMD¶

用 EMD 替代 CE——EMD 考虑将一个分布"搬运"到另一个分布的最小成本，天然保持序数关系
指数位置加权：\(\mathbf{W_{exp}} = [(1+\sigma)^{n-i-1}]_{i=0}^{n-1}\)——高位数字权重指数级更大（"1"和"2"的差比小数点后的差重要得多）
首次将 EMD 用于自回归模型的损失函数

序列级：多 token 数值优化¶

可微数值构建：用 Gumbel-softmax 近似从离散 token 预测构建连续数值
相对偏差度量：\(\mathcal{L}_{relative} = |X-Y| / (\max(X,Y) + \epsilon)\)——归一化跨量级，比绝对差更公平
在 CE/EMD token 损失之上加入序列级数值损失

总损失¶

\(\mathcal{L} = \mathcal{L}_{EMD} + \lambda \mathcal{L}_{relative}\)

实验关键数据¶

任务	提升
目标检测（LLM/MLLM）	坐标预测精度显著提升
文本识别	OCR 数字识别改善
数学推理	数值答案准确率提升

可无缝集成到 LLM 和 MLLM 训练中
与标准 CE 训练对比均有一致改善

亮点¶

首次将 EMD 用于自回归模型优化——概念新颖
指数位置加权捕获位值系统——符合人类数字认知
Gumbel-softmax 实现可微数值构建——巧妙的工程方案
CE 缺陷分析清晰直观——图示对比令人信服

局限性 / 可改进方向¶

EMD 计算开销：比 CE 更消耗计算资源
仅非负数值：负数、科学计数法等特殊格式未处理
Gumbel-softmax 近似精度：温度参数影响梯度质量
仅在 ByteDance 内部模型验证：外部 LLM 效果待验证

与相关工作的对比¶

vs 标准 CE 训练：CE 忽略数字序数关系和整体数值；NTIL 双层面优化
vs Wasserstein GAN：GAN 中 EMD 用于稳定训练；NTIL 将 EMD 用于自回归模型的数值预测
vs 专用数字编码方案：如 xVal 等修改 tokenizer；NTIL 不修改 tokenizer 仅改损失

启发与关联¶

自回归模型对数值的"无知"是一个被低估的系统性问题
EMD 作为保序损失可推广到任何需要保持序数关系的离散预测任务
位值系统的显式编码提示：LLM 对数字的理解可能需要特殊归纳偏置

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次EMD用于自回归+序列级数值优化，概念和实现都新颖
实验充分度: ⭐⭐⭐⭐ 3类任务验证，但缺少外部LLM对比
写作质量: ⭐⭐⭐⭐⭐ CE缺陷分析图示极其直观
价值: ⭐⭐⭐⭐ 对所有需要数值预测的LLM应用有实用价值