跳转至

EXECUTE: A Multilingual Benchmark for LLM Token Understanding

会议: ACL 2025
arXiv: 2505.17784
代码: https://github.com/Leukas/EXECUTE
领域: LLM/NLP
关键词: multilingual, tokenization, character understanding, benchmark, writing system

一句话总结

扩展字符理解基准 CUTE 到 8 种语言和多种文字系统,提出 EXECUTE 框架,发现 LLM 在不同语言的字符/词/子字符级别表现差异巨大,且意外发现 LLM 对越不熟悉的语言反而在 token 理解任务上表现越好。

研究背景与动机

  1. 领域现状:CUTE 基准证明 LLM 在英语字符操作上表现差。但不同语言的文字系统差异(字母表 vs 辅音标 vs 表意文字)可能导致不同的挑战。
  2. 现有痛点:CUTE 仅覆盖英语和俄语,未考虑书写系统差异;多语言 LLM 对不同语言的 token 分配严重不均匀。
  3. 核心矛盾:LLM 的 token 理解挑战是否与语言的字符-词-token (CWT) 统计特性相关?
  4. 本文要解决什么? 构建跨文字系统的多语言 token 理解基准。
  5. 切入角度:统一框架覆盖字母表(英/俄)、辅音标(阿姆哈拉/印地)、阿布吉德(阿拉伯)、表意文字(中文)、混合(日文)、特征文字(韩文)。
  6. 核心idea一句话:LLM 的 token 理解困难取决于语言的 CWT 统计——字符/词比越高,字符级任务越难;token/词比越高,词级任务越难。

方法详解

整体框架

选择 8 种语言(覆盖所有已知书写系统)-> 用翻译模型生成各语言数据 -> 保留 CUTE 的组合和操作任务(去除相似性任务)-> 增加 CJK 子字符任务 -> 评估 5 个多语言 LLM。

关键设计

  1. CWT 统计框架
  2. 字符/词比 (c/w):中文 1.51(极低),英语 4.04,俄语 5.06(高)
  3. Token/词比 (t/w):阿姆哈拉语 7.69(极高,字节级编码),中文 1.25(低)
  4. 字符/Token 比 (c/t):英语 3.05(高),中文 1.20(低)
  5. 设计动机:这三个比值预测了 LLM 在不同粒度任务上的表现

  6. 简化的可扩展框架

  7. 去除需要静态嵌入和母语者的相似性任务
  8. 添加新语言只需要英语到目标语言的翻译模型
  9. 设计动机:大幅降低扩展门槛

  10. CJK 子字符任务

  11. 测试 LLM 对中文/日文汉字的部首和笔画理解
  12. 设计动机:表意文字有独特的子字符结构

实验关键数据

主实验 -- 不同语言的平均准确率

语言 字符级任务 词级任务 子字符任务
英语 (c/w=4.04) ~45% ~85% N/A
中文 (c/w=1.51) ~75% ~60%* ~25%
阿拉伯语 ~40% ~70% N/A
阿姆哈拉语 (t/w=7.69) ~55% ~45% N/A
韩语 ~50% ~75% ~30%
*中文词级任务涉及单字词

关键发现矩阵

发现 说明
CWT 统计预测性能 c/w 越低(如中文),字符级任务越容易
越不熟悉的语言表现越好 低资源语言的字符操作反而更好(因为字节级 tokenization 保留了更多字符信息)
子字符任务极难 CJK 部首理解准确率仅 ~25%
不同语言挑战在不同粒度 英语在字符级,中文在词级,阿姆哈拉语在词级

关键发现

  • CWT 统计是强预测因子:字符/词比越高的语言字符级任务越难,符合直觉
  • 反直觉发现:不熟悉的语言表现更好——可能因为低资源语言被编码为字节级 token,保留了更多字符结构
  • 子字符理解是 LLM 的盲区:部首/笔画任务准确率极低
  • 同一文字系统的语言表现高度相关(如英语和俄语同为字母表)

亮点与洞察

  • CWT 统计框架将语言学特征与 LLM 行为联系起来,为理解多语言 LLM 提供了量化工具
  • "越不熟悉越好"的反直觉发现揭示了 tokenization 策略对下游能力的深层影响
  • 可扩展框架设计使得添加新语言几乎零门槛

局限性 / 可改进方向

  • 每种语言仅作为一种文字系统的代表
  • 翻译质量可能影响结果
  • 未探索微调对 token 理解的改善
  • 改进方向:字符级 LLM 对比、tokenization 策略优化

相关工作与启发

  • vs CUTE:EXECUTE 扩展到 8 种语言和多种文字系统
  • vs 拼写纠错研究:这些工作混合了字符级和语义知识,EXECUTE 纯粹测试 token 结构理解

评分

  • 新颖性: ⭐⭐⭐⭐ CWT 框架和跨文字系统分析有创新
  • 实验充分度: ⭐⭐⭐⭐ 8 语言 × 5 模型 × 多任务类型
  • 写作质量: ⭐⭐⭐⭐ 分析细致
  • 价值: ⭐⭐⭐⭐ 对多语言 LLM 开发有指导意义