EXECUTE: A Multilingual Benchmark for LLM Token Understanding¶

会议: ACL 2025
arXiv: 2505.17784
代码: https://github.com/Leukas/EXECUTE
领域: LLM/NLP
关键词: multilingual, tokenization, character understanding, benchmark, writing system

一句话总结¶

扩展字符理解基准 CUTE 到 8 种语言和多种文字系统，提出 EXECUTE 框架，发现 LLM 在不同语言的字符/词/子字符级别表现差异巨大，且意外发现 LLM 对越不熟悉的语言反而在 token 理解任务上表现越好。

研究背景与动机¶

领域现状：CUTE 基准证明 LLM 在英语字符操作上表现差。但不同语言的文字系统差异（字母表 vs 辅音标 vs 表意文字）可能导致不同的挑战。
现有痛点：CUTE 仅覆盖英语和俄语，未考虑书写系统差异；多语言 LLM 对不同语言的 token 分配严重不均匀。
核心矛盾：LLM 的 token 理解挑战是否与语言的字符-词-token (CWT) 统计特性相关？
本文要解决什么？ 构建跨文字系统的多语言 token 理解基准。
切入角度：统一框架覆盖字母表（英/俄）、辅音标（阿姆哈拉/印地）、阿布吉德（阿拉伯）、表意文字（中文）、混合（日文）、特征文字（韩文）。
核心idea一句话：LLM 的 token 理解困难取决于语言的 CWT 统计——字符/词比越高，字符级任务越难；token/词比越高，词级任务越难。

方法详解¶

整体框架¶

选择 8 种语言（覆盖所有已知书写系统）-> 用翻译模型生成各语言数据 -> 保留 CUTE 的组合和操作任务（去除相似性任务）-> 增加 CJK 子字符任务 -> 评估 5 个多语言 LLM。

关键设计¶

CWT 统计框架
字符/词比 (c/w)：中文 1.51（极低），英语 4.04，俄语 5.06（高）
Token/词比 (t/w)：阿姆哈拉语 7.69（极高，字节级编码），中文 1.25（低）
字符/Token 比 (c/t)：英语 3.05（高），中文 1.20（低）
设计动机：这三个比值预测了 LLM 在不同粒度任务上的表现
简化的可扩展框架
去除需要静态嵌入和母语者的相似性任务
添加新语言只需要英语到目标语言的翻译模型
设计动机：大幅降低扩展门槛
CJK 子字符任务
测试 LLM 对中文/日文汉字的部首和笔画理解
设计动机：表意文字有独特的子字符结构

实验关键数据¶

主实验 -- 不同语言的平均准确率¶

语言	字符级任务	词级任务	子字符任务
英语 (c/w=4.04)	~45%	~85%	N/A
中文 (c/w=1.51)	~75%	~60%*	~25%
阿拉伯语	~40%	~70%	N/A
阿姆哈拉语 (t/w=7.69)	~55%	~45%	N/A
韩语	~50%	~75%	~30%
*中文词级任务涉及单字词

关键发现矩阵¶

发现	说明
CWT 统计预测性能	c/w 越低（如中文），字符级任务越容易
越不熟悉的语言表现越好	低资源语言的字符操作反而更好（因为字节级 tokenization 保留了更多字符信息）
子字符任务极难	CJK 部首理解准确率仅 ~25%
不同语言挑战在不同粒度	英语在字符级，中文在词级，阿姆哈拉语在词级

关键发现¶

CWT 统计是强预测因子：字符/词比越高的语言字符级任务越难，符合直觉
反直觉发现：不熟悉的语言表现更好——可能因为低资源语言被编码为字节级 token，保留了更多字符结构
子字符理解是 LLM 的盲区：部首/笔画任务准确率极低
同一文字系统的语言表现高度相关（如英语和俄语同为字母表）

亮点与洞察¶

CWT 统计框架将语言学特征与 LLM 行为联系起来，为理解多语言 LLM 提供了量化工具
"越不熟悉越好"的反直觉发现揭示了 tokenization 策略对下游能力的深层影响
可扩展框架设计使得添加新语言几乎零门槛

局限性 / 可改进方向¶

每种语言仅作为一种文字系统的代表
翻译质量可能影响结果
未探索微调对 token 理解的改善
改进方向：字符级 LLM 对比、tokenization 策略优化

评分¶

新颖性: ⭐⭐⭐⭐ CWT 框架和跨文字系统分析有创新
实验充分度: ⭐⭐⭐⭐ 8 语言 × 5 模型 × 多任务类型
写作质量: ⭐⭐⭐⭐ 分析细致
价值: ⭐⭐⭐⭐ 对多语言 LLM 开发有指导意义