ASCIIBench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text¶

会议: NeurIPS 2025
arXiv: 2512.04125
代码: https://github.com/ASCIIBench/ASCIIBench
领域: AIGC检测 / 多模态评测
关键词: ASCII艺术, LLM评测, 空间推理, CLIP, 基准测试

一句话总结¶

提出 ASCIIBench，首个用于评估 LLM 对 ASCII 艺术的生成和分类能力的基准数据集（5,315 张 ASCII 图像，752 类），发现当前 LLM 在需要空间/位置推理的 ASCII 任务上仍有显著局限，且 CLIP 嵌入在大多数 ASCII 类别上的区分能力接近随机水平。

领域现状：LLM 随规模增大展现出推理和流畅文本生成等涌现能力，但在需要空间和位置推理的任务上仍然困难。
现有痛点：缺乏专门评估 LLM 空间理解能力的基准；ASCII 艺术作为文本和视觉的交叉点，天然存在于 LLM 预训练分布中，且与 tokenization 对齐，是理想的测试载体。
核心矛盾：ASCII 艺术中字符作为视觉基元而非语义 token 使用，需要严格的结构规则性，这与 LLM 的语义处理方式存在根本冲突。
切入角度：构建标准化基准，系统评估分类（理解）和生成两个维度。
核心idea一句话：ASCII 艺术是 LLM 空间推理能力的压力测试。

两个评测维度：(1) 分类——给 LLM 展示 ASCII 图像，四选一判断类别；(2) 生成——让 LLM 生成指定类别的 ASCII 图像，用 CLIP 嵌入评估质量。

模型	模态	Micro Acc	Macro Acc
LLaMA 3.1-8B-Inst	T	34.5%	32.0%
GPT-3.5-turbo	T	39.1%	33.5%
GPT-4o	T+V	76.6%	79.7%
GPT-5-mini	V	77.3%	84.1%
Claude 3.5 Sonnet	T+V	76.5%	76.9%