ASCIIBench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text¶
会议: NeurIPS 2025
arXiv: 2512.04125
代码: https://github.com/ASCIIBench/ASCIIBench
领域: AIGC检测 / 多模态评测
关键词: ASCII艺术, LLM评测, 空间推理, CLIP, 基准测试
一句话总结¶
提出 ASCIIBench,首个用于评估 LLM 对 ASCII 艺术的生成和分类能力的基准数据集(5,315 张 ASCII 图像,752 类),发现当前 LLM 在需要空间/位置推理的 ASCII 任务上仍有显著局限,且 CLIP 嵌入在大多数 ASCII 类别上的区分能力接近随机水平。
研究背景与动机¶
-
领域现状:LLM 随规模增大展现出推理和流畅文本生成等涌现能力,但在需要空间和位置推理的任务上仍然困难。
-
现有痛点:缺乏专门评估 LLM 空间理解能力的基准;ASCII 艺术作为文本和视觉的交叉点,天然存在于 LLM 预训练分布中,且与 tokenization 对齐,是理想的测试载体。
-
核心矛盾:ASCII 艺术中字符作为视觉基元而非语义 token 使用,需要严格的结构规则性,这与 LLM 的语义处理方式存在根本冲突。
-
切入角度:构建标准化基准,系统评估分类(理解)和生成两个维度。
-
核心idea一句话:ASCII 艺术是 LLM 空间推理能力的压力测试。
方法详解¶
整体框架¶
两个评测维度:(1) 分类——给 LLM 展示 ASCII 图像,四选一判断类别;(2) 生成——让 LLM 生成指定类别的 ASCII 图像,用 CLIP 嵌入评估质量。
关键设计¶
- 数据集构建:
- 做什么:从 ascii.co.uk 收集并清洗 5,315 张 ASCII 图像,752 个类别
- 核心思路:多阶段清洗流水线去除签名、标签等噪声
-
设计动机:现有无公开的 ASCII 艺术分类/生成基准
-
分类评测:
- 做什么:测试 LLaMA、GPT-3.5/4o/5-mini、Claude 3.5 Sonnet 在文本/视觉/双模态输入下的分类准确率
-
核心思路:四选一格式,报告 micro/macro accuracy
-
生成评测 + 微调 CLIP:
- 做什么:让 LLM 生成 ASCII 图像,用微调 CLIP 的余弦相似度评估
- 核心思路:微调 CLIP 使其 alignment 从 5.85 提升到 8.90,改善 ASCII 结构捕获
- 设计动机:原始 CLIP 对 ASCII 艺术的嵌入质量差,大多数类别的 ROC-AUC 接近 0.5
实验关键数据¶
主实验(分类)¶
| 模型 | 模态 | Micro Acc | Macro Acc |
|---|---|---|---|
| LLaMA 3.1-8B-Inst | T | 34.5% | 32.0% |
| GPT-3.5-turbo | T | 39.1% | 33.5% |
| GPT-4o | T+V | 76.6% | 79.7% |
| GPT-5-mini | V | 77.3% | 84.1% |
| Claude 3.5 Sonnet | T+V | 76.5% | 76.9% |
关键发现¶
- 纯文本模式下 LLM 分类准确率很低(<40%),加入视觉模态后显著提升至~77%
- CLIP 余弦相似度在大多数 ASCII 类别上区分能力接近随机,瓶颈在表示而非生成方差
- 只有内部平均相似度高的类别才能被有效区分
亮点与洞察¶
- ASCII 艺术作为 LLM 评测探针:独特地处于 LLM 的文本能力边界——字符是视觉基元而非语义单元,是测试空间推理的天然工具
- 表示瓶颈而非生成瓶颈:CLIP 嵌入空间对 ASCII 结构的区分力不足是核心问题
局限性 / 可改进方向¶
- 数据集规模相对较小(5K+),部分类别样本稀少
- 仅评估了有限几个 LLM,未覆盖专门的代码/结构化模型
- CLIP 微调仍不足以充分捕获 ASCII 结构
相关工作与启发¶
- vs 传统视觉 benchmark:ASCII 艺术不需要视觉编码器,可直接用文本 LLM 测试
- vs TikZ 生成:TikZ 更侧重程序性描述,ASCII 更侧重每个字符的空间位置
评分¶
- 新颖性: ⭐⭐⭐⭐ 问题定义新颖,ASCII 作为 LLM 空间推理探针有独创性
- 实验充分度: ⭐⭐⭐ 评测了多个模型但分析深度有限
- 写作质量: ⭐⭐⭐⭐ 简洁清晰
- 价值: ⭐⭐⭐ 作为 workshop paper 贡献合理,指出了有意义的研究方向