LingOly-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation¶
会议: ICLR2026
arXiv: 2503.02972
代码: GitHub
领域: llm_reasoning
关键词: 推理评测, 知识vs推理, 语言学奥赛, 正字法混淆, Benchmark去污染
一句话总结¶
提出LingOly-TOO benchmark(1,203题/6,995子问题),通过对语言学奥赛题的专家设计正字法混淆来分离LLM的推理能力与知识/记忆,发现最强模型从原始题0.59降至混淆后0.48,揭示了LLM推理能力被严重高估。
背景与动机¶
- LLM推理benchmark分数常因模型利用知识和记忆捷径而虚高
- 随着训练集增大和记忆容量增加,训练/测试集及领域内/外任务的界限模糊
- 数据污染问题持续存在——评测题出现在训练数据中
- 现有去污染方法(同义词替换/改写)对子词级推理问题不适用
- 语言学奥赛题(UKLO)是理想的推理评测素材:无需先验知识、可从上下文推断
- 需要一种方法来量化模型在多大程度上依赖知识而非真正推理
方法详解¶
核心思想:对语言学奥赛题的"目标语言"(Problemese)文本进行正字法混淆(grapheme level permutation),保留底层解题逻辑的同时消除模型利用语言知识的可能。
混淆设计(关键约束): - 以字位(grapheme)为单位而非字母(如th/sh作为整体) - 保留与解题相关的语言内部关系(如元音和谐规则中的元音配对必须保留) - 保留借词、英语同源词、人名/地名 - 移除语言名、语系、地理信息等元数据 - 每题最多生成6个有效混淆版本
数据构建:82个UKLO问题→手动标注1,005个(子问题,答案)对→每题6个混淆版本→6,995个子问题。评价指标:\(M_{obf}\)(混淆后平均分)、\(M_{og}\)(原始分)、\(M_{rob}\)(最小分,取每题表现最差的混淆版本)。
验证:IOL奖牌获得者确认混淆后问题仍可通过相同推理步骤解答;172人的RCT实验显示人类混淆后下降仅5.7%。
实验关键数据¶
| 模型 | \(M_{og}\)(原始) | \(M_{obf}\)(混淆) | \(M_{rob}\)(最鲁棒) |
|---|---|---|---|
| GPT-5 | ~0.59 | 0.48 | 0.29 |
| Claude 3.7 (thinking) | ~0.55 | 0.44 | ~0.26 |
| o3-mini (high) | ~0.48 | 0.31 | ~0.18 |
| o3-mini (low) | ~0.29 | 0.13 | ~0.08 |
- 无上下文设置:\(M_{obf}\)降至0.02-0.03,证明混淆有效消除知识捷径
- 语言资源量与推理差距负相关(高资源语言混淆后降幅更大)
- Round 2(最难)问题:GPT-5仅得0.31
- 推理模型比通用模型更鲁棒(推理模型混淆降幅≈人类的5.8%)
亮点¶
- 用正字法混淆优雅地分离推理与知识——方法简洁且理论上solid
- 语言学奥赛题天然适合评测纯推理:无需先验知识、可从上下文推断
- \(M_{rob}\)指标(取最差混淆版本)提供了更保守的推理能力估计
- 定量证明语言资源量影响推理评估偏差
- 人类对照实验(RCT 172人)验证混淆对人类推理影响极小
局限性 / 可改进方向¶
- Exact match评估过于严格,不给部分正确的答案任何分数
- 仅覆盖语言学领域的归纳/演绎推理,非全面推理评测
- 混淆可能在表征层面引入困难(虽然tokenization实验否定了这一解释)
- 依赖专家手动设计混淆规则,每题的有效混淆数量有限(≤6)
- 未探索自动化正字法混淆生成
与相关工作的对比¶
- 相比LingOly(Bean等2024),增加了正字法混淆来控制知识效应
- 相比GSM8K-symbolic(Mirzadeh等2024)的小扰动,正字法混淆更彻底、更难被模型利用
- 相比合成推理benchmark(Saparov & He 2023),使用真实语言学问题更有生态效度
- 与数学/代码推理benchmark互补——关注归纳/类比推理而非演绎推理
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (正字法混淆分离推理与知识——方法原创性高)
- 实验充分度: ⭐⭐⭐⭐⭐ (15模型+人类RCT+IOL专家验证+多维分析)
- 写作质量: ⭐⭐⭐⭐⭐ (动机清晰,实验设计严谨)
- 价值: ⭐⭐⭐⭐⭐ (对"LLM是否真正推理"这一核心问题的重要贡献)