跳转至

📚 AI Paper Notes

LingOly-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

LingOly-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation¶

会议: ICLR2026
arXiv: 2503.02972
代码: GitHub
领域: llm_reasoning
关键词: 推理评测, 知识vs推理, 语言学奥赛, 正字法混淆, Benchmark去污染

一句话总结¶

提出LingOly-TOO benchmark(1,203题/6,995子问题)，通过对语言学奥赛题的专家设计正字法混淆来分离LLM的推理能力与知识/记忆，发现最强模型从原始题0.59降至混淆后0.48，揭示了LLM推理能力被严重高估。

背景与动机¶

LLM推理benchmark分数常因模型利用知识和记忆捷径而虚高
随着训练集增大和记忆容量增加，训练/测试集及领域内/外任务的界限模糊
数据污染问题持续存在——评测题出现在训练数据中
现有去污染方法(同义词替换/改写)对子词级推理问题不适用
语言学奥赛题(UKLO)是理想的推理评测素材：无需先验知识、可从上下文推断
需要一种方法来量化模型在多大程度上依赖知识而非真正推理

方法详解¶

核心思想：对语言学奥赛题的"目标语言"(Problemese)文本进行正字法混淆(grapheme level permutation)，保留底层解题逻辑的同时消除模型利用语言知识的可能。

混淆设计(关键约束)： - 以字位(grapheme)为单位而非字母(如th/sh作为整体) - 保留与解题相关的语言内部关系(如元音和谐规则中的元音配对必须保留) - 保留借词、英语同源词、人名/地名 - 移除语言名、语系、地理信息等元数据 - 每题最多生成6个有效混淆版本

数据构建：82个UKLO问题→手动标注1,005个(子问题,答案)对→每题6个混淆版本→6,995个子问题。评价指标：\(M_{obf}\)(混淆后平均分)、\(M_{og}\)(原始分)、\(M_{rob}\)(最小分，取每题表现最差的混淆版本)。

验证：IOL奖牌获得者确认混淆后问题仍可通过相同推理步骤解答；172人的RCT实验显示人类混淆后下降仅5.7%。

实验关键数据¶

模型	\(M_{og}\)(原始)	\(M_{obf}\)(混淆)	\(M_{rob}\)(最鲁棒)
GPT-5	~0.59	0.48	0.29
Claude 3.7 (thinking)	~0.55	0.44	~0.26
o3-mini (high)	~0.48	0.31	~0.18
o3-mini (low)	~0.29	0.13	~0.08

无上下文设置：\(M_{obf}\)降至0.02-0.03，证明混淆有效消除知识捷径
语言资源量与推理差距负相关(高资源语言混淆后降幅更大)
Round 2(最难)问题：GPT-5仅得0.31
推理模型比通用模型更鲁棒(推理模型混淆降幅≈人类的5.8%)

亮点¶

用正字法混淆优雅地分离推理与知识——方法简洁且理论上solid
语言学奥赛题天然适合评测纯推理：无需先验知识、可从上下文推断
\(M_{rob}\)指标(取最差混淆版本)提供了更保守的推理能力估计
定量证明语言资源量影响推理评估偏差
人类对照实验(RCT 172人)验证混淆对人类推理影响极小

局限性 / 可改进方向¶

Exact match评估过于严格，不给部分正确的答案任何分数
仅覆盖语言学领域的归纳/演绎推理，非全面推理评测
混淆可能在表征层面引入困难(虽然tokenization实验否定了这一解释)
依赖专家手动设计混淆规则，每题的有效混淆数量有限(≤6)
未探索自动化正字法混淆生成

与相关工作的对比¶

相比LingOly(Bean等2024)，增加了正字法混淆来控制知识效应
相比GSM8K-symbolic(Mirzadeh等2024)的小扰动，正字法混淆更彻底、更难被模型利用
相比合成推理benchmark(Saparov & He 2023)，使用真实语言学问题更有生态效度
与数学/代码推理benchmark互补——关注归纳/类比推理而非演绎推理

评分¶

新颖性: ⭐⭐⭐⭐⭐ (正字法混淆分离推理与知识——方法原创性高)
实验充分度: ⭐⭐⭐⭐⭐ (15模型+人类RCT+IOL专家验证+多维分析)
写作质量: ⭐⭐⭐⭐⭐ (动机清晰，实验设计严谨)
价值: ⭐⭐⭐⭐⭐ (对"LLM是否真正推理"这一核心问题的重要贡献)