Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More¶

会议: ACL 2025
arXiv: 2503.10542
代码: 无
领域: LLM/NLP
关键词: 图搜索, 监督污染, next-token prediction, 子任务分解, 捷径学习, Clever Hans Cheat, 规划能力

一句话总结¶

本文证明了 path-star 图搜索任务在 decoder-only LM 上的失败并非 next-token prediction 范式的根本缺陷，而是由"监督污染"（supervision adulteration）导致的——过量的 teacher-forcing 监督信号诱导模型学到 Clever Hans Cheat 捷径，阻碍了子任务分解；通过 token masking、ranking-into-the-future、scratchpad、树形拓扑等六种正交方法均可使任务可学。

研究背景与动机¶

Path-star 任务：Bachmann & Nagarajan (2024) 提出的极简图搜索任务——星形图有 D 条臂，每条长 M，给定起点 s 和终点 t，模型需生成从 s 到 t 的正确臂。核心难点在于选择正确的 leading node \(l_t\)。
惊人的失败：标准 decoder-only LM 通过 teacher-forcing 训练后，在该任务上准确率不超过随机基线 \(1/D\)，被用来论证 next-token prediction 范式对规划任务存在根本性不足。
引发的后续工作：此失败促使多个工作提出替代架构（如 Yin et al. 2024 的辅助自编码器、Hu et al. 2025a 的双向编码器），但这些方案改变了模型架构本身。
Clever Hans Cheat (CHC)：在 teacher-forcing 训练中，模型利用前一个 ground-truth token 进行单边查找（single-edge lookup），而非真正学会从 t 逆向重建臂路径。CHC 吸收了除 \(l_t\) 之外的所有序列监督信号，使学习核心规划子任务仅依赖单一 token。
核心洞察——监督污染：作者提出 supervision adulteration 概念：过量或不当的监督信号之间产生坏的交互，使得目标任务的学习信号被无关的捷径学习所稀释。这不是数据过拟合的问题，而是任务构造方式本身的问题。
反驳动机：如果标准方法（decoder-only + teacher-forcing + next-token prediction）通过微小修改就能解决该任务，则证明原始声明过于绝对，该失败不构成对范式本身的否定。

方法详解¶

整体框架¶

作者将问题归纳为：path-star 任务的不可学性源于监督污染阻碍了子任务分解（subtask decomposition）。图搜索/臂重建本身是递归定义的，天然包含分解结构，但 teacher-forcing 的过量监督使模型走捷径而非学习分解。因此，只要设计出能诱导子任务分解的训练方式，任务就变得可学。作者提出了六种正交方法验证该理论。

实验设置：decoder-only Transformer，2 头，64 维 embedding，256 维 FFN，8 层，学习率 \(5\times10^{-4}\)，batch size 1024，在线数据集（每次生成新样本避免过拟合），\(|V|=|G|\)，训练 100M 样本。

模块一：Token Masking¶

动机：打破 teacher-forcing 中前一 ground-truth 与当前预测之间的坏交互，从目标端输入（target-side input）入手。

方法：在训练时对目标序列中的 token 进行随机 mask 或替换（scheduled sampling），支持均匀采样和连续 span 采样两种模式。被 mask 的位置无法触发 CHC 的单边查找，迫使模型进行多边查找（multi-edge lookup）。

分解机制：当 \(l_t\) 被 mask 时，模型被迫学习从 t 逆向推导的子任务（图5c），这恰好是核心规划任务的子集。mask 不仅阻止了 CHC，还直接诱导了子任务分解。

模块二：Ranking-into-the-Future (RITF)¶

动机：从损失函数角度重新设计监督信号——让模型在每一步预测未来 token 的分布而非仅下一个 token。

方法：在每个时间步 \(i\)，构造排序目标 \(x_i \succ x_{i+1} \succ \dots \succ x_M\)，使用 pairwise hinge loss：

\[L_B = \sum_{i=1}^{M}\sum_{j=i}^{M}\sum_{k=j+1}^{M}\max(0, 1-(\sigma_i[j]-\sigma_i[k]))\]

同时加入正确臂内 token 排在其他臂 token 之上的约束。与 BoW（bag-of-words）和 label smoothing 对比，RITF 表现最优。

分解机制：多 token 损失天然需要多边查找；每步的未来分布学习构成嵌套子问题（\(P_{B,i+1}\) 是 \(P_{B,i}\) 的子问题），产生跨序列的密集分解监督。

模块三：图拓扑修改（Tree-Star）与通用查询¶

Tree-Star：将训练时的臂从路径改为树结构（split tree），每个分叉创造一个 \(D'=2\) 的子 path-star 任务。训练用树、评估用路径——反直觉地，训练与评估不同分布反而有效，因为路径是"过度信息化"的图结构。

通用查询 (GST)：在查询中随机采样 \(R_t\) 中的单个节点替代固定的 t，使模型在训练时面对不同长度的子路径，直接引入分解。

通用长度分解：训练时混合不同 M 值的图，自然提供不同粒度的子任务。

训练策略¶

所有方法均保留标准 teacher-forcing + next-token prediction 范式（RITF 除外，使用了未来分布损失）。使用在线数据集（无固定数据集）避免过拟合。每组实验运行 5 个不同随机种子，报告 SR（>95% 序列准确率的成功率）和 ABB（超过基线 \(100/D+10\)% 的比例）。

实验¶

表1：各方法在不同 (D, M) 下的 Success Rate¶

方法	D=2,M=5	D=3,M=5	D=4,M=5	D=5,M=5	D=2,M=7	D=3,M=7
Baseline	✗	✗	✗	✗	✗	✗
Causal-wise shuffle	✓	✓	部分	部分	✓	部分
Token masking	✓	✓	部分	✗	✓	部分
RITF	✓	✓	✓	部分	✓	✓
Split tree	✓	✓	✓	部分	✓	部分
GST (通用查询)	✓	✓	部分	—	✓	部分

表2：Scratchpad 方法对比¶

SP 类型	SP 准确率	R_t 准确率	说明
反向臂序	~100%	高	trivial，无分析价值
BoW (排序)	中等	低-中	排序本身难学，分解效果有限
图重建 (GR-SP)	部分学会	极低 (4/80)	能识别节点集但无法完成臂重建

关键发现¶

所有六种正交方法均可使任务可学，充分证明"不可学"结论的脆弱性——微小修改即可打破。
阻止 CHC 并非必要条件：split tree 和通用长度分解不阻止 CHC 但任务仍可学，关键在于是否诱导了子任务分解。
RITF 优于 BoW 和 label smoothing：证明指定排序规则比指定具体权重更有效。
GR-SP 的负面结果极具启发性：模型能正确识别 leading/target 节点集并排序，但无法完成臂重建——说明核心难点是图重建而非规划选择。
因果约束的影响：causal-wise shuffle 使任务可学，表明 decoder 的因果约束增加了额外难度。
扩展性问题：所有方法在 D 或 M 增大时性能下降，作者猜测需要更强/一致的分解结构（子任务与主任务同构）才能解决。

亮点¶

"监督污染"概念新颖深刻：将 teacher-forcing 的隐性问题显式化，统一解释了为何更多监督反而有害——不是监督量的问题，而是监督间交互产生的捷径吸收了有用信号。
六种正交方法的统一解释：所有方法从不同角度（输入端/损失端/数据端/拓扑端）诱导子任务分解，强力支撑理论的统一性。
负面结果同样有价值：GR-SP 失败揭示臂重建（而非规划选择）是核心难点，BoW SP 失败揭示反向解法不会被自动发现——打破了"显而易见的解法模型也能找到"的直觉。
对先前工作的桥接：统一解释了 Bachmann & Nagarajan (2024) 和 Saparov et al. (2025) 看似矛盾的结论。

局限¶

扩展性未解决：所有方法在 D 或 M 增大时均失败，论文只在小规模图上验证了可学性，未给出可扩展方案。
仅使用从头训练的小模型（2头/64维/8层），未验证在预训练大模型上的适用性，而预训练引入的语义信息可能改变结论。
为何子任务分解是必要的仍是开放问题——论文展示了经验性必要性但缺乏理论证明。
path-star 任务本身的代表性有限：作者自己承认该任务不适合作为评估规划能力的基准，图搜索也不能代表一般搜索问题。
RITF 的实用性未验证：仅在合成任务上测试，未扩展到自然语言任务或更大规模场景。

评分¶

新颖性: ⭐⭐⭐⭐ — "监督污染"概念新颖，子任务分解的统一解释框架有理论贡献
技术深度: ⭐⭐⭐⭐ — 六种正交方法设计精巧，实验分析细致（尤其是负面结果的深入讨论）
实用性: ⭐⭐⭐ — 核心发现限于合成任务，向真实 NLP 场景的迁移路径不明
表达清晰度: ⭐⭐⭐⭐⭐ — 逻辑链条严密，图示优秀，概念命名准确直观