Quiet Feature Learning in Algorithmic Tasks¶

会议: AAAI 2026
arXiv: 2505.03997
代码: https://github.com/prudhvirajn/quiet-feature-learning-in-algorithmic-tasks
领域: 深度学习理论 / 涌现
关键词: 相变, 隐式特征, 算法任务, 损失平台, Grokking

一句话总结¶

在 10 个算法任务（18,544 次训练运行，\(10^9\)-\(10^{16}\) FLOPs）上发现，Transformer 的损失平台期并非学习停滞——模型在此期间悄悄学习了"安静特征"（中间算法子程序），这些特征不直接降低输出损失但对最终性能因果必要（消融后准确率下降 41-75%）。这挑战了用损失曲线判断训练进展的常规做法。

研究背景与动机¶

领域现状：LLM 训练中观察到损失曲线的相变（突然下降）和长时间平台期。缩放定律假设损失平滑下降，但算法任务上的相变违背了这一假设。
现有痛点：
相变前的平台期被认为是"浪费计算"——但真的什么都没学吗？
缺乏工具探测损失平台期间模型内部发生了什么
"涌现能力"（Emergent Abilities）的讨论缺乏内部机制的证据
核心矛盾：损失不变 ≠ 学习不变——模型可能在积累不直接反映在损失上的中间表示。
本文要解决什么？ 用线性探针和消融实验证明平台期有实质性的内部学习。
切入角度：在 10 个算法任务的残差流上训练线性探针，检测"安静特征"——那些在损失下降前就已学会的中间计算结果。
核心 idea 一句话：损失平台 ≠ 学习停滞——模型在后台并行积累子程序，只有所有子程序就位时损失才突降。

方法详解¶

整体框架¶

10 个算法任务（加法/乘法/排序/搜索等）× Transformer++ 架构 × 多种模型规模 → 训练过程中在每个层/位置的残差流上训练线性探针 → 检测中间计算特征的出现时间 → 消融验证因果必要性。

关键设计¶

安静特征探测:
做什么：在损失平台期检测模型是否已学会中间算法步骤
核心思路：对加法任务，探测进位位（carry bits）是否已被编码在残差流中——即使模型还无法正确输出最终答案
发现：进位位在损失下降前就被编码（探针准确率 >90%），但此时输出损失仍在平台
因果消融:
做什么：证明安静特征对最终性能因果必要
核心思路：在模型已学会后，消融（置零）编码安静特征的表示维度，观察性能下降
结果：进位位消融导致准确率下降 41.2%-75.1%（p<0.001），证明这些特征不是冗余的
跨任务普适性:
做什么：验证安静特征不是加法任务的特例
10 个任务都观察到类似模式：损失平台期有特征学习 → 相变后利用这些特征

损失函数 / 训练策略¶

标准交叉熵损失
AdamW + 线性预热 + 余弦退火
总计 18,544 次训练运行

实验关键数据¶

主实验¶

安静特征	探针准确率（平台期）	消融后准确率下降
加法进位位	>90%	-41.2% ~ -75.1%
排序中间比较	>85%	显著
搜索中间指针	>80%	显著

消融：相变时间线¶

阶段	输出损失	安静特征探针	说明
平台期早期	高且平	随机	尚未学习
平台期后期	高且平	>90%	安静学习
相变后	突然下降	>95%	特征被利用

关键发现¶

安静特征出现在损失下降之前——模型在平台期积累子程序
因果必要：不是偶然相关，消融后性能崩溃
所有 10 个任务都有此模式：普适性强
挑战缩放定律：幂律损失曲线无法预测相变时间

亮点与洞察¶

"损失平台 ≠ 学习停滞"挑战了用损失曲线做决策（如早停/计算预算分配）的常规做法
对"涌现能力"的机制解释：能力不是突然出现的，而是子程序在后台并行积累到临界点
对实践的直接影响：不应该在损失平台期停止训练——模型可能正在做重要的内部学习

局限性 / 可改进方向¶

仅在算法任务上验证，自然语言任务是否有类似安静特征未知
线性探针可能漏掉非线性编码的特征
仅在小模型（<100M）上测试

评分¶

新颖性: ⭐⭐⭐⭐⭐ "安静特征"概念新颖且深刻，揭示了训练前期特征学习的隐藏动态
实验充分度: ⭐⭐⭐⭐ 10 任务 × 18K 运行 × 因果消融，统计设计严谨
写作质量: ⭐⭐⭐⭐⭐ 发现令人兴奋，从观察到机制解释的呈现逻辑链完整
价值: ⭐⭐⭐⭐⭐ 对理解深度学习训练动态有重要理论贡献，挑战了 grokking 的传统解释

补充说明¶

该工作的方法论和实验设计对相关领域有参考价值
后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
与近期相关工作的结合（如与 RL/MCTS/多模态方法的交叉）有潜在研究价值