跳转至

📚 预训练

🧠 NeurIPS2025 · 42 篇论文解读

AI Progress Should Be Measured by Capability-Per-Resource, Not Scale Alone: A Framework for Gradient-Guided Resource Allocation in LLMs

本文以 position paper 的形式挑战"规模至上主义",提出以能力-每-资源(Capability-Per-Resource, CPR)取代单纯的规模扩张来衡量 AI 进步,并给出一套基于梯度引导的资源分配理论框架——通过发布"梯度蓝图"元数据,使下游适配者仅微调高影响力参数子集即可在资源占用大幅降低的同时保持接近全参数微调的性能。

Alternating Gradient Flows: A Theory of Feature Learning in Two-layer Neural Networks

提出交替梯度流(AGF)理论框架解释神经网络的逐步"鞍到鞍"特征学习动力学——将训练建模为休眠神经元的效用最大化和活跃神经元的代价最小化的交替过程,统一了对角线性网络、注意力模型和模块加法的特征选择分析,预测与实际梯度流高度一致。

An Empirical Investigation of Neural ODEs and Symbolic Regression for Dynamical Systems

系统实证研究 Neural ODE (NODE) 在动力系统中的外推能力和 Symbolic Regression (SR) 的方程恢复能力,发现 NODE 在动态相似条件下可外推到新边界条件,并提出 NODE→SR 流水线:仅用 10% 原始数据训练 NODE 生成增强数据,SR 即可恢复 2/3 的控制方程和 1/3 的良好近似。

Beyond Benign Overfitting in Nadaraya-Watson Interpolators

通过调节 Nadaraya-Watson 插值器中的单一带宽参数 \(\beta\),精确刻画了从灾难性过拟合(\(\beta < d\))→ 良性过拟合(\(\beta = d\))→ 温和过拟合(\(\beta > d\))的完整相变谱,证明高估数据内禀维度比低估更安全。

Born a Transformer – Always a Transformer? On the Effect of Pretraining on Architectural Abilities

通过系统性地研究检索和复制任务家族,揭示了大规模预训练会为Transformer引入方向性偏置(右/前向优于左/后向),但无法克服非唯一任务上的根本架构限制;微调可消除方向偏置但不能突破架构表达力边界。

Breaking the Frozen Subspace: Importance Sampling for Low-Rank Optimization in LLM Pretraining

发现GaLore等低秩优化方法的主导子空间在预训练中会"冻结"(相邻子空间重叠度趋近1),导致权重更新卡在固定低秩子空间中;提出SARA(重要性采样子空间选择),按奇异值权重随机采样奇异向量构建子空间,证明收敛性的同时将低秩优化器与全秩Adam的性能差距缩小最高46%。

Broken Tokens: Your Language Model Can Secretly Handle Non-Canonical Tokenization

揭示 LLM 能秘密处理非标准分词(如将"Hello"拆为"He"+"llo"而非标准的"Hello"整词token)——即使输入的 token 序列与训练时不同,模型表现出惊人的鲁棒性,且这种能力来自嵌入空间中子词嵌入的线性组合近似整词嵌入的特性。

Conformal Risk Training: End-to-End Optimization of Conformal Risk Control

本文将 Conformal Risk Control (CRC) 从期望损失扩展到一般化的 Optimized Certainty-Equivalent (OCE) 风险度量(包含 CVaR 等尾部风险),并提出"共形风险训练"方法,通过在训练中端到端地微分共形风险控制过程,在保持可证明风险保证的同时显著改善平均情况性能。

Differentiable Hierarchical Visual Tokenization

提出一种端到端可微分的层次化视觉分词器,以像素级粒度自适应图像内容进行 token 划分,利用信息准则进行层次模型选择,可直接替换 ViT 的固定 patch 分词,并支持光栅-矢量转换。

Disaggregation Reveals Hidden Training Dynamics: The Case of Agreement Attraction

本文通过对语言模型在主谓一致任务上的表现按实验条件进行细粒度拆解(disaggregation),揭示了聚合指标所掩盖的多阶段训练动态:模型先学词频偏好、再学局部上下文、最后发展出一般性的语法规则,这一过程涉及多次"隐藏突破"而非简单的单调提升。

Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers?

通过定义 IsSameObject 谓词并设计二次探针,证明大规模预训练 ViT(尤其是 DINO、CLIP)自然涌现了目标绑定能力,该信号编码在低维子空间中并主动引导注意力机制,挑战了认知科学界认为 ViT 缺乏绑定能力的观点。

Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs

提出 Arnold 调度系统,通过将 LLM 训练的通信模式(DP/PP group)与数据中心物理网络拓扑对齐,在模拟中将通信组最大跨度减少 1.67x,在 9600+ GPU 生产级训练中端到端性能提升 10.6%。

Enhancing Training Data Attribution with Representational Optimization

提出 AirRep(Attentive Influence Ranking Representation),一种基于表示学习的训练数据归因方法,通过可训练编码器和注意力池化机制,在推理效率比梯度方法快约 80 倍的同时,达到甚至超越 SOTA 梯度方法的归因精度。

Final-Model-Only Data Attribution with a Unifying View of Gradient-Based Methods

明确提出"仅有最终模型"(FiMO)的训练数据归因设定,将问题从"贡献度"重构为"敏感性"度量,提出 further training 作为金标准,并统一推导出多种梯度方法(Grad-Dot、影响函数、TRAK、DataInf 等)均为 further training 的不同阶近似。

Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking

利用 grokking(延迟泛化)作为因果探针,证明 relative flatness 是泛化的(潜在)必要条件,而 neural collapse 虽常伴随泛化出现,但并非必要——它只是通往 flatness 的一条路径。

Gemstones: A Model Suite for Multi-Faceted Scaling Laws

开源由超过4000个检查点(覆盖50M-2B参数、多种宽度-深度比)组成的Gemstones模型套件,通过系统实验揭示缩放律对模型选择、学习率调度、冷却策略等设计选择高度敏感,并提出基于凸包的新拟合方法提升稀疏采样下的缩放律稳定性。

Generalization Bounds for Rank-sparse Neural Networks

本文证明了利用神经网络权重矩阵近似低秩结构的泛化界,当 Schatten \(p\) 拟范数较小时,样本复杂度仅为 \(\widetilde{O}(WrL^2)\),其中 \(W\), \(L\), \(r\) 分别为宽度、深度和权重矩阵的秩。

Global Minimizers of Sigmoid Contrastive Loss

首次在实践相关的 N≫d 区间严格刻画了 Sigmoid 对比损失(SigLIP)在可训练温度和偏置下的全局最小值几何结构,提出了 (m, b_rel)-Constellation 这一新型组合对象,并用其解释了 SigLIP 的检索成功、模态间隙现象,以及提出了显式 relative bias 参数化改进训练动态。

Gradient-Weight Alignment as a Train-Time Proxy for Generalization in Classification Tasks

提出 Gradient-Weight Alignment (GWA),通过量化每个训练样本梯度与模型权重的方向一致性(cosine similarity),在训练过程中无需验证集即可准确预测泛化性能、确定最佳早停时机,并定位有影响力的训练样本。

How Does Sequence Modeling Architecture Influence Base Capabilities of Pre-trained Language Models?

通过"限定领域预训练 + OOD 测试"的评估框架揭示 Mamba/RWKV 等 stateful 架构存在基础能力退化,并归纳出关键设计原则——"全序列任意选择能力"(full-sequence visibility + real relation calculation + non-uniform distribution),用极简的 Top-1 Element/Chunk Selection 架构验证该原则可恢复至接近 Transformer 的基础能力。

Language Model Behavioral Phases are Consistent Across Architecture, Training Data, and Scale

通过对超过 1,400 个语言模型检查点(涵盖 Transformer/Mamba/RWKV 三种架构、14M–12B 参数规模、两种训练数据集)在 11 万+ token 上的系统分析,发现所有自回归语言模型在预训练过程中展现出高度一致的行为阶段——预测概率依次过拟合到递增阶数的 n-gram 概率,且词频、n-gram 概率和语义相似度三个简单启发式可解释高达 98% 的行为方差。

Learning the Wrong Lessons: Syntactic-Domain Spurious Correlations in Language Models

揭示 LLM 学会了句法模板(PoS n-gram)与领域之间的虚假关联,导致跨域性能骤降,甚至可利用此关联绕过安全拒绝机制(refusal bypass),在 OLMo-2 上将拒绝率从 40% 降至 2.5%。

Learning to Flow from Generative Pretext Tasks for Neural Architecture Encoding

提出 FGP(Flow-based Generative Pre-training),通过让编码器重建"流代理"(flow surrogate)这一架构信息流的简化表征,使任意结构的编码器无需专用的异步消息传递设计即可捕获信息流,在性能预测中 Precision@1% 最高提升 106%。

Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models

提出 Residual Alignment Model (RAM),将 LLM 对齐过程形式化为重要性采样,将大模型分解为冻结的 Proposal Module 和可训练的小型 Residual Aligner,以不到 1/8 参数实现可比甚至超越全参数 SFT/DPO 的对齐效果,同时解决了首 token 延迟问题。

Language Model Behavioral Phases are Consistent Across Architecture, Training Data, and Scale

本文通过分析 1,400+ 个模型检查点在 110,000+ token 上的行为,发现自回归语言模型在训练过程中展现高度一致的行为阶段——预测概率依次过拟合到递增 n 的 n-gram 概率,且三个简单启发式(词频、n-gram 概率、语义相似度)可解释高达 98% 的模型行为方差,此规律跨架构(Transformer/Mamba/RWKV)、数据集和规模保持一致。

Memory Mosaics at Scale

Memory Mosaics v2 将关联存储网络扩展至 10B 参数、1T token 训练规模,在新任务学习和上下文学习上显著超越同规模甚至 8T token 训练的 Transformer。

Nemotron-CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

NVIDIA 提出 CLIMB 框架,通过嵌入聚类 + 迭代自举搜索自动发现最优预训练数据混合比例,在 1B 模型上超过 Llama-3.2-1B 达 2.0%,并发布了 1.2T token 的 ClimbLab 语料库和 400B token 的 ClimbMix 高质量数据集。

Neural Collapse under Gradient Flow on Shallow ReLU Networks for Orthogonally Separable Data

首次证明在正交可分数据上,两层ReLU网络的梯度流(GF)在小初始化下可证收敛到Neural Collapse(NC)解,揭示了GF隐式偏置(早期神经元对齐+渐近最大间隔偏置)在促进NC出现中的关键作用。

Optimal Online Change Detection via Random Fourier Features

提出 Online RFF-MMD 算法,通过随机 Fourier 特征近似 MMD 统计量并嵌入到二进制网格的序贯检验框架中,实现了无需训练数据、无需窗口参数的在线非参数变点检测,运行时间和空间复杂度均为对数级,并证明了检测延迟的 minimax 最优性。

Power Lines: Scaling Laws for Weight Decay and Batch Size in LLM Pre-training

提出了一套针对 LLM 预训练中权重衰减 \(\lambda\) 和批大小 \(B\) 的幂律缩放定律(power laws),通过 AdamW 时间尺度 \(\tau\) 的概念统一了超参数缩放关系,使得在大规模训练前即可准确预测最优超参数。

Predict Training Data Quality via Its Geometry in Metric Space

提出基于持久同调(Persistent Homology)的训练数据多样性度量方法,证明数据的几何/拓扑结构特征能够有效预测模型性能,优于传统基于熵的Vendi Score等指标。

PRESCRIBE: Predicting Single-Cell Responses with Bayesian Estimation

提出 PRESCRIBE 框架,通过多变量深度证据回归联合建模单细胞扰动预测中的认知不确定性(模型对输入的不熟悉程度)和随机不确定性(生物系统固有的随机性),生成伪 E-distance 作为统一的不确定性代理指标,过滤不可靠预测后准确率提升 3% 以上。

Quantifying Task-Relevant Representational Similarity Using Decision Variable Correlation

本文提出基于决策变量相关(DVC)的新方法来衡量两个神经表征在分类任务上的逐试次一致性,发现深度网络在 ImageNet 上准确率越高反而与猴脑 V4/IT 的 DVC 越低,对抗训练和大规模数据集预训练也无法缩小这一差距。

Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models

提出 RICL(Retrospective In-Context Learning),利用 LLM 的预训练知识通过回顾式上下文学习将稀疏环境反馈转化为密集优势函数信号,实现比传统 Monte Carlo 方法高 100 倍的样本效率,并在此基础上构建 RICOL 在线学习框架。

Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models

本文提出 RICL(回顾式上下文学习),通过比较 LLM 策略在上下文更新前后的 log-probability 差异来估计优势函数,将稀疏环境反馈转化为密集训练信号,实现高效的时间信用分配,并在 BabyAI 任务上以更高采样效率达到传统 RL 可比的收敛性能。

Scalable Fingerprinting of Large Language Models

提出 Perinucleus 采样方法生成可扩展的 LLM 指纹,能在 Llama-3.1-8B 上嵌入 24,576 个指纹(比现有方法多两个数量级)且不损害模型能力,并通过理论和实验证明大规模指纹是抵御共谋攻击的关键。

Scaling Embedding Layers in Language Models

提出Scone方法,通过为高频n-gram学习上下文化的嵌入(用独立Transformer模型训练),在推理时将这些嵌入卸载到主存/SSD,实现"训练时用更多计算但推理时不增加加速器资源"的新缩放范式,1B参数模型超越1.9B基线。

Superposition Yields Robust Neural Scaling

揭示表示叠加(superposition)是神经缩放定律的核心驱动力:在强叠加区间,损失通用地与模型维度成反比(\(L \propto 1/m\)),且该行为与数据频率分布的具体形式无关,这与实际 LLM 的缩放行为一致。

The Curse of Depth in Large Language Models

揭示 Pre-LN Transformer 中输出方差指数增长导致深层退化为恒等映射的根本原因,提出无参数的 LayerNorm Scaling(LNS)策略——仅在 LayerNorm 后乘以 \(1/\sqrt{\ell}\),将方差从指数增长压缩为多项式增长,在 130M-7B 全规模上稳定改进困惑度 5-8%。

Through the River: Understanding the Benefit of Schedule-Free Methods for Language Model Training

从 river-valley 损失景观的几何视角,分析了 Schedule-Free (SF) 优化器在语言模型预训练中不需要学习率衰减和权重平均就能持续追踪最优解的原因,并揭示 SF 隐式执行了权重平均,进而提出解耦动量和平均窗口的改进版 SF-AdamW。

Understanding and Enhancing Mask-Based Pretraining towards Universal Representations

用高维线性回归理论精确刻画了 mask-based pretraining 中掩码率对测试风险的影响(偏差-方差分解),揭示了最优掩码率依赖于任务和模型大小,并据此提出 R2MAE(随机随机掩码),在视觉、语言、DNA、单细胞模型上一致超越固定掩码率。

ZEUS: Zero-shot Embeddings for Unsupervised Separation of Tabular Data

ZEUS 是首个面向表格数据的零样本聚类方法,通过在合成数据集上预训练一个 Transformer 编码器来学习可泛化的表示,使得新数据集无需任何额外训练或调参即可在单次前向传播中完成高质量聚类。