📚 预训练¶
🔬 ICLR2026 · 25 篇论文解读
- A Law of Data Reconstruction for Random Features (and Beyond)
-
从信息论和代数角度证明随机特征模型中存在数据重构定律:当参数量 \(p \gg dn\)(\(d\) 为数据维度,\(n\) 为样本数)时,训练数据可被完整重构,并通过投影损失优化方法在 RF、两层网络和 ResNet 上验证了该阈值的普适性。
- Block-Sample MAC-Bayes Generalization Bounds
-
提出块样本MAC-Bayes泛化界(mean approximately correct),将训练数据划分为J个块后用各块条件下的KL散度之和替代整体KL散度,在确定性学习算法(如均值估计)等原始PAC-Bayes界为空(vacuous)的场景下仍能给出有限、有意义的泛化误差界,并证明了该界的高概率版本在一般情况下不可行。
- CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images
-
构建 CHAMMI-75——最大的异构多通道显微镜图像预训练数据集(280 万图像,75 个来源,25 种通道类型,16 种物种),证明成像模态多样性是提升多通道模型泛化能力的关键因素,训练的 MorphEm 模型在 7 个 benchmark 中 6 个达到 SOTA。
- Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training
-
构建 Common Corpus——约 2 万亿 token 的最大规模合法授权 LLM 预训练数据集,覆盖 6 大集合(政府/文化/科学/代码/Web/语义),多语言(含低资源语言),所有数据均为无版权或宽松许可来源,配有完整数据溯源和多阶段过滤管道,已被 Anthropic 等行业领导者采用。
- Deconstructing Positional Information: From Attention Logits to Training Biases
-
提出基于 Toeplitz 矩阵的统一分析框架,将位置编码分为加法(Absolute/T5/ALiBi)和乘法(RoPE)两类;通过合成任务发现 RoPE 在位置敏感任务上优势显著但存在"单头沉积模式"(single-head deposit pattern)——浅层几乎所有位置推理集中于单个注意力头;理论证明该模式是 RoPE 乘法结构的固有属性。
- Emergent Misalignment is Easy, Narrow Misalignment is Hard
-
研究发现在窄域有害数据上微调会造成广域错位(emergent misalignment),因为"通用错位"比"仅在特定域错位"是更简单高效的参数空间解——通用解的参数范数更小且对噪声更稳定。
- Explaining Grokking and Information Bottleneck through Neural Collapse Emergence
-
通过 Neural Collapse 的视角统一解释 Grokking(延迟泛化)和 Information Bottleneck(压缩阶段)两大训练后期现象,证明群体类内方差的收缩是两者的共同关键因素,并揭示训练损失收敛与 Neural Collapse 发生存在由 weight decay 控制的不同时间尺度。
- FictionalQA: A Dataset for Studying Memorization and Knowledge Acquisition
-
提出 FictionalQA 数据集及生成管线,通过合成关于虚构事件的 webtext 风格文档和 QA 对,在受控环境下研究 LLM 训练中事实记忆与逐字记忆的双重过程,发现更多样的表面形式有助于知识获取而简洁的结构化列表反而最不利于泛化。
- Identifying and Evaluating Inactive Heads in Pretrained LLMs
-
系统评估12种评分函数识别LLM中不活跃注意力头,发现基于头输出范数的评分函数(AHON LN)比传统注意力权重指标更能跨模型家族一致地识别不活跃头,14个模型上平均超过12%的头可被置零而保持MMLU精度在1%以内。
- Imagine How To Change: Explicit Procedure Modeling for Change Captioning
-
提出 ProCap 框架,将变化描述从静态图像对比较重新定义为动态过程建模:第一阶段通过帧插值和掩码重建训练过程编码器学习时空变化动力学,第二阶段用可学习过程查询隐式推断变化过程,在三个数据集上超越 SOTA。
- Implicit Bias and Loss of Plasticity in Matrix Completion: Depth Promotes Low-Rank
-
通过分析深度矩阵分解(深度线性网络)在矩阵补全任务中的梯度流动力学,证明了耦合动力学是深度网络低秩隐式偏差的关键机制,且深度≥3的网络除对角初始化外必然展现耦合,从而解释了深度模型为何能避免可塑性损失。
- Intrinsic Training Dynamics of Deep Neural Networks
-
本文研究深度神经网络梯度流训练中,参数空间的轨迹何时可以被"提升"到低维本征空间并表示为内禀的黎曼梯度流,提出了基于守恒律的内禀可恢复性(intrinsic recoverability)准则,并将结果推广到任意深度的 ReLU 网络和线性网络。
- Lossless Vocabulary Reduction for Auto-Regressive Language Models
-
提出无损词表缩减(LVR)的理论框架,通过嵌套分词(nested tokenization)将任意自回归语言模型精确转换为使用任意子词表的等价模型,并基于最大公共词表(MCV)实现不同分词方案语言模型之间的高效集成,在 GSM8K、MATH、翻译等多个任务上验证了方法的有效性。
- MoMa: A Simple Modular Deep Learning Framework for Material Property Prediction
-
提出 MoMa 模块化材料属性预测框架,先在多任务上训练专用模块并集中存储为 MoMa Hub,再通过表示驱动的无训练自适应模块组合算法(AMC)为下游任务定制模型,在 17 个数据集上平均超越最强基线 14%。
- MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates
-
提出 MT-DAO,一种多时间尺度分布式自适应优化器,通过引入慢动量(高 \(\beta\))来解决低频通信训练中标准动量衰减过快导致的时间尺度失配问题,首次提供了收敛保证,在语言模型预训练中消除了与全同步 DDP 的性能差距,同时减少 6-27% 的端到端训练时间。
- Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning
-
提出 Warmup-Stable-Only (WSO) 学习率调度策略——在预训练中完全去掉学习率衰减阶段,虽然预训练指标较差,但在 SFT 后一致性地超越所有衰减策略,通过损失景观分析揭示 WSO 保持更平坦的极小值区域是其优势根源。
- Predicting Training Re-evaluation Curves Enables Effective Data Curriculums
-
提出训练再评估曲线(TREC)诊断工具,通过分析训练完成后模型在各时间步训练数据上的损失来指导高质量数据的最优放置位置,并证明 TREC 形状可通过 AdamW 的隐式 EMA 系数预测,无需实际训练即可设计数据课程。
- RECON: Robust symmetry discovery via Explicit Canonical Orientation Normalization
-
提出 RECON,一种类-姿态无关的正则化方向归一化方法,通过简单的右平移(right translation)修正任意训练过程中产生的正则化表示,实现无监督的实例级对称性发现、OOD 姿态检测以及即插即用的测试时正则化层。
- Reducing Class-Wise Performance Disparity via Margin Regularization
-
提出 MR2(Margin Regularization for performance disparity Reduction),通过在 logit 和表征空间动态调整类别相关的 margin,基于理论推导的泛化界减少类间性能差异,同时提升整体准确率。
- SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook
-
提出SemHiTok——通过语义引导层次codebook(SGHC)统一理解和生成的tokenizer:预训练语义codebook上建像素子codebook,结构和训练解耦(分阶段优化)避免联合训练的语义-像素冲突,LLaVA设定下离散tokenizer中理解和重建都SOTA。
- Stochastic Self-Organization in Multi-Agent Systems
-
提出 SelfOrg 框架,基于 Agent 响应的语义相似度和 Shapley 值贡献估计,动态构建有向无环通讯图(DAG),实现多 Agent 系统的自组织协作。在弱模型场景下优势尤为显著。
- TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling
-
提出 TASTE(Text-Aligned Speech Tokenization and Embedding),通过跨注意力机制将语音 token 与文本转录对齐,实现极低比特率(~150 bps)下的高质量语音重建,并使文本-语音联合建模变得直接高效,1.3B 参数的 TASLM 超越 7B 预训练 SLM。
- Understanding and Improving Shampoo and SOAP via Kullback-Leibler Minimization
-
从 KL 散度最小化角度重新解释 Shampoo 和 SOAP 的结构化二阶矩估计,揭示其固有局限,并提出 KL-Shampoo 和 KL-SOAP 两种实用方案,在无需 Adam grafting 的情况下匹配或超越原始方法。
- Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors
-
从梯度信号的角度解释了为什么用下一 token 预测(NTP)训练的 Transformer 会学习到对预测当前下一 token "无用"的特征,提出三种梯度路径分解(直接学习、预缓存、电路共享)并在玩具任务、OthelloGPT 和语言模型中验证。
- Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors
-
通过将训练梯度信号分解为 direct、pre-cached 和 circuit sharing 三种成分,解释了为什么 NTP 训练的 Transformer 会学到对预测当前下一token"无用"的特征,并在 OthelloGPT、小型语言模型和预训练 LLM(Gemma 2)上验证了这一框架的解释力。