📚 预训练¶

🧪 ICML2025 · 29 篇论文解读

A Square Peg in a Square Hole: Meta-Expert for Long-Tailed Semi-Supervised Learning: 提出 Meta-Expert 算法，通过动态专家分配（DEA）模块根据样本的类别归属（头/中/尾）自动选择最擅长的专家生成伪标签，并利用多深度特征融合（MFF）模块缓解模型对头类的偏向，实现"方枘方凿"——让每个专家处理它最擅长的样本区间。
Algebra Unveils Deep Learning -- An Invitation to Neuroalgebraic Geometry: 本文提出 neuroalgebraic geometry（神经代数几何） 这一新研究方向，系统地利用代数几何的工具（维度、度、奇异点、纤维、临界点理论等）来分析深度学习模型参数化的函数空间（neuromanifold），建立起代数几何不变量与机器学习核心问题（样本复杂度、表达能力、训练动力学、隐式偏差）之间的对应字典。
Bayesian Neural Scaling Law Extrapolation with Prior-Data Fitted Networks: 首个面向神经缩放定律(Neural Scaling Law)的贝叶斯外推方法，通过设计专门的先验分布（覆盖Down/Down-Down/Down-Up-Down三种功能族），利用PFN (Prior-data Fitted Networks) meta-learn外推能力，在点估计精度和不确定性质量上均优于现有方法。
Benign Overfitting in Token Selection of Attention Mechanism: 本文首次从理论上证明了注意力机制中 token 选择的良性过拟合现象，表明一层注意力网络通过梯度下降可以完美拟合含噪标签的训练数据，同时在信号学习与噪声记忆之间保持平衡时仍能泛化。
Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning: 提出 Chameleon 框架，利用 kernel ridge leverage scores（KRLS）在代理模型的嵌入空间中量化各训练域的重要性，以仅 DoReMi 1/10 的计算成本达到同等或更优的数据混合效果，且支持新域引入时无需重训代理模型、统一处理预训练和微调场景。
Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers: 通过直方图计数任务，揭示了小型Transformer中注意力层与前馈层之间的精细分工：注意力擅长关系比较（relation-based counting），前馈层负责字典记忆（inventory-based counting），两种策略的出现由嵌入维度 \(d\)、隐层大小 \(p\) 和词表大小 \(T\) 的相对关系决定。
Density Ratio Estimation-based Bayesian Optimization with Semi-Supervised Learning: 提出 DRE-BO-SSL，将半监督学习（标签传播/标签扩散）引入密度比估计型贝叶斯优化，通过无标签数据点缓解监督分类器的过度利用(over-exploitation)问题，在探索与利用之间取得更好平衡。
DipLLM: Fine-Tuning LLM for Strategic Decision-Making in Diplomacy: 提出 DipLLM，通过自回归分解框架将外交博弈的指数级组合动作空间分解为单元级决策序列，并微调 LLM 学习均衡策略，仅用 Cicero 1.5% 的训练数据即超越其性能。
Does Data Scaling Lead to Visual Compositional Generalization?: 本文通过受控实验系统研究了数据规模与数据多样性对视觉模型组合泛化能力的影响，发现组合泛化的关键驱动力是数据多样性而非数据量，并证明当表示呈线性分解结构时仅需每个概念值2个组合样本即可完美泛化。
Evaluating Morphological Alignment of Tokenizers in 70 Languages: 扩展 MorphScore 评估框架至 70 种语言，系统研究分词器的形态边界对齐程度与下游任务性能之间的相关性，发现形态对齐仅能解释极少量的性能方差，且呈负相关，挑战了"形态对齐分词有利于模型性能"的主流假设。
How to Synthesize Text Data without Model Collapse?: 提出 Token-level Editing (ToEdit)，通过对人类数据进行 token 级别的局部重采样（而非完全生成合成数据），在理论上证明测试误差存在有限上界，从而避免 model collapse，并在预训练、持续预训练和微调三个阶段验证了有效性。
In-Context Adaptation to Concept Drift for Learned Database Operations: 提出 FLAIR 框架，利用数据库执行结果作为上下文实现 in-context adaptation，无需运行时参数更新即可应对 concept drift，在基数估计等任务上实现 5.2× 加速和 22.5% 误差降低。
Inductive Gradient Adjustment for Spectral Bias in Implicit Neural Representations: 本文从 NTK 线性动力学模型出发，提出 Inductive Gradient Adjustment (IGA) 方法，通过归纳泛化 eNTK 梯度变换矩阵，有目的性地缓解 MLP 的频谱偏差，使 INR 在百万级数据点上也能高效学习高频细节。
Language Model Developers Should Report Train-Test Overlap: 本文系统性地调研了30个语言模型开发者在训练-测试重叠（train-test overlap）方面的报告实践，发现仅9个模型提供了足够的重叠信息，并呼吁所有开发者在发布评估结果时必须同时报告训练-测试重叠统计数据或公开训练数据。
Language Models over Canonical Byte-Pair Encodings: 揭示 BPE 分词下自回归语言模型给指数级数量的非规范 (noncanonical) token 编码分配了不必要的概率质量，提出基于有限状态自动机 (FSA) 的条件化与构造化两套修复方案，在多种模型和语料上一致提升 held-out 似然。
Large Language Models are Demonstration Pre-Selectors for Themselves: 提出 FEEDER（FEw yet Essential Demonstration prE-selectoR），一个基于"充分性"和"必要性"度量的示例预选框架，利用 LLM 自身能力从训练数据中识别代表性子集，在 ICL 和微调两个场景下均可减少 20%+ 数据量同时保持甚至提升性能。
LLM Data Selection and Utilization via Dynamic Bi-level Optimization: 提出动态数据加权模型(DWM)，通过双层优化在LLM训练过程中实时调整每批数据的权重，捕捉模型动态变化的数据偏好，比静态数据选择方法一致提升性能且可迁移到不同模型规模。
Metadata Conditioning Accelerates Language Model Pre-training: 提出 MeCo（Metadata Conditioning then Cooldown），在预训练时将文档的 URL 等元数据前置拼接到文本中，帮助模型区分异质数据源，最后 10% 训练用标准数据做 cooldown，使 1.6B 模型用 33% 更少的数据即可达到同等下游性能，同时解锁了通过条件推理引导生成的能力。
On the Clean Generalization and Robust Overfitting in Adversarial Training from Two Theoretical Views: Representation Complexity and Training Dynamics: 本文从表示复杂度和训练动态两个视角，理论解释了对抗训练中"干净泛化与鲁棒过拟合共存"(CGRO)现象：CGRO分类器仅需额外 \(\tilde{O}(ND)\) 参数即可通过鲁棒记忆实现，而真正的鲁棒泛化在最坏情况下需要指数级模型容量；在结构化数据上，对抗训练的三阶段相变过程会使网络部分学习真特征、完全记忆噪声，从而可证地收敛到CGRO状态。
On the Role of Label Noise in the Feature Learning Process: 从特征学习理论视角严格分析了两层ReLU CNN在标签噪声下的训练动态，揭示清晰的二阶段行为——Stage I模型学信号拟合干净样本（泛化好），Stage II损失收敛后模型记忆噪声过拟合噪声样本（泛化退化）——并为早停和小损失样本选择提供严格理论保证。
Position: The Future of Bayesian Prediction Is Prior-Fitted: 本文是一篇 position paper，主张 Prior-Data Fitted Networks (PFNs)——在随机生成的合成数据集上训练神经网络以近似贝叶斯后验预测分布——代表了贝叶斯推断的未来方向，因为它在实现简洁性、先验定义灵活性、推理速度上全面超越传统 MCMC/VI/GP 方法，并已在表格学习 (TabPFN) 中证明了超越 XGBoost 的实力。
Revisiting Continuity of Image Tokens for Cross-Domain Few-Shot Learning: 发现破坏 ViT 图像 token 的连续性（使相邻 patch 像素不再平滑过渡）在源域性能显著下降但在目标域仅略降，揭示连续性帮助学习的大空间模式更难跨域迁移，据此提出简单有效的 ReCIT 方法来缩小域差距。
The Dark Side of the Forces: Assessing Non-Conservative Force Models for Atomistic Machine Learning: 系统评估非保守力（直接预测而非从势能求导）机器学习原子间势在几何优化和分子动力学中的灾难性后果，并提出保守+非保守混合模型通过多时间步方案兼顾效率与物理正确性。
The Double-Ellipsoid Geometry of CLIP: 通过数据驱动分析发现CLIP的L2归一化前primary embedding呈现双椭球壳几何——图像和文本分别在偏离原点的可线性分离椭球壳上，引入conformity概念解释该结构如何帮助缓解false negatives并解释modality gap的成因。
The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training: 揭示了 Transformer 中不同类型模块（Emb、QK、FFN、VO、Norm）存在显著且持久的锐度差异（sharpness disparity），并据此提出 Blockwise LR 策略，为低锐度模块分配更大学习率，在不损失稳定性的前提下实现 LLM 预训练近 2× 加速。
Tokenized Bandit for LLM Decoding and Alignment: 将 LLM 解码与对齐问题形式化为 tokenized bandit（token化老虎机）问题，提出 DDMC（Diminishing Distance with More Commons）假设，证明在该假设下贪心解码近似最优，并设计了具有次线性遗憾的在线学习算法 EOFUL 和 GreedyETC。
Towards Robust Influence Functions with Flat Validation Minima: 揭示影响函数 (IF) 在含噪训练数据上失效的根本原因不在于 Hessian 逆近似不准（先前研究的焦点），而在于验证损失的尖锐度导致损失变化估计失真，理论推导出 IF 误差上界与验证风险尖锐度的联系，并设计出专用于平坦验证极小值的新 IF 形式 (FVM)。
When Can In-Context Learning Generalize Out of Task Distribution?: 通过在线性回归ICL任务上系统改变训练任务分布的覆盖范围（超球面帽的半角 \(\phi\)），发现transformer存在从"专用解"到"通用解"的sharp phase transition：当任务多样性超过临界阈值（\(\phi \gtrsim 120°\)）时，模型能泛化到整个任务空间，甚至超越贝叶斯最优估计器的OOD性能。
Whitened CLIP as a Likelihood Surrogate of Images and Captions: 提出 Whitened CLIP (W-CLIP)，通过对 CLIP 嵌入做可逆 PCA 白化变换使其近似 i.i.d. 标准正态分布，从而用欧氏范数的平方直接估计图像和文本的对数似然，在伪影检测、域偏移分析和全圆 SLERP 图像操控中展现了有效性。