跳转至

📐 优化/理论

🔬 ICLR2026 · 共 19

Adaptive Rollout Allocation for Online RL with Verifiable Rewards (VIP)

提出 VIP(Variance-Informed Predictive allocation),通过高斯过程预测每个 prompt 的成功概率,据此用凸优化在计算预算约束下分配 rollout 数量以最小化梯度方差,在数学推理任务上一致提升 GRPO/RLOO 的采样效率,AIME24/25 上 Pass@32 最高提升 12.3 个点。

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow 提出认知启发的三阶段视觉数学推理框架(感知→内化→推理),通过 Synergistic Visual Rewards 增强感知、Knowledge Internalization Reward 桥接感知与推理、Visual-Gated Policy Optimization 锚定视觉推理,解决了现有方法中"感知正确但推理漂移"的核心问题。

Constraint Matters: Multi-Modal Representation for Reducing Mixed-Integer Linear programming

提出基于约束缩减的 MILP 模型简化框架:用信息论启发的启发式规则识别关键紧约束(CTC),设计融合实例级和抽象级信息的多模态 GNN 表征来预测 CTC,在大规模 MILP 上解质量提升 50%+、计算时间减少 17.47%。

Converge Faster, Talk Less: Hessian-Informed Federated Zeroth-Order Optimization

提出 HiSo,在联邦零阶优化中利用全局对角 Hessian 近似加速收敛,同时严格保持标量通信(不传输任何二阶信息),理论证明收敛速率独立于 Lipschitz 常数 \(L\) 和模型维度 \(d\),在 LLM 微调中通信轮次比 SOTA 零阶方法快 1-5 倍。

Convergence of Muon with Newton-Schulz

首次为实际使用的 Muon 优化器(使用 Newton-Schulz 近似而非精确 SVD 极坐标分解)提供非凸收敛保证:证明收敛速率匹配 SVD 理想化版本(差一个常数因子),该因子随 Newton-Schulz 步数 \(q\) 双指数衰减,且 Muon 比向量对应物 SGD-M 少 \(\sqrt{r}\) 倍秩损失。

Convex Dominance in Deep Learning I: A Scaling Law of Loss and Learning Rate

从凸优化理论出发,证明深度学习训练损失以 O(1/sqrt(T)) 速率收敛,最优学习率以 1/sqrt(T) 缩放,在 GPT-2 到 12.5B 参数模型上验证了该缩放律(R^2 >= 0.978),并实现了 80 倍训练步数的学习率外推。

Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding

提出 FlexQP——基于 \(\ell_1\) 弹性松弛的"永远可行"凸二次规划(QP)求解器,结合深度展开(deep unfolding)学习 LSTM 反馈策略加速收敛得到 Deep FlexQP;在 SQP 框架中作为子模块,解非线性轨迹优化比 OSQP 快 4-16 倍,预测安全滤波器的安全违规减少 70%+、任务完成率提升 43%。

Directional Convergence, Benign Overfitting of Gradient Descent in leaky ReLU two-layer Neural Networks

首次证明了梯度下降(gradient descent)在 leaky ReLU 两层神经网络中的方向收敛性(directional convergence),并据此在远超近正交数据(nearly orthogonal data)的更广泛混合数据设定下建立了 benign overfitting 的充分条件,同时发现了一个新的相变(phase transition)现象。

Dual Optimistic Ascent (PI Control) is the Augmented Lagrangian Method in Disguise

揭示了一个让人惊讶的等价性:广泛使用的双优化上升(Dual Optimistic Ascent / PI 控制)在数学上等价于增广拉格朗日方法(ALM),从而将 RL/RLHF 中的约束优化与经典优化理论统一起来,提供了更强的收敛保证和实用参数调优指南。

Exploring Diverse Generation Paths via Inference-time Stiefel Activation Steering

提出 STARS(Stiefel-based Activation Steering for Diverse ReaSoning),一种 training-free 的推理时激活转向方法,在每个 token 解码时于 Stiefel 流形上联合优化 N 条并行生成路径的正交 steering 方向,最大化隐状态的几何体积以促进发散的激活轨迹,在测试用例生成(TestEval)和科学发现(LiveIdeaBench)上以极低延迟一致超越温度采样的多样性,且不损失质量。

Faster Gradient Methods for Highly-Smooth Stochastic Bilevel Optimization

通过将 F2SA 方法重新解释为前向差分近似 hyper-gradient,提出利用高阶有限差分的 F2SA-p 方法族,在高阶光滑条件下将随机双层优化的 SFO 复杂度从 \(\tilde{\mathcal{O}}(\epsilon^{-6})\) 改进至 \(\tilde{\mathcal{O}}(p\epsilon^{-4-2/p})\),并证明了 \(\Omega(\epsilon^{-4})\) 下界表明该方法在 \(p\) 足够大时近乎最优。

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

FrontierCO 是一个涵盖 8 类组合优化问题(TSP、MIS、CVRP 等)的大规模真实世界基准测试,评估了 16 个 ML 求解器(神经网络方法 + LLM Agent)与 SOTA 传统求解器的差距,发现 ML 方法在结构复杂和极大规模实例上仍显著落后于传统方法,但在部分场景有超越潜力。

∇-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

提出 ∇-Reasoner,将推理时的搜索从零阶(采样+评估)升级为一阶(梯度下降),在 token logits 空间上通过可微文本优化(DTO)结合 reward 梯度和 LLM 似然来迭代改进解码策略,在数学推理任务上提升 10-40% 准确率的同时减少 10-40% 的模型调用次数。

Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit

证明在通用非退化假设下,标准两层神经网络通过分层梯度下降可以用 \(\tilde{O}(d)\) 样本和 \(\tilde{O}(d^2)\) 时间学习通用高斯 Multi-Index 模型 \(f(\bm{x})=g(\bm{U}\bm{x})\),样本和时间复杂度都达到信息论最优,首次证明神经网络可以高效学习层次化函数。

Provable and Practical In-Context Policy Optimization for Self-Improvement

提出 In-Context Policy Optimization (ICPO) 框架,理论证明单层线性自注意力 Transformer 经充分预训练后可在上下文中模拟策略优化算法,并设计实用的 ME-ICPO 算法通过最小熵选择和自评估奖励实现测试时多轮自反思,在数学推理任务上取得显著提升(AIME 2024 上 Qwen2.5-Math-7B 从 11% 提升到 30%)。

RRNCO: Towards Real-World Routing with Neural Combinatorial Optimization

提出 RRNCO 架构,通过自适应节点嵌入(ANE)和神经自适应偏置(NAB)两大创新,首次在深度路由框架中联合建模非对称距离、时长和方向角,并构建了基于 100 个真实城市的 VRP 基准数据集,显著缩小了 NCO 方法从仿真到真实世界部署的差距。

Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

提出 Scaf-GRPO 框架,通过分层 in-prompt hint 注入(知识→规划→求解)解决 RLVR 中的"学习悬崖"问题——当模型对难题持续零奖励时,以最小引导恢复学习梯度,在 AIME24 上相对 vanilla GRPO 提升 44.3%。

Test-Time Meta-Adaptation with Self-Synthesis

提出MASS框架,通过双层优化元学习让LLM在推理时自动生成问题特定的合成训练数据并自更新(LoRA),在MATH-500上将Llama-3.1-8B从43.6%提升到59.0%。

The Affine Divergence: Aligning Activation Updates Beyond Normalisation

揭示了梯度下降中参数最速下降方向与传播到激活后的有效更新之间存在根本性不对齐("仿射散度"\(\Delta\mathcal{L}/\Delta z_i = (\partial\mathcal{L}/\partial z_i) \cdot (\|\vec{x}\|^2+1)\)),从第一性原理推导出归一化是消除此散度的自然解,并发现一种非归一化的替代方案在实验中超越传统归一化。