📂 其他¶

🔬 ICLR2026 · 共 59 篇

A Federated Generalized Expectation-Maximization Algorithm for Mixture Models with an Unknown Number of Components: 提出 FedGEM 算法，通过客户端本地 EM 步后构建不确定性集、服务器利用不确定性集交集检测聚类重叠并推断全局聚类数，首次实现在全局聚类数未知情况下的联邦聚类，并提供了概率收敛保证。
A Law of Data Reconstruction for Random Features (and Beyond): 从信息论和代数角度证明随机特征模型中存在数据重构定律：当参数量 \(p \gg dn\)（\(d\) 为数据维度，\(n\) 为样本数）时，训练数据可被完整重构，并通过投影损失优化方法在 RF、两层网络和 ResNet 上验证了该阈值的普适性。
A Representer Theorem for Hawkes Processes via Penalized Least Squares Minimization: 为线性多元 Hawkes 过程在 RKHS 框架下的触发核估计建立了新型表示定理，证明最优估计器可用等价核在数据点上的线性组合表示且对偶系数全部解析地等于 1，无需求解对偶优化问题，从而实现高效可扩展的非参数估计。
A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction: 将 CopulaGNN 从节点级扩展到边级，通过将相关矩阵构造为边嵌入的 Gramian 矩阵并利用 Woodbury 恒等式重构条件概率分布，实现了在签名图上对边间统计依赖的可扩展建模，用于链接符号预测任务。
A Single Architecture for Representing Invariance Under Any Space Group: 设计了一种可自适应任意空间群不变性的单一架构 (Crystal Fourier Transformer)，通过解析推导群操作对傅里叶系数的约束来构造对称适配的傅里叶基，用约束的对偶图表示实现了跨 230 个空间群的参数共享和零样本泛化。
Accessible, Realistic, and Fair Evaluation of Positive-Unlabeled Learning Algorithms: 提出首个 PU 学习统一基准，系统解决两个关键问题：(1) 用代理准确率和代理 AUC 实现无负样本的模型选择；(2) 发现并通过将正样本并入无标签集的简单校准方法解决单样本设置下的内部标签偏移问题，使双样本算法在单样本评估中得到公平比较。
Active Learning for Decision Trees with Provable Guarantees: 为决策树主动学习提供首个理论保证：(1) 首次分析决策树的不一致系数（disagreement coefficient）并给出 \(O(\ln^{OPT}(n))\) 上界；(2) 提出首个达到乘法误差 \((1+\epsilon)\) 保证的二分类主动学习算法；结合两者实现数据集大小的多对数标签复杂度。
Addressing Divergent Representations from Causal Interventions on Neural Networks: 系统性地揭示因果干预（activation patching、DAS、SAE 等）会将模型内部表征推离自然分布，理论区分"无害偏移"与"有害偏移"两类情况，并提出 Counterfactual Latent (CL) loss 来约束干预表征不偏离流形，在 7B LLM 上验证可减少偏移同时保持干预准确率。
Agnostics: Learning to Synthesize Code in Any Programming Language with a Universal RL Environment: 提出Agnostics，一种语言无关的后训练pipeline：将编程任务统一为I/O行为规范格式，用通用验证器+GRPO强化学习训练LLM在任何编程语言上编码，使Qwen 4B在Lua/Julia/R/OCaml/Fortran五种低资源语言上达到匹敌16B-70B模型的SOTA水平。
An Information-Theoretic Framework For Optimizing Experimental Design To Distinguish Probabilistic Neural Codes: 提出"信息间隙"（information gap）框架，通过优化刺激分布来最大化似然编码（likelihood code）与后验编码（posterior code）假设之间的可区分性，推导出真实后验与任务边缘化代理后验之间的KL散度作为优化目标，并通过DNN解码器在模拟神经群体上验证了该框架的有效性，揭示传统单上下文实验无法区分两种编码假设。
AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning: 构建首个面向麻醉学推理的综合数据集套件AnesSuite——包括AnesBench（7972道双语选择题）、AnesCorpus（240万篇文档语料库）、AnesQA（2万条QA对）和AnesR1（1万条CoT推理数据），提出三级认知需求分类（System 1/1.x/2），训练的Morpheus模型（Qwen2.5 + SFT + GRPO）在7B参数下达到14B基线性能，揭示当前最强模型在复杂推理（System 2）上仍低于0.6。
ANO: Faster is Better in Noisy Landscapes: 提出 Ano 优化器，将更新方向和幅度解耦——方向用动量的符号（sign）确保噪声鲁棒，幅度用瞬时梯度绝对值（而非动量幅度）确保响应速度，配合改进的 Yogi 式方差估计，在噪声和非平稳环境（如 RL）中显著优于 Adam/Lion/Adan，同时在标准任务上保持竞争力。
AnyUp: Universal Feature Upsampling: 提出AnyUp——首个推理时encoder无关的可学习特征上采样方法，通过feature-agnostic层处理任意维度/类型的视觉特征，配合窗口注意力架构和crop-based训练策略，训练一次即可对任意视觉编码器（DINO/CLIP/SigLIP/MAE等）的特征进行任意分辨率上采样，在多个下游任务上超越FeatUp/JAFAR/LoftUp等方法。
Articulation in Motion: Prior-Free Part Mobility Analysis for Articulated Objects: 提出AiM（Articulation in Motion）框架，从交互视频和初始状态扫描中无需部件数量先验地重建铰接物体——通过双高斯表征（静态GS + 可变形GS）实现动静解耦，结合顺序RANSAC进行无先验部件分割和关节估计，辅以SDMD模块处理新暴露的静态区域，在复杂6部件物体（Storage）上以79.34% mean IoU大幅超越需先验的ArtGS（52.23%）。
Assess A Semantic And Structural Evaluation Framework For Statement Similarity: 提出 TransTED Similarity，一种基于算子树 (Operator Tree) 和语义变换增强的树编辑距离指标，用于评估自动形式化 (autoformalization) 生成的形式化数学命题与参考命题之间的语义相似度，并构建了 EPLA 基准数据集。
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite: 由 AI2 团队构建的首个端到端科学研究 Agent 基准 AstaBench，包含 2400+ 问题覆盖科学发现全流程，配备生产级可复现搜索工具，评估了 57 个 Agent（22 类），发现尽管单任务有进展但 AI 距离完整科学研究助手仍很远，同时系统性修复先前基准的 5 大方法学缺陷。
Behavior Learning (BL): Learning Hierarchical Optimization Structures from Data: 受行为科学中效用最大化范式启发，提出 Behavior Learning (BL) 框架，将数据建模为由可解释的模块化效用最大化问题（UMP）层次组合所诱导的 Gibbs 分布，在预测性能、内在可解释性和参数可辨识性三者之间实现了统一。
Block-Sample MAC-Bayes Generalization Bounds: 提出块样本MAC-Bayes泛化界（mean approximately correct），将训练数据划分为J个块后用各块条件下的KL散度之和替代整体KL散度，在确定性学习算法（如均值估计）等原始PAC-Bayes界为空（vacuous）的场景下仍能给出有限、有意义的泛化误差界，并证明了该界的高概率版本在一般情况下不可行。
CaDrift: A Time-dependent Causal Generator of Drifting Data Streams: 提出 CaDrift，一个基于结构因果模型（SCM）的时间依赖合成数据流生成框架，通过 EWMA 平滑和自回归噪声引入时序相关性，并通过修改因果映射函数实现可控的分布漂移、协变量漂移、严重漂移和局部漂移，填补了现有数据流生成器既不因果又不时序依赖的空白。
Can You Hear Me Now? A Benchmark for Long-Range Graph Propagation and Beyond: 本文提出 ECHO 基准，包含 3 个合成任务和 2 个基于密度泛函理论（DFT）的真实化学任务，要求图神经网络在 17–40 跳范围内有效传播信息，系统评估了 11 种 GNN 架构的长程传播能力。
CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images: 构建 CHAMMI-75——最大的异构多通道显微镜图像预训练数据集（280 万图像，75 个来源，25 种通道类型，16 种物种），证明成像模态多样性是提升多通道模型泛化能力的关键因素，训练的 MorphEm 模型在 7 个 benchmark 中 6 个达到 SOTA。
Characterizing and Optimizing the Spatial Kernel of Multi Resolution Hash Encodings: 从物理系统角度分析 Instant-NGP 的多分辨率哈希编码（MHE），推导出其点扩展函数（PSF）的闭式近似，发现有效分辨率由平均分辨率 \(N_{\text{avg}}\) 而非最细分辨率 \(N_{\max}\) 决定，且存在网格引起的各向异性，并提出零开销的 Rotated MHE（R-MHE）通过逐层旋转输入坐标消除各向异性。
CHLU: The Causal Hamiltonian Learning Unit as a Symplectic Primitive for Deep Learning: CHLU 是一种基于相对论哈密顿力学和辛积分的计算学习原语，通过强制相空间体积守恒和引入因果速度上限，解决了 LSTM 的梯度爆炸/消失和 Neural ODE 的信息耗散问题，实现无限时域稳定性和热力学生成能力。
DREAM: Completing Missing Annotation via Multi-Agent Debate for Accurate and Scalable Relevance Assessment: 提出 DREAM 框架，用多轮 LLM 辩论（对立立场）来完成 IR 基准中大量缺失的相关性标注，发现了原有标注中 428% 的额外相关文档，仅需 3.5% 的人类介入率即达到 95.2% 准确率。
Compositional Diffusion with Guided Search for Long-Horizon Planning: 提出 CDGS（Compositional Diffusion with Guided Search），通过在扩散去噪过程中嵌入基于种群的搜索机制（迭代重采样 + 似然剪枝），解决组合式扩散模型在多模态局部分布合成时的模式平均问题，从短时域模型采样出全局一致的长时域规划。
Consistent Low-Rank Approximation: 提出并系统研究"一致低秩近似"问题——在流数据中逐行到达的矩阵上维护近最优 rank-\(k\) 近似的同时最小化解的总变化量（recourse），证明加性误差下 \(O(k/\varepsilon \cdot \log(nd))\) recourse 可行，乘性 \((1+\varepsilon)\) 误差下 \(k^{3/2}/\varepsilon^2 \cdot \text{polylog}\) recourse 可行，并给出 \(\Omega(k/\varepsilon \cdot \log(n/k))\) 的下界。
Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning: 提出 NDM（Neighbor Distance Minimization），通过最小化子空间内的近邻距离来无监督地发现神经网络表征空间中的可解释非基对齐子空间，在 GPT-2 上平均 Gini=0.71（信息高度集中），在 Qwen2.5-1.5B 上发现了参数化知识与上下文知识路由的分离子空间。
Deconstructing Positional Information: From Attention Logits to Training Biases: 提出基于 Toeplitz 矩阵的统一分析框架，将位置编码分为加法（Absolute/T5/ALiBi）和乘法（RoPE）两类；通过合成任务发现 RoPE 在位置敏感任务上优势显著但存在"单头沉积模式"（single-head deposit pattern）——浅层几乎所有位置推理集中于单个注意力头；理论证明该模式是 RoPE 乘法结构的固有属性。
Directional Sheaf Hypergraph Networks: Unifying Learning on Directed and Undirected Hypergraphs: 本文提出 Directional Sheaf Hypergraph Networks (DSHN)，通过将 Cellular Sheaf 理论与有向超图的方向信息结合，构造了一种复值 Hermitian Laplacian 算子，统一并推广了现有的图和超图 Laplacian，在 7 个真实数据集上相对准确率提升 2%–20%。
Disentangling Shared and Private Neural Dynamics with SPIRE: A Latent Modeling Framework for Deep Brain Stimulation: 提出 SPIRE（Shared–Private Inter-Regional Encoder），一种深度多编码器自编码器，将多脑区神经记录分解为跨区域共享和区域专属的潜在子空间，仅在基线数据上训练即可揭示深脑刺激（DBS）引发的网络级动态重组。
Distributed Algorithms for Euclidean Clustering: 在分布式环境下为 Euclidean \((k,z)\)-clustering 构造 \((1+\varepsilon)\)-coreset，在 coordinator 模型和 blackboard 模型中均达到通信复杂度的最优下界（至多差 polylog 因子）。
Distributionally Robust Classification for Multi-Source Unsupervised Domain Adaptation: 提出一种分布鲁棒学习框架，通过联合建模目标域协变量分布和条件标签分布的不确定性，在目标数据极度稀缺或源域存在虚假相关性的UDA场景中显著提升泛化性能。
DA-AC: Distributions as Actions — A Unified RL Framework for Diverse Action Spaces: DA-AC 提出将动作分布的参数（如 softmax 概率或 Gaussian 均值/方差）作为 Agent 的"动作"输出，将动作采样过程移入环境，从而用统一的确定性策略梯度框架处理离散/连续/混合动作空间，理论证明方差严格低于 LR 和 RP 估计器，并在 40+ 环境上取得 competitive 或 SOTA 性能。
Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity: 实证表明无需参数置换，仅靠增加模型宽度即可实现独立训练模型间的线性模式连通性（LMC），并提出"逐层指数加权连通性"（LEWC）解释这一现象的机理。
Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search: 提出 AIGB-Pearl，为生成式自动竞价方法引入离线轨迹评估器和 KL-Lipschitz 约束的分数最大化方案，使生成模型能在理论保证下安全地突破静态离线数据的性能天花板，在淘宝真实广告系统上实现 GMV +3% 的显著提升。
Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks: 揭示了过参数化神经网络损失景观中低损失连接路径上的曲率变化产生熵力壁垒，解释了为何SGD被限制在单一盆地内，尽管不同极小值之间能量上相连。
Evaluating GFlowNet from Partial Episodes for Stable and Flexible Policy-Based Training: 建立GFlowNet中状态流函数与策略评价函数之间的理论联系，提出子轨迹评价平衡（Sub-EB）目标用于可靠学习评价函数，增强策略基GFlowNet训练的稳定性和灵活性。
Exchangeability of GNN Representations with Applications to Graph Retrieval: 发现训练好的 GNN 节点嵌入沿特征维度是可交换随机变量（即 \(p(X) = p(X\pi)\) 对任意维度排列 \(\pi\)），利用此性质通过维度排序将基于传输距离的图相似度近似为欧氏距离，构建高效的局部敏感哈希（LSH）框架 GraphHash，在子图匹配和图编辑距离检索任务上超越基线，可扩展到 100 万图语料库。
Explaining Grokking and Information Bottleneck through Neural Collapse Emergence: 通过 Neural Collapse 的视角统一解释 Grokking（延迟泛化）和 Information Bottleneck（压缩阶段）两大训练后期现象，证明群体类内方差的收缩是两者的共同关键因素，并揭示训练损失收敛与 Neural Collapse 发生存在由 weight decay 控制的不同时间尺度。
Fast and Stable Riemannian Metrics on SPD Manifolds via Cholesky Product Geometry: 揭示Cholesky流形上的简单乘积结构，基于此提出两种快速且数值稳定的SPD度量（PCM和BWCM），所有黎曼算子均有闭式表达式，在SPD深度学习中实现效果、效率和稳定性的三重提升。
FastLSQ: Solving PDEs in One Shot via Fourier Features with Exact Analytical Derivatives: 利用正弦基函数的循环导数闭式结构，实现了无需自动微分、无需迭代训练的 PDE 一次性求解框架，在线性 PDE 上 0.07s 达到 \(10^{-7}\) 精度，非线性 PDE 上 <9s 达到 \(10^{-8}\)–\(10^{-9}\) 精度，比 PINNs 快数千倍且精确数个数量级。
FIRE: Frobenius-Isometry Reinitialization for Balancing the Stability-Plasticity Tradeoff: 将持续学习中的稳定性-可塑性平衡形式化为约束优化问题——最小化权重偏差（稳定性）同时约束权重正交性（可塑性），得到正交 Procrustes 问题的闭式解 \(\tilde{W}^* = W(W^\top W)^{-1/2}\)（极分解），通过 Newton-Schulz 迭代高效实现（<1% 额外时间），在视觉持续学习、LLM 持续预训练和 RL 上全面超越 S&P 等基线。
From Movement to Cognitive Maps: RNNs Reveal How Locomotor Development Shapes Hippocampal Spatial Coding: 结合幼鼠运动发育的计算分析和浅层 RNN 模型，证明运动统计特征的发育变化（爬行→行走→奔跑→成年）驱动了空间调谐神经元的序贯涌现，复现了大鼠海马空间编码的发育时间线，且具体的发育运动统计（而非简单的感觉输入加速）是位置中心空间表征涌现的关键。
Gaussian Certified Unlearning in High Dimensions: A Hypothesis Testing Approach: 提出 \((\phi,\varepsilon)\)-Gaussian certifiability——基于假设检验 trade-off 函数的高维机器遗忘隐私框架，严格证明在高维比例体系 (\(p \sim n\)) 下单步 Newton 更新 + 校准高斯噪声即可同时满足隐私 (GPAR) 和精度 (GED→0) 要求，推翻了 Zou et al. (2025) "至少需两步 Newton" 的结论，并从理论上揭示旧 \(\varepsilon\)-certifiability 与噪声添加机制不兼容的根本原因。
In-Context Algebra: 本文设计了一个 in-context 代数任务——令 token 成为纯变量、每条序列重新随机分配含义——发现 Transformer 在此设定下不再学习经典的傅里叶/几何表示，而是涌现出三种 符号推理机制（交换复制、单位元识别、闭包消去），并揭示了训练过程中这些能力按阶段性相变依次出现的规律。
Intrinsic Training Dynamics of Deep Neural Networks: 本文研究深度神经网络梯度流训练中，参数空间的轨迹何时可以被"提升"到低维本征空间并表示为内禀的黎曼梯度流，提出了基于守恒律的内禀可恢复性（intrinsic recoverability）准则，并将结果推广到任意深度的 ReLU 网络和线性网络。
Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch RL: 提出 Jackpot 框架，通过 Optimal Budget Rejection Sampling（OBRS）以可控接受预算在 token 级别拒绝/重加权 rollout 样本，理论证明任意预算下都能严格缩小 actor-policy 间 KL 散度，配合 rollout 模型联合训练与蒸馏，使小模型（如 Qwen3-1.7B）rollout 训练大模型（如 Qwen3-8B）达到接近 on-policy 的性能。
Latent Fourier Transform: 将扩散自编码器与潜在空间 DFT 结合，在潜在时间序列表征上应用傅里叶变换按时间尺度分离音乐模式，训练时使用随机相关对数频率掩码让解码器学习从部分频谱信息重建，推理时用户指定频率掩码控制保留/混合的时间尺度，在条件生成和音乐融合任务上超越 ILVR/guidance/codec filtering/RAVE 等基线，29 名音乐家的听力测试确认其音质和融合能力优越。
LPWM: Latent Particle World Models for Object-Centric Stochastic Dynamics: LPWM 是首个能扩展到真实世界多物体数据集的自监督物体中心世界模型，核心创新是为每个粒子学习独立的潜在动作分布（per-particle latent actions），通过因果时空 Transformer 并行编码所有帧，支持动作/语言/图像目标/多视角等多种条件生成，在视频预测上达到 SOTA 并展示了模仿学习能力（OGBench task3 成功率 89%）。
Learning Adaptive Distribution Alignment with Neural Characteristic Function for Graph Domain Adaptation: 提出ADAlign框架，利用神经谱差异(NSD)在频域自适应对齐源/目标图嵌入分布，通过可学习频率采样器自动发现并优先对齐每个迁移场景中最关键的分布差异维度。
LipNeXt: Scaling up Lipschitz-based Certified Robustness to Billion-parameter Models: 提出 LipNeXt——首个无约束、无卷积的 1-Lipschitz 架构，通过流形优化（直接在正交流形上更新）和 Spatial Shift Module（理论证明唯一保范 depthwise 卷积是 ±1 位移）突破 Lipschitz 网络的 scaling 瓶颈，首次将认证鲁棒性扩展到 10 亿参数，在 CIFAR-10/100/ImageNet 上达 SOTA 认证鲁棒准确率。
Mitigating Spurious Correlation via Distributionally Robust Learning with Hierarchical Ambiguity Sets: 提出层次化歧义集的分布鲁棒优化方法，同时建模组间比例变化和组内分布偏移（Wasserstein 球），在少数群组内部分布偏移场景下显著优于 Group DRO（CelebA shifted: 56.3%→72.1% worst-group accuracy）。
Modal Logical Neural Networks for Financial AI: 提出模态逻辑神经网络（MLNN），将 Kripke 语义（必然/可能模态算子）集成到神经网络中，在金融合同安全审查、洗售合规和市场串谋检测中实现可审计的逻辑推理与深度学习性能的结合。
MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates: 提出 MT-DAO，一种多时间尺度分布式自适应优化器，通过引入慢动量（高 \(\beta\)）来解决低频通信训练中标准动量衰减过快导致的时间尺度失配问题，首次提供了收敛保证，在语言模型预训练中消除了与全同步 DDP 的性能差距，同时减少 6-27% 的端到端训练时间。
NIMO: a Nonlinear Interpretable MOdel: NIMO 提出一种混合模型 \(y = \sum_j x_j \beta_j (1 + g_{\mathbf{u}_j}(\mathbf{x}_{-j}))\)，在保留线性回归系数全局可解释性（通过均值边际效应 MEM）的同时，利用神经网络提供逐实例的非线性修正，并通过参数消去法高效联合优化线性系数和网络参数。
Noisy-Pair Robust Representation Alignment for Positive-Unlabeled Learning: 提出NcPU框架，通过噪声对鲁棒的非对比损失(NoiSNCL) 在不可靠监督下对齐类内表示，配合幻影标签消歧(PLD) 迭代优化伪标签，无需辅助负样本或预估类先验即可在PU学习中逼近甚至超越有监督性能。
Non-Collaborative User Simulators for Tool Agents: 提出非协作用户模拟器框架，定义四类真实非协作行为（不可用服务/跑题/不耐烦/不完整表述），揭示当前工具 Agent 面对非协作用户时显著退化（跑题平均降 29.1%），并证明混合训练可提升鲁棒性至 93.5%。
Speculative Actions: A Lossless Framework for Faster AI Agents: 借鉴 CPU 推测执行和 LLM 推测解码的思想，提出 Speculative Actions 框架：在慢速 Actor（大模型）计算时用快速 Speculator（小模型）预测未来动作并预执行，匹配时跳过等待实现无损加速，在 Chess/电商/问答等场景实现 15-30% 延迟降低，置信度动态分支策略用 40% 更少 token 达到近似 3 条推测的加速效果。
The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?: 通过 bias-variance 分解量化 AI 模型的错误模式，发现随着推理链变长和任务变难，模型失败变得更加"不连贯"（variance 主导）而非"系统性错误"（bias 主导），暗示未来 AI 风险更像工业事故而非一致性目标追求。