跳转至

🧪 ICML2025 论文笔记

1076 篇论文解读,覆盖 41 个领域。


🎨 图像生成

Action-Minimization Meets Generative Modeling: Efficient Transition Path Sampling with the Onsager-Machlup Functional

将预训练扩散/flow matching模型的score函数解释为随机动力学的漂移项,通过最小化Onsager-Machlup (OM)作用量泛函实现零样本转移路径采样,无需任务特定训练即可在分子系统上高效生成多样且物理真实的转移路径。

Action-Minimization Meets Generative Modeling: Efficient Transition Path Sampling with the Onsager-Machlup Functional

本文提出将预训练生成模型(扩散模型和流匹配)的 score 函数解释为随机动力学中的漂移项,通过最小化 Onsager-Machlup (OM) 作用泛函来零样本复用预训练模型进行分子系统的过渡路径采样 (TPS),在丙氨酸二肽、快速折叠蛋白等系统上以远低于传统方法的计算成本获得了物理真实的过渡路径。

All-atom Diffusion Transformers: Unified Generative Modelling of Molecules and Materials

提出 All-atom Diffusion Transformer (ADiT),通过 VAE 将分子和晶体映射到统一潜空间、再用 Diffusion Transformer 在潜空间生成的两阶段框架,首次实现单一模型同时生成周期性材料(晶体)和非周期性分子系统,在 MP20、QM9、GEOM-DRUGS 上达到 SOTA,且比等变扩散模型快一个数量级。

Angle Domain Guidance: Latent Diffusion Requires Rotation Rather Than Extrapolation

发现 Classifier-Free Guidance (CFG) 导致颜色失真的根本原因是潜空间样本范数被放大,提出 Angle Domain Guidance (ADG) 算法——在角度域而非幅度域增强引导,约束范数变化的同时优化角度对齐,在高引导权重下消除颜色饱和度异常并保持甚至改善文本-图像对齐。

Annealing Flow Generative Models Towards Sampling High-Dimensional and Multi-Modal Distributions

提出 Annealing Flow (AF)——基于连续归一化流(CNF)的高维多模态分布采样方法,用动态最优传输(OT)目标配合 Wasserstein 正则化训练,通过退火过程引导模式探索,在高维多模态设置中大幅优于现有 NF 和 MCMC 方法。

Autoencoder-Based Hybrid Replay for Class-Incremental Learning

提出基于自编码器的混合重放策略(AHR),利用混合自编码器(HAE)将样本压缩存储在潜空间中而非原始输入空间,结合带电粒子系统能量最小化(CPSEM)和斥力算法(RFA)增量嵌入新类质心,在最坏情况下将内存复杂度从 \(\mathcal{O}(t)\) 降低到 \(\mathcal{O}(0.1t)\),同时保持 SOTA 性能。

Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment

提出偏好嵌入(Preference Embedding)——将响应嵌入到多维潜空间中捕捉复杂偏好结构(包括不可传递偏好),实现 \(O(K)\) 的查询复杂度(与 BT 模型相同但表达力更强),配合 General Preference Optimization (GPO) 在 RewardBench 和 AlpacaEval2.0 上超越 BT 奖励模型。

Beyond One-Hot Labels: Semantic Mixing for Model Calibration

提出 CSM(Calibration-aware Semantic Mixing)——利用预训练扩散模型生成高保真的语义混合样本(如猫-狗混合体),并通过 CLIP 重标注精确的软标签置信度,用 \(L_2\) 损失训练实现比现有校准方法更优的模型置信度校准。

BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models

提出 BinauralFlow,一个基于条件 Flow Matching 的流式双耳语音合成框架,通过因果 U-Net 架构和连续推理管线实现高保真、可流式生成的双耳音频,感知测试中 42% 的混淆率表明生成结果几乎无法与真实录音区分。

BRIDGE: Bootstrapping Text to Control Time-Series Generation via Multi-Agent Iterative Optimization and Diffusion Modeling

提出 Bridge 框架,通过 LLM 多智能体系统生成高质量文本-时序配对数据,并利用语义原型与文本描述的混合提示驱动扩散模型,实现跨域、实例级别的文本控制时序生成(Text-Controlled TSG),在12个数据集中11个取得SOTA。

Broadband Ground Motion Synthesis by Diffusion Model with Minimal Condition

提出 HEGGS(High-fidelity Earthquake Groundmotion Generation System),利用地震数据集中波形天然可配对的特性,结合条件隐扩散模型与 ACM 振幅校正模块,仅需最少条件信息(经纬度、震源深度、震级)即可端到端生成高保真三分量地震波形。

Compositional Flows for 3D Molecule and Synthesis Pathway Co-design

提出 CGFlow(Compositional Generative Flows)——将 flow matching 扩展到组合对象的逐步生成,交织组合结构采样(合成路径)和连续状态传输(3D 构象),作为 3DSynthFlow 应用于可合成药物设计,在 LIT-PCBA 15个靶标上首次同时达到结合亲和力和可合成性的 SOTA。

Compositional Scene Understanding through Inverse Generative Modeling

本文提出逆生成建模(IGM)框架,将场景理解任务转化为在组合式生成模型中寻找最优条件参数的反演问题,通过将多个小型扩散模型组合来表示复杂场景,实现了强分布外泛化能力,并可直接利用预训练文生图模型进行零样本多目标感知。

ContinualFlow: Learning and Unlearning with Neural Flow Matching

提出 ContinualFlow,一种基于 Flow Matching 的生成模型定向遗忘框架,通过能量函数重加权软性减去数据分布中不需要的区域,无需重新训练或直接访问待遗忘样本即可实现高效遗忘。

Continuous Semi-Implicit Models

提出 CoSIM——将层级半隐式模型扩展为连续时间框架,通过连续转移核实现无仿真高效训练,并设计保持一致性的转移核实现分布级别的多步扩散模型蒸馏,在 ImageNet 512×512 上达到或超越现有扩散加速方法。

Continuous Visual Autoregressive Generation via Score Maximization

提出连续视觉自回归框架——基于严格适当评分规则理论,用能量分数作为无似然训练目标,替代向量量化实现连续token自回归图像生成,EAR-H达到FID 1.97且推理速度比扩散损失方法MAR快约10倍。

DCTdiff: Intriguing Properties of Image Generative Modeling in the DCT Space

提出 DCTdiff,首次在离散余弦变换(DCT)频域空间中进行端到端扩散图像生成,无需 VAE 即可无缝扩展至 512×512 分辨率,并在生成质量和训练效率上均优于像素空间扩散模型。

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces

提出了一个在任意状态空间上构建多模态扩散模型的统一框架,通过为每种模态引入独立的解耦噪声调度(decoupled noise schedule),在单个模型中同时实现无条件生成和模态条件生成,无需外部的 tokenizer 或 VAE 预处理。

Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning

提出 DiffusionVLA (DiVLA),将自回归 VLM 的推理能力与扩散模型的动作生成能力统一到一个端到端框架中,通过推理注入模块(Reasoning Injection Module)将自生成的语言推理直接嵌入策略学习过程,实现了对未见物体的泛化分类、可解释的动作决策以及高速推理(2B 模型 82Hz)。

Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is also a GAN Discriminator

DDO 提出将似然模型本身参数化为 GAN 判别器(通过似然比),无需额外判别器网络即可用 GAN 目标微调预训练的扩散/自回归模型,在 CIFAR-10 和 ImageNet 上大幅刷新 FID 记录(EDM: 1.97→1.38, EDM2-S: 1.58→0.97)。

Directed Graph Grammars for Sequence-based Learning

提出 DIGGED,通过无歧义上下文无关图文法将 DAG 无损映射为唯一的产生式规则序列,结合 Transformer 解码器实现图生成/属性预测/贝叶斯优化,在神经架构搜索、贝叶斯网络和电路设计三个任务上全面超越现有方法。

Discriminative Policy Optimization for Token-Level Reward Models

提出 Q-function Reward Model (Q-RM),通过将奖励建模与语言生成解耦,定义判别式策略来学习 token 级 Q 函数,从偏好数据中无需细粒度标注即可获得精确的 token 级奖励信号,显著提升 PPO/REINFORCE 的推理性能与训练效率。

Distillation of Discrete Diffusion through Dimensional Correlations (Di4C)

提出Di4C方法,通过"mixture"模型捕获维度间相关性,配合一致性损失函数,将多步离散扩散模型蒸馏为少步模型,同时在图像和语言任务上展示了有效性。

DRAG: Data Reconstruction Attack using Guided Diffusion

提出 DRAG,利用预训练潜在扩散模型(LDM)的图像先验知识,通过引导扩散过程从分割推理(Split Inference)的深层中间表示中高保真地重建原始输入图像,揭示视觉基础模型(CLIP、DINOv2)在 SI 场景下的严重隐私漏洞。

Editable Noise Map Inversion: Encoding Target-image into Noise For High-Fidelity Image Manipulation

提出 Editable Noise Map Inversion (ENM Inversion),通过在反演过程中同时优化重建误差和编辑对齐误差,使 noise map 同时"铭刻"源图像与目标图像信息,在内容保持和编辑忠实度之间取得最优平衡。

Efficient Diffusion Models for Symmetric Manifolds

提出一种高效的对称流形(环面、球面、SO(n)、U(n))扩散模型框架,通过欧几里得布朗运动的投影和Itô引理绕过热核计算,将训练复杂度从指数级降至近线性,并提供多项式级采样精度保证。

Efficient Generative Modeling with Residual Vector Quantization-Based Tokens

ResGen 通过直接预测累积RVQ嵌入而非单个令牌,解耦了生成迭代次数与序列长度和量化深度的关系,实现了高保真、快速采样的高效生成模型。

Elucidating Flow Matching ODE Dynamics via Data Geometry and Denoisers

本文从denoiser的角度深入分析了Flow Matching (FM) ODE的采样轨迹动力学,揭示了轨迹演化的三个阶段(初始→中间→终端),建立了FM ODE在数据支撑在低维子流形上时的收敛性理论。

ETTA: Elucidating the Design Space of Text-to-Audio Models

ETTA 通过大规模系统性实验阐明了文本到音频(TTA)模型的设计空间(数据、架构、训练目标、采样策略),并基于分析结论构建了当前公开数据下最优的 TTA 模型。

Exploring Position Encoding in Diffusion U-Net for Training-free High-resolution Image Generation

通过深入分析扩散模型U-Net中卷积层零填充(zero-padding)产生的位置信息在高分辨率下的传播不足问题,提出Progressive Boundary Complement(PBC)方法,在特征图内部构建渐进式虚拟边界来增强位置信息传播,实现训练无关的高质量高分辨率图像生成。

Expressive Score-Based Priors for Distribution Matching with Geometry-Preserving Regularization

提出基于 score function 的表达性先验分布(SAUB),通过 Score Function Substitution (SFS) 技巧绕过先验密度估计,结合 Gromov-Wasserstein 几何保持约束实现稳定高效的分布匹配,在公平分类、域适应和域翻译任务上取得优越表现。

Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape

提出 Flat-LoRA,通过在全参数空间中引入基于贝叶斯期望损失的随机权重扰动,使 LoRA 收敛到全参数空间中更平坦的极小值区域,提升域内和域外泛化性能,且几乎不增加训练时间和显存开销。

FlexiClip: Locality-Preserving Free-Form Character Animation

FlexiClip 提出了一种基于时域Jacobian校正、概率流ODE连续时间建模和GFlowNet流匹配损失的剪贴画动画框架,在保持视觉一致性的同时显著提升了动画的时间平滑性和几何完整性。

FlexTok: Resampling Images into 1D Token Sequences of Flexible Length

提出 FlexTok——一种将 2D 图像重采样为可变长度、有序的 1D 离散 token 序列的 tokenizer,通过 nested dropout 学习层次化编码,配合 rectified flow 解码器在任意 token 数量下生成高质量重建,在 ImageNet 上用 8~128 个 token 即可实现 FID<2 的自回归图像生成。

Gaussian Mixture Flow Matching Models

提出高斯混合流匹配模型(GMFlow),用动态高斯混合分布替代传统的单高斯去噪分布来建模多模态流速度场,通过 KL 散度损失训练,并推导出 GM-SDE/ODE 求解器实现精确少步采样,同时引入概率引导方案解决 CFG 过饱和问题,在 ImageNet 256×256 上仅 6 步采样即达到 Precision 0.942。

GaussMarker: Robust Dual-Domain Watermark for Diffusion Models

提出 GaussMarker——首个双域(空间+频率)扩散模型水印方法,通过流水线注入器在初始高斯噪声的空间域和频率域一致嵌入水印,配合模型无关的可学习高斯噪声修复器(GNR)增强对旋转/裁剪攻击的鲁棒性,在三个 Stable Diffusion 版本上八种图像扭曲下达到平均 TPR@1%FPR 0.997 的 SOTA 性能。

Generative Audio Language Modeling with Continuous-Valued Tokens and Masked Next-Token Prediction

本文研究不使用离散 Token 的因果语言模型进行音频生成,利用 token-wise diffusion 建模连续值 next-token 分布,并提出 masked next-token prediction 任务,以 193M 参数在 AudioCaps 上达到与 SOTA 扩散模型相当的性能。

GRAM: A Generative Foundation Reward Model for Reward Generalization

GRAM 提出用生成式(而非判别式)方法训练奖励模型——先通过大规模无监督学习预训练生成式奖励模型,再用监督数据微调,并证明 label smoothing 实际上等价于正则化的 pairwise ranking 损失,实现了跨任务的奖励泛化。

Graph Generative Pre-trained Transformer (G2PT)

提出 G2PT——将图编码为节点+边的 token 序列,用 GPT 风格的自回归 Transformer 做 next-token prediction 来生成图,并通过拒绝采样微调(RFT)和 PPO 强化学习实现目标导向分子生成,在通用图和分子数据集上均达到 SOTA。

Hessian Geometry of Latent Space in Generative Models

提出通过重建 Fisher 信息度量来分析生成模型潜空间几何的方法,发现扩散模型潜空间中存在分形结构的相变边界,在相边界处 Lipschitz 常数发散。

Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots

提出 Hi-MAR,在掩码自回归图像生成中引入低分辨率 token 作为中间枢纽,建立从粗到细的层次化生成流程,并用 Diffusion Transformer Head 增强 token 间依赖建模,在 ImageNet 上以更少计算量显著超越 MAR(FID 提升 0.38)。

Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals

提出将条件扩散模型与高斯过程先验相结合的分层强化学习框架,通过不确定性感知的子目标生成机制,解决高层策略在低层策略动态变化时难以产生有效子目标的核心难题。

How to Move Your Dragon: Text-to-Motion Synthesis for Large-Vocabulary Objects

本文首次提出一个统一框架,通过为 Truebones Zoo 数据集(70+ 物种)标注文本描述、引入 rig augmentation 技术以及在 Motion Diffusion Model 中融入 TreePE 和 RestPE 编码,实现了面向大词汇量异构骨骼对象的文本驱动动作生成,可为动物、恐龙乃至虚构生物合成高质量 3D 动作。

IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling

IMPACT 将迭代掩码并行解码与潜在扩散模型结合,在连续潜在空间中操作并用轻量 MLP 扩散头替代传统重型注意力骨干,同时达成音频生成质量 SOTA(AudioCaps 上 FD=20.3, FAD=1.45)和接近最快模型 MAGNET-S 的推理速度。

IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling

提出 IMPACT 框架,将迭代掩码并行解码(MGM)与潜在扩散模型(LDM)结合,在连续潜在空间中进行文本到音频生成,以轻量 MLP 扩散头替代重型注意力层,同时引入无条件预训练阶段,在 AudioCaps 上取得 FD/FAD 指标 SOTA 且推理速度与最快的 MAGNET-S 相当。

Importance Sampling for Nonlinear Models

通过引入非线性映射的伴随算子(adjoint operator),将线性模型中经典的范数采样和杠杆分数采样系统性地推广到非线性模型,首次为神经网络等非线性模型的重要性采样提供了理论近似保证。

Improving Flow Matching by Aligning Flow Divergence

从 PDE 视角分析了 Flow Matching 中学习概率路径与真实概率路径之间的误差,证明该误差受到向量场散度(divergence)差距的控制,并提出联合匹配流和散度的 FDM 训练目标,在密度估计、DNA 序列生成和视频预测等任务上显著提升了 FM 的表现。

Improving the Diffusability of Autoencoders

通过DCT频谱分析发现自编码器潜在空间存在与RGB不匹配的过强高频成分,提出尺度等变正则化(Scale Equivariance)对齐两者频率分布,仅需10-20K步微调即可将ImageNet FID降19%、Kinetics FVD降44%+。

InfoSEM: A Deep Generative Model with Informative Priors for Gene Regulatory Network Inference

提出InfoSEM——无监督生成框架利用文本基因嵌入作为信息先验推断基因调控网络(GRN):无需GT标签即超越监督方法38.5%,有标签作为额外先验时再提11.1%,同时发现现有监督方法学到的是基因特定偏差而非真正的调控机制。

Integrating Intermediate Layer Optimization and Projected Gradient Descent for Solving Inverse Problems with Diffusion Models

提出 DMILO 和 DMILO-PGD 两种方法,通过中间层优化(ILO)分解扩散模型采样过程以大幅降低显存,并结合投影梯度下降(PGD)避免次优收敛,在线性和非线性逆问题上全面超越 DMPlug 等 SOTA 方法。

IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models

提出 IntLoRA,通过整数型低秩参数实现量化扩散模型的微调,合并权重后无需额外 PTQ 即可直接获得量化推理权重,兼顾训练与推理效率。

Kinetic Langevin Diffusion for Crystalline Materials Generation

KLDM 提出用 Kinetic Langevin Diffusion 处理晶体材料生成中原子分数坐标位于超环面的问题,通过引入辅助速度变量将扩散偏移到平坦欧几里得空间,同时保持周期平移对称性,在晶体结构预测和从头生成任务上达到竞争力性能。

Label-Efficient Hyperspectral Image Classification via Spectral FiLM Modulation of Low-Level Pretrained Diffusion Features

提出 GeoDiffNet-F 框架,利用冻结的预训练扩散模型提取低层空间特征,并通过 FiLM(Feature-wise Linear Modulation)机制将高光谱光谱信息自适应融合到空间特征中,在极少标注条件下实现高效的高光谱图像土地覆盖分类。

Learning Single Index Models with Diffusion Priors

提出利用扩散模型先验从半参数单指标模型(SIM)的非线性观测中恢复信号的高效方法,只需一轮无条件采样和部分反演,无需已知链接函数,在1-bit和三次测量上以极少的NFE显著优于现有方法。

LIVS: A Pluralistic Alignment Dataset for Inclusive Public Spaces

通过两年社区参与式研究,构建了包含 37,710 对多标准偏好标注的 LIVS 数据集,用于文本到图像模型在包容性城市公共空间设计中的多元对齐,并用 DPO 微调 SDXL 验证其有效性。

LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models

提出 LlavaGuard——基于开源 VLM 的视觉内容安全审核框架,通过可定制安全分类体系、高质量人工标注数据集与策略增强训练,实现对图像内容的灵活、精准安全评估,在准确率和策略适应性上大幅超越现有开源与闭源审核工具。

Local Manifold Approximation and Projection for Manifold-Aware Diffusion Planning

提出LoMAP——训练无关的扩散规划修正方法,在每个反向扩散步将引导后样本投影到由离线数据近邻构建的局部低秩子空间上,防止不可行轨迹生成,理论证明引导误差随维度以 \(O(\sqrt{d})\) 增长。

Localizing and Mitigating Memorization in Image Autoregressive Models

利用改进的UnitMem指标定位图像自回归模型(VAR/RAR)中的记忆化神经元,发现不同架构的记忆化分布模式存在显著差异,并通过缩小高记忆化神经元权重实现了大幅降低可提取训练数据量(VAR-d30从672降至110张)且对生成质量影响可控的隐私缓解方案。

Long-Form Speech Generation with Spoken Language Models

提出 SpeechSSM,首个能在单次解码会话中学习和生成长达 16 分钟语音的 textless 语音语言模型,利用 Griffin 混合 SSM 架构实现常量内存解码和无限上下文,并引入 LibriSpeech-Long 评估基准和新的嵌入/LLM 评判指标。

LSCD: Lomb-Scargle Conditioned Diffusion for Time Series Imputation

提出 LSCD,将可微的 Lomb-Scargle 周期图层集成到 score-based 扩散模型中用于时间序列填补,通过频域条件信息和频谱一致性损失,在高缺失率下同时提升时域填补精度和频域恢复一致性。

Model Immunization from a Condition Number Perspective

从Hessian矩阵条件数的角度定义和分析模型免疫问题,提出最大化/最小化条件数的正则化器,使预训练模型难以被微调用于有害任务而不影响正常任务性能。

Modern Methods in Associative Memory

IBM&MIT团队的系统性教程,将Dense Associative Memory (DenseAM)从经典Hopfield网络扩展到现代AI架构,通过能量函数统一框架揭示AM与Transformer注意力、扩散模型的深层联系,并附带数学推导和编程练习。

Modulated Diffusion: Accelerating Generative Modeling with Modulated Quantization

MoDiff 提出了调制量化(Modulated Quantization)与误差补偿相结合的框架来加速扩散模型,将激活量化从 8-bit 降至 3-bit 且无性能损失,同时继承缓存和量化方法的双重优势。

Morse: Dual-Sampling for Lossless Acceleration of Diffusion Models

提出 Morse 双采样框架,通过快速 Dot 模型学习残差反馈来补偿 Dash(原扩散模型)跳步采样的信息损失,实现 1.78×–3.31× 的无损加速。

Multidimensional Adaptive Coefficient for Inference Trajectory Optimization in Flow and Diffusion

提出多维自适应系数 MAC(Multidimensional Adaptive Coefficient),作为 flow/diffusion 模型的即插即用模块,将传统的一维时间调度系数扩展为多维、样本自适应的系数,通过对抗训练优化推理轨迹,在 CIFAR-10 条件生成上以 5 NFE 取得 FID 1.37 的 SOTA 结果。

MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

提出 MuseControlLite,通过在解耦交叉注意力层中引入旋转位置编码(RoPE),以仅 85M 可训练参数(比 ControlNet 少 6.75 倍)实现对文本到音乐生成的精确时变条件控制,同时首次统一支持音乐属性控制与音频修复/续写。

Nonparametric Identification of Latent Concepts

提出首个非参数概念可识别性理论框架,证明在不假设概念类型、函数关系或参数生成模型的情况下,仅通过多类别观测的多样性即可识别隐藏概念(至逐元素变换+置换不确定性)。

Normalizing Flows are Capable Generative Models

提出 TarFlow(Transformer AutoRegressive Flow),用堆叠因果 ViT 实现分块自回归 Normalizing Flow,首次在 ImageNet 64×64 上突破 3 BPD,并通过高斯噪声增强、score-based 去噪和 guidance 三项技术使 NF 模型的生成质量首次媲美扩散模型。

NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction

提出 Next-Token-Pair Prediction (NTPP) 范式,首次用 decoder-only 架构对双通道语音对话进行 speaker-independent 联合分布建模,实现更自然的轮次转换、更低的推理延迟和更强的说话人无关性。

One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework

提出 Co-Erasing,首次将图像监督引入概念擦除流程,通过文本-图像协同的负引导和文本引导的图像概念精炼模块,在保持良性生成质量(usability)的同时显著提升不良概念的擦除效果(efficacy)。

Origin Identification for Text-Guided Image-to-Image Diffusion Models

本文提出 ID2 任务(文本引导图像到图像扩散模型的原始图像识别),构建了首个数据集 OriPID,并证明了通过对 VAE 嵌入进行线性变换可以泛化地找到生成图像的原始来源,在 mAP 上超越相似度方法 31.6%。

PAK-UCB Contextual Bandit: An Online Learning Approach to Prompt-Aware Selection of Generative Models and LLMs

提出 PAK-UCB 上下文老虎机算法,通过为每个生成模型学习独立的核函数,在线预测给定 prompt 下的最优模型,实现 prompt 级别的生成模型/LLM 选择,并用随机傅里叶特征(RFF)降低计算开销。

PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

PepTune 结合 Masked Discrete Language Model (MDLM) 和蒙特卡罗树搜索 (MCTS) 多目标引导策略,在离散肽 SMILES 空间中同时优化多种治疗属性(结合亲和力、溶解性、膜通透性等),生成含非天然氨基酸和环化修饰的从头设计肽药物。

Performance Plateaus in Inference-Time Scaling for Text-to-Image Diffusion Without External Models

系统性研究了在不依赖外部模型(VLM/CLIP)的前提下,对文本到图像扩散模型的初始噪声优化算法施加 Best-of-N 推理时缩放的效果,发现性能会迅速达到平台期(plateau),少量优化步数即可逼近该设置下的最大性能,且不同底层扩散模型上的最优算法不同。

Piloting Structure-Based Drug Design via Modality-Specific Optimal Schedule

提出 VLB-Optimal Scheduling (VOS) 策略,通过理论分析多模态(连续3D位置+离散2D拓扑)联合噪声调度的路径依赖VLB特性,用动态规划搜索最优噪声调度路径,在 CrossDock 上以 95.9% PoseBusters 通过率达到 SBDD SOTA。

Position: All Current Generative Fidelity and Diversity Metrics are Flawed

Position paper:系统性地证明了所有现有生成模型 fidelity 和 diversity 指标(包括 Improved Precision/Recall、Density/Coverage、α-precision/β-recall 等六对指标)在精心设计的 sanity check 中均存在大量失败,呼吁社区投入更多精力研发更可靠的评估指标。

PPO-MI: Efficient Black-Box Model Inversion via Proximal Policy Optimization

将黑盒模型反转攻击形式化为 MDP,用 PPO 强化学习在生成模型的隐空间中导航搜索,仅依赖目标模型的预测概率即可高效重建训练样本,以更少查询和更少类别数据实现了 SOTA 攻击成功率。

Preference Adaptive and Sequential Text-to-Image Generation

PASTA 将个性化 T2I 生成建模为多轮序列决策问题,通过 VLM 生成候选 prompt + EM 训练用户偏好模型 + IQL 离线 RL 学习价值函数,在人类评估中显著优于基线 LMM。

Privacy Amplification Through Synthetic Data: Insights from Linear Regression

在线性回归框架下,证明了合成数据在对抗者控制种子时无法提供隐私放大,但在随机输入下释放有限数量的合成数据可以获得超越模型本身DP保证的隐私放大效果,放大程度为 \(O(1/d)\)

Progressive Tempering Sampler with Diffusion

提出 Progressive Tempering Sampler with Diffusion (PTSD),通过将 Parallel Tempering 的温度交换机制与扩散模型的神经采样器相结合,利用"温度引导"从高温扩散模型外推生成低温近似样本,在目标密度评估效率上实现数量级提升。

Provable Maximum Entropy Manifold Exploration via Diffusion Models

提出 S-MEME 算法,将扩散模型的探索问题形式化为近似数据流形上的熵最大化,通过利用 score 函数与熵一阶变分的内在联系绕开密度估计,以镜像下降方式迭代微调预训练扩散模型,并证明收敛到最优探索策略。

Quantum Algorithms for Finite-horizon Markov Decision Processes

提出四种量子值迭代算法(QVI-1/2/3/4),在精确动力学和生成模型两种设定下,对有限时域时变MDP实现了状态空间 \(S\)、动作空间 \(A\)、误差 \(\epsilon\) 和时域 \(H\) 多维度的量子加速,并证明了渐近最优的量子下界。

ReFrame: Layer Caching for Accelerated Inference in Real-Time Rendering

将扩散模型中的中间层缓存技术(DeepCache)扩展到实时渲染 pipeline 中的 U-Net/U-Net++ 网络,通过帧差自适应缓存策略实现平均 1.4× 推理加速,且画质损失微乎其微。

Reimagining Parameter Space Exploration with Diffusion Models

探索用扩散模型学习任务特定参数(LoRA adapter)的分布并直接生成新参数,在野生动物分类场景中验证了其在已知任务上可匹配微调性能,但在跨任务泛化上仍面临挑战。

Representative Language Generation

提出"代表性生成"(representative generation)理论框架,要求生成模型的输出按比例代表训练数据中的各兴趣群组,并引入"群组闭包维度"(group closure dimension)作为刻画可生成性的关键组合量。

RestoreGrad: Signal Restoration Using Conditional Denoising Diffusion Models with Jointly Learned Prior

提出 RestoreGrad 框架,通过 Prior Net 和 Posterior Net 联合学习条件 DDPM 的先验分布(而非固定标准高斯),利用退化信号与干净信号之间的相关性构建更具信息量的先验,在语音增强和图像修复任务上实现 5-10× 更快收敛和 2-2.5× 更少推理步数。

Review, Remask, Refine (R3): Process-Guided Block Diffusion for Text Generation

提出 R3 (Review, Remask, Refine) 框架,在推理阶段利用过程奖励模型 (PRM) 评估掩码扩散模型的中间生成块,对低质量块进行比例性重掩码并重新生成,实现无需额外训练的定向纠错,在数学推理任务上以极低的 PRM 调用次数取得显著提升。

Revisiting Diffusion Models: From Generative Pre-training to One-Step Generation

提出将扩散模型训练视为"生成式预训练"的新视角,发现蒸馏中师生模型收敛到不同局部最优的根本局限,证明仅用 GAN 目标(无需蒸馏损失)即可将预训练扩散模型高效转换为单步生成器(D2O),且冻结 85% 参数的微调版本(D2O-F)仅需 0.2M 图像即可达到强竞争力结果。

SADA: Stability-guided Adaptive Diffusion Acceleration

提出基于ODE轨迹二阶差分的稳定性准则(Stability Criterion),统一调控步级(step-wise)和token级(token-wise)稀疏决策,在SD-2/SDXL/Flux上实现≥1.8×加速且LPIPS≤0.10、FID≤4.5,显著优于DeepCache和AdaptiveDiffusion。

Sample Complexity of Distributionally Robust Off-Dynamics Reinforcement Learning with Online Interaction

提出 supremal visitation ratio \(C_{vr}\) 度量在线鲁棒 MDP 的探索难度,设计首个支持一般 \(f\)-散度(TV/KL/\(\chi^2\))的高效在线算法 ORBIT,并给出匹配的上下界,证明 \(C_{vr}\) 是刻画 off-dynamics RL 在线可学习性的紧致度量。

Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency

提出 SPELL(Sparse Repellency)方法,在扩散模型生成过程中添加稀疏排斥项,将采样轨迹推离参考图像集合(受保护图像或已生成图像),以免训练方式提升输出多样性并防止复制训练集。

Simple and Critical Iterative Denoising: A Recasting of Discrete Diffusion in Graph Generation

提出 Simple Iterative Denoising (SID) 与 Critical Iterative Denoising (CID) 框架,通过假设中间噪声状态的条件独立性来消除离散扩散的复合去噪误差,并引入 Critic 网络自适应调节元素级重加噪概率,在图/分子生成任务上大幅超越标准离散扩散基线。

Stealix: Model Stealing via Prompt Evolution

Stealix 提出首个无需人工设计 prompt 的模型窃取方法,通过遗传算法迭代进化 prompt,利用 Stable Diffusion 生成目标类别图像并查询受害模型,仅需每类 1 张真实图像即可在低查询预算下超越依赖类名或手工 prompt 的已有方法,准确率提升最高达 22.2%。

Synthetic Face Datasets Generation via Latent Space Exploration from Brownian Identity Diffusion

受物理中软粒子布朗运动的启发,本文提出在潜空间中通过随机力驱动的身份采样方法(Langevin、Dispersion、DisCo 三种算法),生成大规模多样化的合成人脸数据集用于训练人脸识别模型,同时防止训练数据泄漏。

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

系统研究"合成感知"——利用T2I模型为纯文本数据即时生成合成图像作为互补模态,通过三阶段评估框架(生成→融合→评估)证明该策略在讽刺检测和隐式情感分析等困难任务上可为Llama-3/Qwen-2.5等强LLM带来显著提升(+3.9% Acc),但在简单事实分类任务上增益边际。

Taming Diffusion for Dataset Distillation with High Representativeness (D³HR)

提出 D³HR 框架,通过 DDIM 反演将 VAE 潜在空间的复杂混合高斯分布映射到高正态性的噪声空间,再结合组采样策略生成高代表性的蒸馏数据集,在 CIFAR、Tiny-ImageNet、ImageNet-1K 上全面超越现有 SOTA。

Taming Rectified Flow for Inversion and Editing

提出 RF-Solver 和 RF-Edit 两个无训练方法,通过高阶 Taylor 展开精确求解 Rectified Flow ODE 来大幅提升反演精度,并利用自注意力特征共享实现高质量图像/视频编辑,兼容 FLUX、OpenSora 等主流模型。

Task-Agnostic Pre-training and Task-Guided Fine-tuning for Versatile Diffusion Planner

提出 SODP 框架:先用大量无奖励标签的次优多任务轨迹预训练扩散规划器,再用基于策略梯度的 RL 微调快速适配下游任务,并引入 BC 正则化防止性能崩溃,在 Meta-World 50 任务上达到 60.56% 成功率(SOTA)。

TCP-Diffusion: A Multi-modal Diffusion Model for Global Tropical Cyclone Precipitation Forecasting with Change Awareness

提出 TCP-Diffusion,融合历史降水、多模态气象变量和 NWP 预报的条件扩散模型,通过邻接残差预测(ARP)机制预测降水变化量而非绝对值,在全球热带气旋降水预报中超越 ECMWF 等权威 NWP 方法。

The Diffusion Duality

揭示了 Uniform-state 离散扩散过程本质上从底层高斯扩散中涌现(通过 argmax 映射),利用这一对偶性将高斯扩散的课程学习策略和一致性蒸馏迁移到离散设置,实现训练速度翻倍和采样加速两个数量级(1024步→8步),在零样本困惑度上 3/7 数据集超越自回归模型。

Theoretical Guarantees on the Best-of-n Alignment Policy

本文推翻了文献中广泛使用的 best-of-n 策略 KL 散度公式 \(\log(n) - (n-1)/n\) 的精确性声明,证明它只是一个上界,并提出了更紧的 KL 散度估计器和 win rate 理论界。

ToMA: Token Merge with Attention for Diffusion Models

提出 ToMA,将 token merge 重新建模为子模优化问题并以 attention-like 线性变换实现 merge/unmerge,使其与 FlashAttention 等 GPU 优化方案兼容,在 SDXL/Flux 上分别实现 24%/23% 的实际端到端加速,同时图像质量损失极小(DINO Δ<0.07)。

Towards a Mechanistic Explanation of Diffusion Model Generalization

通过比较神经网络去噪器与理论最优经验去噪器的近似误差,发现扩散模型的泛化源于跨架构共享的局部归纳偏置——神经网络在去噪时倾向于执行局部化操作,并据此提出无需训练的 Patch Set Posterior Composites (PSPC) 去噪器,通过聚合局部经验去噪器来复现网络行为,证实 patch 去噪与组合是扩散模型泛化的重要机制。

Tree-Sliced Wasserstein Distance: A Geometric Perspective

提出 Tree-Sliced Wasserstein distance on Systems of Lines (TSW-SL),用树状线系统替代 SW 中的一维直线作为投影域,保留拓扑结构的同时保持闭合解的高效计算,在梯度流、风格迁移和生成模型上超越 SW 及其变体。

Tree-Sliced Wasserstein Distance with Nonlinear Projection

提出非线性投影框架下的 Tree-Sliced Wasserstein(TSW)距离,通过 Circular/Spatial 两种非线性 Radon 变换替代原有线性投影,在保持度量良定义和单射性的同时,在梯度流、自监督学习和生成模型等任务上显著优于已有 SW 和 TSW 变体。

Understanding and Mitigating Memorization in Diffusion Models for Tabular Data

首次系统研究表格扩散模型中的记忆化现象,发现记忆化随训练轮次增加而加剧且与数据集大小强相关,提出TabCutMix/TabCutMixPlus通过特征段交换缓解记忆化同时保持生成质量。

Understanding and Mitigating Memorization in Generative Models via Sharpness of Probability Landscapes

通过对数概率密度的 Hessian 曲率(sharpness)建立扩散模型记忆化的几何分析框架,提出可在生成初始阶段检测记忆化的新指标,并设计无需重训练的 SAIL 初始噪声优化策略来缓解记忆化。

Unsupervised Learning for Class Distribution Mismatch (UCDM)

提出 UCDM,利用扩散模型从无标注数据中合成正负样本对来训练分类器,在不依赖标注数据的情况下解决训练集与目标任务之间的类别分布不匹配(CDM)问题,在 closed-set 和 open-set 任务上均大幅超越现有半监督方法。

Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations

利用视频扩散模型(VDM)内部的"预测性视觉表征"(同时编码当前帧和未来帧信息)来隐式学习逆动力学模型,从而以高频闭环方式生成机器人动作,在仿真和真实世界操作任务上大幅超越已有方法。

Visual Generation Without Guidance

提出 Guidance-Free Training (GFT),通过重新参数化条件模型为采样网络与无条件网络的线性插值,直接从数据训练出无需引导的视觉生成模型,在 DiT/VAR/LlamaGen/MAR/LDM 五种模型上匹配 CFG 性能的同时将采样计算量减半。

Visual Language Models as Zero-Shot Deepfake Detectors

提出基于 VLM token 概率归一化的图像分类框架,将 deepfake 检测从二元判断升级为概率估计,在零样本设置下用 InstructBLIP 超越多数专用 deepfake 检测器,微调后在 DFDC-P 上接近完美。

When Diffusion Models Memorize: Inductive Biases in Probability Flow of Minimum-Norm Shallow Neural Nets

从理论上分析了最小 \(\ell^2\) 范数浅层 ReLU 去噪器驱动的扩散模型概率流的收敛行为,证明概率流可以收敛到训练样本(记忆化)、训练样本之和("虚拟点")或超盒边界上的流形点(泛化),且扩散时间调度器的"早停"效应决定了收敛目标。

DDIS: When Model Knowledge Meets Diffusion Model — Diffusion-assisted Data-free Image Synthesis

提出 DDIS,首次将 T2I 扩散模型作为强图像先验用于无数据图像合成,通过域对齐引导(DAG)和类对齐 Token(CAT)使生成图像在域和类两个层面精准对齐预训练模型的训练数据分布,在 PACS 和 ImageNet 的无数据 KD/剪枝中达到 SOTA。

DDIS: When Model Knowledge Meets Diffusion Model

提出DDIS——首个利用T2I扩散模型作为图像先验的无数据图像合成方法,通过Domain Alignment Guidance (DAG)在扩散采样过程中对齐BN层域统计量、Class Alignment Token (CAT)编码类特定属性,在ImageNet-1k和多域PACS上全面超越现有DFIS方法。

Zero-Shot Adaptation of Parameter-Efficient Fine-Tuning in Diffusion Models

提出 ProLoRA,一种免训练的闭式 LoRA 跨模型迁移方法,通过将源 LoRA 在源模型权重子空间和零空间的投影分解重新投射到目标模型的对应空间,实现风格/概念/加速 LoRA 在不同扩散模型间的无损迁移。


🎮 强化学习

A Theoretical Study of (Hyper) Self-Attention through the Lens of Interactions: Representation, Training, Generalization

从"交互实体"统一视角出发,证明单层线性 self-attention 以 \(\Theta(|\mathcal{S}|^2)\) 参数高效表示、学习并泛化成对交互函数(全连接网络需 \(\Omega(L^2|\mathcal{S}|^2)\)),并在此理论基础上提出 HyperFeatureAttention(特征级交互耦合)和 HyperAttention(高阶多实体交互)两个新模块,在语言建模中降低了 perplexity。

Action-Constrained Imitation Learning

形式化了"动作约束模仿学习(ACIL)"新问题——受限Agent从无约束专家学习,提出DTWIL通过MPC+DTW距离生成替代性约束轨迹来消除占用度量失配,在多种机器人任务上显著优于基线。

Action-Dependent Optimality-Preserving Reward Shaping (ADOPS)

提出ADOPS方法,通过查询critic网络的外在/内在值函数估计,仅在内在奖励会改变最优动作偏好时调整奖励,从而实现action-dependent的optimality-preserving reward shaping,突破了PBRS只能处理action-independent形式的限制,在Montezuma's Revenge上超越所有先前的optimality-preserving方法和baseline RND。

Actor-Critics Can Achieve Optimal Sample Efficiency

本文首次证明 Actor-Critic 算法在一般函数逼近(general function approximation)和需要策略性探索的设定下可以达到 \(O(1/\epsilon^2)\) 的最优样本复杂度,通过整合乐观探索、离策略 Critic 估计和稀疏策略切换,并将结果扩展到混合 RL 设定。

Adversarial Cooperative Rationalization: The Risk of Spurious Correlations in Even Clean Datasets

揭示协作理据化框架(RNP)中的隐蔽缺陷——即使在干净数据集上,生成器的采样偏差也会引入理据与标签间的虚假相关,提出对抗检测+指令干预方法,在文本和图分类上显著超越现有方法。

Automatic Reward Shaping from Confounded Offline Data

提出首个理论上有保障的数据驱动方法,从含未观测混淆因子的离线数据中自动学习基于势的奖励整形函数 (PBRS),通过因果贝尔曼最优方程上界最优状态值作为势函数,并证明所得 Q-UCB Shaping 算法在伪次优状态-动作对上享有比 vanilla Q-UCB 更优的 gap-dependent regret bound。

BEAVER: Building Environments with Assessable Variation for Evaluating Multi-Objective Reinforcement Learning

提出 BEAVER 基准——首个面向建筑能源管理的多目标上下文强化学习评估框架,通过参数化热动力学和气候区域构建可控环境变化,系统评估现有 MORL 算法的跨环境泛化能力。

Benchmarking Quantum Reinforcement Learning

提出量子强化学习(QRL)的严格基准测试方法论——基于样本复杂度的统计估计器和统计显著性定义的"超越"概念,在新设计的 6G 波束管理环境上进行迄今最大规模(100 seeds)的 QRL vs 经典 RL 比较,发现先前关于 QRL 优越性的声称需要更审慎看待。

Beyond The Rainbow: High Performance Deep Reinforcement Learning on a Desktop PC

提出 BTR(Beyond The Rainbow)——整合 6 项 RL 改进到 Rainbow DQN 中,在单台桌面 PC 上 12 小时内训练 Atari-60 达到 IQM 7.4(Rainbow 为 1.9),并首次成功训练智能体玩马里奥银河、马里奥赛车和真人快打等 3D 游戏。

BRITE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning

提出 BRITE——通过自举(bootstrapping)方式迭代收集和强化 LLM 的中间思维过程,结合过程级奖励模型和 PPO 训练,持续提升 LLM 在数学推理等任务上的表现。

Conceptual Belief-Informed Reinforcement Learning

提出 HI-RL(Human Intelligence-RL)——将认知科学中的概念抽象和概率先验信念机制引入 RL,从经验中提取高层概念并构建概念关联的自适应先验来指导值函数/策略更新,作为算法无关插件一致提升 DQN/PPO/SAC/TD3 的样本效率。

Continual Reinforcement Learning by Planning with Online World Models

提出 FTL Online Agent (OA),通过在线学习的 Follow-The-Leader 浅层世界模型 + 模型预测控制(MPC)规划来实现持续强化学习,该世界模型从构造上免疫灾难性遗忘,且具有理论遗憾界保证 \(\mathcal{O}(\sqrt{K^2 D \log(T)})\),在专门设计的 Continual Bench 上全面超越基于深度世界模型的方法。

Controlling Underestimation Bias in Constrained Reinforcement Learning for Safe Exploration

提出 MICE(Memory-driven Intrinsic Cost Estimation)——通过闪光灯记忆机制存储历史高代价状态,构建内在代价信号来纠正代价值函数的低估偏差,在约束 RL 的训练过程中显著减少约束违反次数。

Counterfactual Effect Decomposition in Multi-Agent Sequential Decision Making

提出一种双层因果分解框架,将多智能体序列决策中某动作的总反事实效应(TCFE)系统地分解为"通过智能体行为传播的效应"(tot-ASE)和"通过状态转移传播的效应"(r-SSE),并分别用 Shapley 值和内在因果贡献(ICC)进一步归因到每个智能体和每个状态变量。

Craftium: An Extensible Framework for Creating Reinforcement Learning Environments

Craftium 基于开源 Minetest 游戏引擎构建了一个灵活高效的 3D RL 环境创建框架,通过 Lua API 实现完全自定义,同时提供标准 Gymnasium 接口和五个基准环境。

Cross-environment Cooperation Enables Zero-shot Multi-agent Coordination

提出跨环境合作(CEC)范式,通过在程序化生成的大量多样化环境中进行自对弈训练(而非增加伙伴多样性),使智能体学习到通用的合作规范,从而在从未见过的新环境中与从未见过的新伙伴实现零样本协调。

Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization

提出基于熵正则化的零和博弈逆问题统一框架,利用 Quantal Response Equilibrium (QRE) 在线性假设下建立奖励函数的可辨识性条件,并给出从观测动作恢复奖励函数的置信集构造算法,附带 \(\mathcal{O}(T^{-1/2})\) 收敛速率保证。

Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation

本文从理论上揭示了"在 OPE 中使用估计的历史依赖行为策略比使用真实行为策略反而更好"这一悖论的根本原因——估计行为策略隐式地将 IS 估计器投影到更约束的空间,降低渐近方差但增加有限样本偏差。

Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning

GLIDER 引入参数高效的层次化结构——高层策略学习抽象的分步计划并指导低层控制器执行,通过离线层次化 RL 将复杂长时域决策分解为连贯的 CoT 推理子任务,在 ScienceWorld 和 ALFWorld 上取得一致的性能提升和更强的泛化能力。

Diving into Self-Evolving Training for Multimodal Reasoning

通过强化学习视角重新审视多模态推理中的自演化训练(Self-Evolving Training),系统性地分析训练方法、奖励模型和提示变体三大关键因素,并提出基于 Reward-Pass@K 的自适应温度调节机制来缓解训练饱和问题,最终形成 M-STaR 框架,在多个基准上取得一致提升。

Embedding Safety into RL: A New Take on Trust Region Methods

提出 C-TRPO 算法,通过修改策略空间的几何结构(在 KL 散度中嵌入约束感知的障碍项),使信赖域天然只包含安全策略,从而在训练全程保障约束满足,同时保持与 SOTA 相当的回报性能。

Enhancing Cooperative Multi-Agent Reinforcement Learning with State Modelling and Adversarial Exploration

提出 SMPE² 算法,通过变分推断学习有意义的状态信念表示并结合对抗式内在探索,在部分可观测的合作多智能体环境中显著提升协调能力,在 MPE、LBF、RWARE 三个基准上超越 SOTA。

Ergodic Generative Flows

提出 Ergodic Generative Flows (EGFs),通过有限个全局微分同胚构建生成流,利用遍历性 (ergodicity) 保证通用性,并设计 KL-weakFM 损失实现无需独立奖励模型的模仿学习训练,在 NASA 地球科学数据集上以 30 倍更小的模型超越基线。

EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration

提出 BanditBench 基准和三种增强策略(推理时算法引导、Few-shot 示范、Oracle 行为微调),系统评估并改善 LLM 在 bandit 环境中的上下文探索能力,使小模型通过算法蒸馏超越大模型。

Exploring Large Action Sets with Hyperspherical Embeddings using von Mises-Fisher Sampling

提出 vMF-exp,通过在超球面上采样 von Mises-Fisher 分布向量再做最近邻检索,实现对大规模动作集(百万级)的可扩展探索,理论证明在均匀分布假设下渐近等价于 Boltzmann 探索,并成功部署于 Deezer 音乐推荐系统。

Extreme Value Policy Optimization for Safe Reinforcement Learning

提出 EVO 算法,将极值理论 (EVT) 引入约束强化学习,用广义 Pareto 分布 (GPD) 建模代价尾部的极端样本,并设计极端分位数约束与极端优先回放机制,在训练中实现零约束违反的同时保持竞争性策略性能。

Fast and Robust: Task Sampling with Posterior and Diversity Synergies for Adaptive Decision-Makers in Randomized Environments

提出 PDTS(Posterior and Diversity Synergized Task Sampling),将鲁棒主动任务采样建模为无穷臂老虎机问题,通过后验采样替代 UCB 并引入多样性正则化,以极简实现在 Domain Randomization 和 Meta-RL 中达到接近最坏情况的鲁棒适应性能。

Flow of Reasoning: Training LLMs for Divergent Reasoning with Minimal Examples

提出 Flow of Reasoning (FoR),将多步 LLM 推理建模为 DAG 上的马尔可夫流,借助 GFlowNet 的轨迹平衡目标微调 LLM,使其仅用极少训练样本(如15个)即可采样出概率正比于奖励的多条高质量且多样化的推理路径。

Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online RL

揭示 Actor-Critic 中 Bellman 最优算子(加速学习但引入过估计偏差)和 Bellman 算子(减少偏差但收敛慢)的根本权衡,提出 Annealed Q-Learning (AQ-L):用 expectile loss 实现从最优算子到标准算子的平滑退火,AQ-SAC 在 DM Control 10 任务上平均分达 746.1(vs SAC 657.9),实现极简即插即用的性能提升。

Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning

提出 Annealed Q-learning (AQ-L),通过期望分位损失(expectile loss)的参数 τ 从接近1退火至0.5,实现从 Bellman 最优算子到 Bellman 算子的平滑过渡,在连续动作空间中既加速了早期学习又抑制了后期过估计偏差,与 TD3/SAC 结合后在多种运动控制和操控任务上显著优于基线。

Graph-Assisted Stitching for Offline Hierarchical Reinforcement Learning

提出 Graph-Assisted Stitching (GAS) 框架,用基于图搜索的子目标选择替代显式高层策略学习,通过时间距离表示 (TDR) 空间中的聚类构图与最短路径规划,在离线 HRL 中实现高效的跨轨迹拼接,在最具挑战的 antmaze-giant-stitch 任务上从前 SOTA 的 1.0 飙升至 88.3。

Graph-Supported Dynamic Algorithm Configuration for Multi-Objective Combinatorial Optimization

提出 GS-MODAC,利用 GNN 将目标空间中的解映射为图结构来学习状态表征,结合 PPO 实现对多目标进化算法(MOEA)参数的动态配置,在调度和路由两类 NP-hard 组合优化问题上超越静态和已有 DRL 方法,并展现出跨问题规模和目标数量的泛化能力。

Heterogeneous Data Game: Characterizing the Model Competition Across Multiple Data Sources

本文提出了异构数据博弈(HD-Game)框架,用博弈论分析多个ML模型提供商在异构数据源上的竞争行为,揭示了三种纯策略纳什均衡(PNE)模式——不存在、同质化和异质化——并给出了各类均衡存在的充分/必要条件。

Hierarchical Reinforcement Learning with Targeted Causal Interventions

提出 HRC 框架,将层次强化学习中的子目标关系建模为因果图,通过因果发现算法学习子目标结构,并基于因果效应优先级进行定向干预,显著降低长时域稀疏奖励任务的训练代价。

KEA: Keeping Exploration Alive by Proactively Coordinating Exploration Strategies

提出 KEA 方法,通过引入标准智能体与新颖性增强智能体的动态切换机制,主动协调不同探索策略,解决 SAC 与新颖性探索结合时因策略交互导致的冗余采样和低效探索问题。

Learning Dynamics under Environmental Constraints via Measurement-Induced Bundle Structures

提出一种几何框架,利用测量过程自然诱导的纤维丛结构统一处理测量不确定性、系统约束和动力学学习:在纤维丛上定义测量感知控制屏障函数(mCBF),结合Neural ODE学习连续时间动力学,在三个机器人控制任务上实现96.3%成功率和99.3%约束满足率。

Learning Mean Field Control on Sparse Graphs

提出 Local Weak Mean Field Control (LWMFC) 框架,利用局部弱收敛理论将平均场控制扩展到幂律系数 γ>2 的极稀疏图上,配合两系统近似与可扩展 RL 算法,在合成和真实网络上大幅超越基于 Lp graphon 和 graphex 的方法。

Learning Progress Driven Multi-Agent Curriculum

提出 SPMARL,以基于 TD 误差的学习进度(而非回报)驱动智能体数量的自适应课程分布,解决多智能体稀疏奖励任务中回报估计高方差与信用分配困难两大问题。

Learning to Incentivize in Repeated Principal-Agent Problems with Adversarial Agent Arrivals

首次研究 agent 以对抗顺序到达的重复 principal-agent 问题,在 greedy 和 smooth 两种响应模型下分别给出了紧的 regret 上下界,核心思路是将激励设计问题规约为对抗线性 bandit。

Learning to Trust Bellman Updates: Selective State-Adaptive Regularization for Offline RL

提出选择性状态自适应正则化(SSAR),用神经网络为每个状态动态生成正则化系数,并仅在高质量动作上施加约束,统一了CQL(值正则化)和TD3+BC(策略约束)两大离线RL范式,在D4RL离线和O2O场景均大幅超越基线。

Learning Utilities from Demonstrations in Markov Decision Processes

本文提出 Utility Learning (UL) 问题,通过从演示中推断智能体的效用函数来捕捉其风险态度,设计了两个可证明高效的算法并分析了样本复杂度和可辨识性。

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

提出 SUPE 方法,将无标签离线轨迹数据"用两次"——既用于 VAE 技能预训练,又通过 UCB 伪标签转化为高层 off-policy 数据加速在线探索,在 42 个稀疏奖励任务上全面超越已有方法。

LineFlow: A Framework to Learn Active Control of Production Lines

提出 LineFlow,一个可扩展的开源 Python 框架,用于模拟任意复杂度的生产线并训练 RL 智能体进行主动产线控制(自适应路由、工人重分配、调度等),同时给出了若干子问题的数学最优解作为基准。

Mastering Massive Multi-Task Reinforcement Learning via Mixture-of-Expert Decision Transformer

提出 M3DT 框架,将 MoE 引入 Decision Transformer 实现参数分离——通过任务分组让每个专家只学习一个小任务子集的特定知识,配合三阶段训练机制(骨干→专家→路由器)避免梯度冲突,增加专家数既扩展参数又降低任务负载,成功将离线多任务 RL 扩展到 160 个仿真控制任务。

Maximum Total Correlation Reinforcement Learning

提出最大化轨迹总相关(Total Correlation)作为 RL 的归纳偏置,鼓励策略产生简单、可压缩的轨迹,从而在不牺牲任务性能的前提下显著提升对观测噪声、动作噪声和动力学变化的零样本鲁棒性。

Meta-Black-Box-Optimization through Offline Q-function Learning (Q-Mamba)

提出 Q-Mamba,首个离线 MetaBBO 框架,通过 Q 函数分解 + 保守 Q 学习 + Mamba 架构,在不到在线方法一半训练预算下达到可比甚至更优的 BBO 算法配置性能。

Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn

通过 NTK 矩阵建立可塑性丧失 (plasticity loss) 与 churn(批外数据输出漂移)之间的因果联系,提出 C-CHAIN 方法在持续 RL 训练中持续抑制 churn,从而缓解可塑性丧失,在 24 个持续 RL 环境上超越已有基线。

Non-stationary Online Learning for Curved Losses: Improved Dynamic Regret via Mixability

利用 mixability(可混合性)概念替代传统 KKT 分析,提出基于指数权重+fixed-share更新的连续空间在线学习框架,将弯曲损失函数(squared/logistic loss)的动态遗憾中对维度 \(d\) 的依赖从 \(O(d^{10/3})\) 大幅改进至 \(O(d)\)

Of Mice and Machines: A Comparison of Learning Between Real World Mice and RL Agents

系统比较真实小鼠与RL智能体在捕食者-猎物迷宫中的行为差异,发现RL缺乏自我保护本能,提出创伤启发安全缓冲(TISB)和方差惩罚TD学习(VP-TDMPC-2)两种机制,将智能体与小鼠的状态访问重叠率从20.9%提升至86.1%。

On the Dynamic Regret of Following the Regularized Leader: Optimism with History Pruning

本文提出 OptFPRL 算法,通过在 Follow the Regularized Leader (FTRL) 框架中引入历史梯度裁剪 (History Pruning) 机制,首次为 FTRL 在紧凑集上建立了数据依赖的动态遗憾保证,动态遗憾完全由预测误差调控,在预测完美时可达零遗憾。

Online Pre-Training for Offline-to-Online Reinforcement Learning

提出 OPT 方法,在离线预训练和在线微调之间引入"在线预训练"阶段,通过新增一个独立值函数并用元适应目标训练,解决离线预训练智能体因值估计不准而导致在线微调性能下降的问题,在 D4RL 基准上平均提升约 30%。

Optimal and Practical Batched Linear Bandit Algorithm

BLAE 通过将臂消除策略正则化 G-最优设计深度融合,首次在批量线性 Bandit 问题中同时实现了 large-\(K\) 和 small-\(K\) 两种体制下的极小极大最优遗憾(仅差 \(\log T\) 因子),同时保持 \(\mathcal{O}(\log\log T)\) 的最低批次复杂度和卓越的实际性能。

Optimizing Language Models for Inference Time Objectives using Reinforcement Learning

提出在 RL 训练阶段显式优化推理时 k-sample 目标(pass@k / majority voting),通过 leave-one-out 控制变量构造无偏低方差梯度估计,在 MATH 和 CodeContests 上显著提升推理时性能。

Pessimism Principle Can Be Effective: Towards a Framework for Zero-Shot Transfer RL

提出基于悲观主义原则的迁移RL框架:用鲁棒MDP构建目标域性能保守下界作为代理目标优化,设计Averaged Operator和Minimal Pessimism两种代理及分布式算法,确保安全迁移并避免负迁移。

PIGDreamer: Privileged Information Guided World Models for Safe Partially Observable RL

提出 ACPOMDPs 理论框架并构建 PIGDreamer,在训练阶段利用特权信息(如底层状态、传感器数据)通过表征对齐、特权预测器和非对称 Critic 三种方式增强基于世界模型的安全 RL,在部分可观测环境中以仅 28% 的额外训练时间获得 136% 的性能提升。

Position: Lifetime Tuning is Incompatible with Continual Reinforcement Learning

这篇 position paper 指出持续强化学习研究中的关键方法论缺陷——lifetime tuning(在整个生命周期上调参)会掩盖算法的真实持续学习能力,并提出 k%-percent tuning 作为更合理的评估替代方案。

Principal-Agent Bandit Games with Self-Interested and Exploratory Learning Agents

本文研究重复委托-代理赌臂博弈中,代理基于经验均值做决策(而非已知真实均值)且可能随机探索时,如何设计委托人的激励算法使后悔界达到 \(\tilde{O}(\sqrt{T})\)\(\tilde{O}(T^{2/3})\),显著优于先前 \(\tilde{O}(T^{11/12})\) 的结果。

ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification

提出 ReVISE 框架,通过引入 [refine] 特殊 token 和两阶段课程学习(先学自验证、再学自纠错),使 LLM 在推理时能内省式地验证并修正自身推理轨迹,无需外部验证器或复杂 RL 训练。

Reward-free World Models for Online Imitation Learning

提出 IQ-MPC,一种无需显式奖励建模的世界模型在线模仿学习方法,通过逆软Q学习在潜空间中联合学习动态模型与Q函数,利用 MPPI 规划实现对高维观测和复杂动力学任务的稳定专家级模仿。

Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism

提出自适应干预机制 AIM,通过学习代理 Q 函数模拟人类干预决策,让机器人主动请求专家帮助,相比不确定性基线 Thrifty-DAgger 在人类接管成本和学习效率上提升 40%。

Robust Noise Attenuation via Adaptive Pooling of Transformer Outputs

本文将 Transformer 输出的池化操作形式化为向量量化问题,证明 AvgPool 和 MaxPool 在信噪比 (SNR) 变化时存在性能崩溃风险,并提出基于交叉注意力的自适应池化方法 (AdaPool),在理论上可在任意 SNR 下逼近信号最优量化器,在 RL、关系推理和视觉任务中均表现出优越的鲁棒性。

Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization

提出 d-rectangular linear RRMDP (d-RRMDP) 框架,将潜在线性结构同时引入转移核和 f-散度正则化,设计 R2PVI 算法在离线数据下学习鲁棒策略,证明了 instance-dependent 的次优性上界,并通过信息论下界验证算法接近最优。

Safety Certificate against Latent Variables with Partially Unidentifiable Dynamics

提出基于概率空间不变性条件的安全证书设计方法,利用因果强化学习从含潜变量的离线数据中学习边际化 Q 函数,在离线与在线统计分布不一致的情况下仍能保证长期安全性,并证明了安全动作的持续可行性。

Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning

提出 Dynamic Transition VIN (DT-VIN),通过引入动态转移核增强隐式 MDP 的表征能力,并设计自适应 highway loss 缓解梯度消失,将 VIN 成功扩展至 5000 层,在 \(100 \times 100\) 迷宫中实现 1800 步长期规划(原版 VIN 仅支持 \(25 \times 25\) 迷宫中 120 步规划)。

SENSEI: Semantic Exploration Guided by Foundation Models to Learn Versatile World Models

提出 SENSEI 框架:利用 VLM 成对比较观测图像的"有趣程度",蒸馏出语义内在奖励,再与集成不确定性驱动的新颖性奖励结合,通过世界模型实现语义有意义的无任务探索,并显著加速下游任务学习。

Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning

本文提出 Sliding Puzzles Gym (SPGym),一个将经典 8-拼图改造为视觉 RL 任务的基准,通过独立调节图片池大小来精确控制视觉表征学习的复杂度,实验揭示当前方法在视觉多样性增大时的根本性记忆化局限。

Solving Zero-Sum Convex Markov Games

本文首次为两人零和凸马尔可夫博弈(cMG)中的独立策略梯度方法提供了全局收敛到Nash均衡的理论保证,通过非凸正则化将问题化归为非凸-pPL min-max优化,并设计了嵌套/交替策略梯度算法。

Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning

本文揭示 Dyna 风格模型强化学习算法(MBPO、ALM)在 OpenAI Gym 表现优异但在 DeepMind Control Suite (DMC) 中严重失效的现象,系统分析模型误差、过估计偏差和可塑性损失等原因,发现即使使用完美模型 MBPO 也无法一致超越 SAC,表明"没有免费午餐"。

Stochastic Encodings for Active Feature Acquisition

本文提出 SEFA (Stochastic Encodings for Feature Acquisition),一种基于随机潜变量模型的主动特征获取方法,通过在正则化潜空间中跨多种未观测特征实现进行推理来替代 RL 和贪心 CMI 最大化,在合成和真实数据集(含癌症分类)上一致超越所有基线。

T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

T1 通过合成包含 trial-and-error 和 self-verification 的 CoT 数据进行 SFT 初始化,再结合过采样、熵奖励和动态锚点正则化来扩展 RL 训练,使开源 LLM 在复杂数学推理上超越 QwQ-32B-Preview 等模型,并展现出推理时间缩放(inference scaling)行为。

Test-Time Adaptation with Binary Feedback

本文提出 BiTTA,一个利用二元反馈(正确/错误)的测试时自适应框架,通过强化学习驱动的双路径优化策略,在严重域偏移下以最小标注成本实现 13.3% 的准确率提升。

The Challenge of Teaching Reasoning to LLMs Without RL or Distillation

仅用 20 个来自推理模型 QwQ-32B-Preview 的长 CoT 样例轻量微调 Qwen2.5-32B 就能超越 72B 的数学指令模型,但用非推理模型或人工生成的 CoT 无法达到同等效果,表明推理 CoT 中存在难以复制的"潜在质量"。

LEAST: The Courage to Stop — Overcoming Sunk Cost Fallacy in Deep RL

提出 Learn to Stop(LEAST),一种轻量级自适应 episode 提前终止机制:维护最近 K 个 episode 的 Q 值和梯度幅值缓冲区,用步级中位数构造质量阈值 \(\epsilon_i\) 和学习潜力权重 \(\omega_i\),当当前 Q 值低于 \(\omega_i \times \epsilon_i\) 时终止并重置;在 MuJoCo 四任务上为 TD3/SAC/REDQ 均带来显著提升(归一化分数从 0.65 提升到 0.70+),DMC 视觉 RL 的 Finger Turn Hard 任务收敛速度加快约 30%。

The Impact of On-Policy Parallelized Data Collection on Deep Reinforcement Learning Networks

系统研究 on-policy RL 中并行数据采集的两个维度(并行环境数 \(N_{\text{envs}}\) vs 轨迹长度 \(N_{\text{RO}}\))对 PPO 性能的影响,发现在固定数据预算下增加并行环境数比增加轨迹长度更有效,且更大的数据集可改善网络可塑性和优化稳定性。

The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability

在信息不对称(代理拥有隐私类型和动作作为混淆变量)且需要跨分布知识迁移的在线强化学习场景中,提出基于非参数工具变量(NPIV)方法的模型算法 OPME,证明以 \(\tilde{O}(1/\epsilon^2)\) 样本复杂度学得 \(\epsilon\)-最优策略,并匹配对应下界。

VinePPO: Refining Credit Assignment in RL Training of LLMs

VinePPO 利用语言环境可从任意中间状态重置的特性,用蒙特卡洛 (MC) rollout 替换 PPO 中的 value network 进行无偏值估计,在数学推理任务上以更少的墙钟时间(最高 3 倍加速)超越 PPO/GRPO/RLOO 的峰值性能,并展现出更强的泛化斜率。

Wasserstein Policy Optimization

提出 Wasserstein Policy Optimization (WPO),将最优传输理论中的 Wasserstein 梯度流投影到参数空间,得到一种兼具确定性策略梯度(DPG)利用动作值梯度和经典随机策略梯度(SPG)支持任意分布的闭式更新规则,无需重参数化技巧。

Zero-Shot Generalization of Vision-Based RL Without Data Augmentation

提出 ALDA(Associative Latent DisentAnglement),通过解耦表示学习+联想记忆机制实现视觉RL在未见环境中的零样本泛化,无需数据增强即可媲美使用千万级外部数据的方法。


📦 模型压缩

A Mathematical Framework for AI-Human Integration in Work

本文提出了一个评估 AI-人类工作集成的数学框架,将技能分解为决策层和执行层两类子技能,理论证明了工作成功概率存在相变效应、互补技能融合可带来超加性收益,并解释了 GenAI 辅助中低技能工人获益更大的"生产力压缩"现象,通过 O*NET 和 Big-bench Lite 数据验证了框架的实用性。

ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence

本文深入分析了知识蒸馏中 FKLD 和 RKLD 的概率质量分配缺陷,发现它们在 Hardness-Concentration 和 Confidence-Concentration 两种效应上分别处于极端,提出基于 α-β-divergence 的 ABKD 框架,通过调节 α 和 β 灵活平衡两种效应,在 17 个语言/视觉数据集、12 种师生配置上取得了 SOTA 性能。

An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks

提出 RSR/RSR++ 算法——通过预处理固定的二值/三值权重矩阵构建分桶排列索引,实现 \(O(n^2/\log n)\) 复杂度的向量-矩阵乘法,比标准 \(O(n^2)\) 方法快最高 29× 的矩阵乘法、6× 的内存节省,并在 1.58-bit LLM 推理中实现 5.24× 加速。

any4: Learned 4-bit Numeric Representation for LLMs

提出 any4——一种通过 k-means 聚类学习每行权重矩阵的最优 4-bit 非均匀量化码本的方法,无需权重/激活预处理,在 Llama 2/3、Mistral、Mixtral 上均优于 int4/fp4/nf4,且仅用单个校准样本即可。

Best Subset Selection: Optimal Pursuit for Feature Selection and Elimination

本文从优化视角重新审视经典最优子集选择中的特征选择/消除准则,发现传统准则(相关性选择 + Wald-T 消除)仅捕获了目标函数的"一步变化"而忽视了特征交互,从而提出了"目标函数感知"的最优选择和消除准则,将其作为元替换(Meta-Substitution)即插即用地增强 OMP/CoSaMP/(A)BESS 等经典算法,在压缩感知和稀疏回归任务上实现显著性能提升且不增加计算复杂度。

Beyond Communication Overhead: A Multilevel Monte Carlo Approach for Mitigating Compression Bias in Distributed Learning

本文提出了一种基于多级蒙特卡洛(MLMC)的梯度压缩方案,利用有偏压缩器构造统计无偏的梯度估计,将压缩偏差转化为可控方差,从而在保持有偏压缩器经验效率的同时享受无偏方法的理论保证,结合自适应概率优化在 BERT 微调和 CIFAR-10 上验证了优越性。

Beyond Zero Initialization: Investigating the Impact of Non-Zero Initialization on LoRA Fine-Tuning Dynamics

从无限宽度视角理论分析并实验验证:LoRA 的 A、B 矩阵同时非零初始化(Init[AB])相比传统零初始化(Init[A])能显著提升对次优学习率的鲁棒性,且引入的随机噪声不影响微调性能——即微调不必严格从预训练模型出发。

BlockDialect: Block-wise Fine-grained Mixed Format Quantization for Energy-Efficient LLM Inference

提出 BlockDialect——对权重和激活进行块级细粒度混合格式量化,为每个 block 从 FP4 变体(方言)格式书中选择最优数值格式,在 LLaMA3-8B 上比 MXFP4 准确率提升 10.78%,仅比全精度低 5.45%。

BoA: Attention-aware Post-training Quantization without Backpropagation

提出 BoA——首个在训练后量化中考虑跨层依赖性的无反向传播算法,通过构建注意力感知 Hessian 矩阵捕捉注意力模块内的层间交互,在低位宽(INT2)下显著超越现有 PTQ 方法。

Come Together, But Not Right Now: A Progressive Strategy to Boost Low-Rank Adaptation

提出 CoTo(Come Together),一种渐进式训练策略:在微调早期随机关闭 LoRA adapter,激活概率从 0 线性增长至 1,促使梯度在各层间均匀分布;理论上保证了 dropout 稳定性与线性模式连通性,实验表明可同时提升单任务泛化、多任务合并、剪枝鲁棒性并降低训练开销。

Context Tuning for In-Context Optimization

提出 Context Tuning,用少样本示例初始化可训练的 prompt/KV 前缀,通过梯度优化上下文表示(而非模型参数)来增强 LLM 的 few-shot 适应能力,CT-KV 变体在线性时间复杂度下达到与 TTT 竞争的精度。

Core Context Aware Transformers for Long Context Language Modeling

提出 Core Context Aware (CCA) Attention,通过全局感知池化将输入 token 动态压缩为少量核心 token,结合局部保持模块捕获邻近细粒度信息,实现即插即用地替换标准自注意力,在 128K 上下文下获得 7.9× 加速和 46% 显存节省,同时保持建模性能。

DataDecide: How to Predict Best Pretraining Data with Small Experiments

本文构建了 DataDecide——迄今最大规模的开放模型套件(25 种数据配方 × 14 种模型规模 × 3 个随机种子),系统研究如何用小规模实验预测最佳预训练数据,发现单一小规模排名(如 150M 参数)即可达到约 80% 的成对决策准确率,且连续似然代理指标仅需目标计算量 0.01% 即可让多个基准任务的预测准确率超过 80%。

Distilling Tool Knowledge into Language Models via Back-Translated Traces

本文提出一个多智能体回译流水线,先用 Solver Agent 调用工具(代码解释器)解数学题生成 TIR trace,再用 Translator Agent + Rephrase Agent 将工具调用轨迹转化为纯自然语言推理链,最终用这些合成数据微调小模型,使其在无需工具访问的情况下内化工具知识和结构化推理能力。

DLP: Dynamic Layerwise Pruning in Large Language Models

提出动态层级剪枝方法 DLP,利用权重与激活值的中位数自适应计算每层的相对重要性,按"越重要稀疏率越低"的原则进行非均匀剪枝,在 70% 高稀疏率下将 LLaMA2-7B 的困惑度降低 7.79、平均零样本准确率提升 2.7%。

DRAGON: Guard LLM Unlearning in Context via Negative Detection and Reasoning

提出 DRAGON,一种无需微调的 LLM 遗忘框架,通过双层检测模块识别需遗忘的 prompt,再由 CoT guard 模型生成推理指令做上下文干预,在不修改模型参数的前提下实现高效遗忘。

FGFP: A Fractional Gaussian Filter and Pruning for Deep Neural Networks Compression

提出 FGFP 框架,将分数阶微积分与高斯函数结合构建分数阶高斯滤波器(FGF),每个卷积核仅需 7 个参数,配合自适应非结构化剪枝(AUP),在 CIFAR-10 上 ResNet-20 精度仅降 1.52% 即实现 85.2% 的模型压缩率,在 ImageNet 上 ResNet-50 精度降 1.63% 实现 69.1% 压缩率。

FGFP: A Fractional Gaussian Filter and Pruning for DNN Compression

提出FGFP框架,将分数阶微积分与高斯函数结合构建分数阶高斯滤波器(FGF)替代标准卷积核,每个核仅需7个参数,配合自适应非结构化剪枝达到极高压缩比(ResNet-20 85.2%压缩仅降1.52%精度)。

FlatQuant: Flatness Matters for LLM Quantization

提出 FlatQuant,通过可学习仿射变换(Kronecker 分解)使权重和激活分布更平坦,在 W4A4 量化下首次在 LLaMA-3-70B 上实现 ≤1% 精度损失,同时 prefill 加速 2.3×、decoding 加速 1.7×。

Fleet of Agents: Coordinated Problem Solving with Large Language Models

提出Fleet of Agents(FoA)——用遗传粒子滤波思想协调多Agent的LLM推理:生成多个Agent各自探索→基于启发式价值函数重采样→动态分支适应发现的方案,平均比SOTA方法提升5%质量同时仅需40%的成本。

FloE: On-the-Fly MoE Inference on Memory-constrained GPU

提出 FloE,一个面向消费级 GPU 的 MoE 即时推理系统,通过专家内部混合压缩(上下文稀疏化 + 超低比特量化)和双预测器实现计算-传输流水线化,在 RTX 3090 上仅 11GB 显存即可部署 Mixtral-8×7B,相比 DeepSpeed-MII 加速 48.7 倍,性能仅下降 4.4%~7.6%。

From Language Models over Tokens to Language Models over Characters

提出将 token 级语言模型精确转换为字符级语言模型的算法框架,通过定义 covering(最小前缀编码集合)并基于 beam search 近似求解,解决了 prompt boundary 等 token 化导致的用户端问题,同时改善了压缩率(bits/byte)。

From Low Rank Gradient Subspace Stabilization to Low-Rank Weights: Observations, Theories, and Applications

通过 Hessian 谱分析揭示 LLM 不同权重矩阵的低秩收敛差异,据此提出 WeLore——同时统一模型压缩与参数高效微调的非均匀低秩分解方法。

Function-Space Learning Rates

提出逐层函数空间学习率的高效蒙特卡洛估计方法,并基于此设计 FLeRM(Function-space Learning Rate Matching),在小模型上记录函数空间学习率,自动调整大模型的参数空间学习率,实现跨宽度、深度、初始化尺度和 LoRA rank 的超参数迁移。

Generalization Bounds via Meta-Learned Model Representations: PAC-Bayes and Sample Compression Hypernetworks

本文提出了一种基于 hypernetwork 的 meta-learning 框架来获取神经网络的紧泛化界,设计了三种 encoder-decoder 架构(PAC-Bayes 编码器、样本压缩编码器、混合编码器),其中混合方法基于一个新的 PAC-Bayes 样本压缩定理支持连续消息,通过信息瓶颈显式度量模型复杂度,在合成和真实数据集上获得了非空洞的泛化保证。

Generalized Interpolating Discrete Diffusion

提出广义插值离散扩散框架 GIDD,将掩码扩散 (MDM) 推广为支持任意时变混合分布的扩散族,通过结合掩码与均匀噪声赋予模型自纠错能力,在扩散语言建模中取得 compute-matched SOTA。

GPTAQ: Efficient Finetuning-Free Quantization for Asymmetric Calibration

GPTAQ 提出了一种非对称校准(asymmetric calibration)的无微调量化方法,通过将量化层输出与全精度模型的精确输出对齐(而非仅当前层输出),并利用最优脑压缩框架推导闭式解来同时最小化量化误差和累积非对称误差,仅增加约 20 行代码即显著提升 GPTQ 在低比特量化下的性能。

GuidedQuant: Large Language Model Quantization via Exploiting End Loss Guidance

提出 GuidedQuant,通过将端到端损失的梯度信息融入逐层量化目标(保留输出通道内的权重交互),作为即插即用模块显著提升现有 SOTA PTQ 方法在标量/向量/权重-激活量化上的性能;同时提出 LNQ 算法用于非均匀标量量化,实现 2-bit 下 Llama-2-7B perplexity 从 39.58 降至 8.83。

Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding

提出 Gumiho,一种用于推测解码的混合 draft 模型架构:前两个 token 使用串行 Transformer 以确保精度,后续 token 使用并行 MLP heads 以提升效率,并通过 Full Tree Attention 机制进一步增加接受长度,在 Vicuna/LLaMA 上实现了最高 3.65x 加速。

Improved Exploration in GFlowNets via Enhanced Epistemic Neural Networks

将 Epistemic Neural Networks (ENN/epinet) 集成到 GFlowNets 中实现不确定性驱动的探索,提出 ENN-GFN-Enhanced 算法,在 HyperGrid 和序列生成任务上显著改善模式发现效率和分布学习质量。

Instruction-Following Pruning for Large Language Models

提出 IFPruning:用一个小型稀疏预测器根据用户指令动态生成剪枝掩码,将 FFN 中间维度按需裁减,使 9B 模型仅激活 3B 参数即可在编程/数学上超越同规模 dense 模型 5-8 个百分点,且推理延迟与 3B dense 模型持平。

Joker: Joint Optimization Framework for Lightweight Kernel Machines

提出 Joker 框架,通过对偶块坐标下降 + 信赖域 (DBCD-TR) 和随机傅里叶特征近似,以 ~2GB 内存实现多种大规模核模型(KRR / KLR / SVM 等)的统一高效训练,内存节省高达 90% 且性能不降。

KBQA-o1: Agentic Knowledge Base Question Answering with Monte Carlo Tree Search

提出 KBQA-o1,将 ReAct Agent 与蒙特卡洛树搜索(MCTS)结合,通过策略模型和奖励模型驱动的启发式搜索实现知识库问答,在低资源设置下以 Llama-3.1-8B 将 GrailQA F1 从 48.5%(GPT-3.5-turbo SOTA)提升至 78.5%。

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models

提出梯形(ladder-shaped)KV 缓存模式,在不同层保留不同 token 范围的 KV 状态,从而在固定缓存预算下扩展可捕获的上下文跨度,并通过迭代压缩机制支持无限长度的连续生成。

Lego Sketch: A Scalable Memory-augmented Neural Network for Sketching Data Streams

提出 Lego Sketch,一种基于模块化"记忆积木"的可扩展记忆增强神经网络(MANN),通过 normalized multi-hash embedding、可扩展内存和自引导加权损失,解决了现有 neural sketch 在跨数据域和不同空间预算下需要重新训练的可扩展性难题,并首次给出了 neural sketch 的误差上界。

LIFT the Veil for the Truth: Principal Weights Emerge after Rank Reduction for Reliable Model Merging

发现低秩近似后幅值最大的权重(Principal Weights)是微调关键参数,提出 LIFT——仅更新 top 5% 的 Principal Weights 就在推理任务上超越全参数微调,同时保持 LoRA 级别的内存效率。

Liger: Linearizing Large Language Models to Gated Recurrent Structures

Liger 将预训练 Transformer LLM 无额外参数地转换为门控线性循环结构,利用 Key 投影矩阵复用构建门控机制,仅需 0.02% 预训练 token 即可恢复原模型 93% 的性能,同时获得线性时间推理和恒定显存开销。

Position: LLM Social Simulations Are a Promising Research Method

这篇立场论文(position paper)主张 LLM 社会模拟是一种有前途的研究方法,通过综述实证比较和相关评论,识别了五个可解决的挑战,并提出方向性建议,认为 LLM 社会模拟已可用于试点和探索性研究。

LoRA Fine-Tuning without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs

提出在 CPU 上高效进行 LoRA 微调的元生成框架,通过预计算和缓存策略避免 GPU 依赖,使资源受限环境下的 LLM 微调成为可能。

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

GOAT 通过“按 SVD 分段初始化的 LoRA-MoE + 理论推导的缩放对齐”,在不改训练算法和主体架构的前提下显著提升 LoRA 表现,并在 25 个任务上达到 SOTA、明显缩小与 Full FT 的差距。

MARGE: Improving Math Reasoning for LLMs with Guided Exploration

MARGE 提出了一种基于"命中引导探索"(hit-guided exploration)的方法来增强 LLM 的数学推理能力,通过系统地探索自生成解答中的中间推理状态,实现充分探索和更好的信用分配,无需外部标注或额外价值模型,同时提升了单次准确率和探索多样性。

MKA: Memory-Keyed Attention for Efficient Long-Context Reasoning

提出 Memory-Keyed Attention (MKA),将 KV 缓存组织为三级分层记忆(局部/会话/长期),通过可学习路由门动态分配注意力;加速版 FastMKA 在注意力计算前融合记忆源,实现训练吞吐量达 MLA 的 5 倍、解码延迟降至 MLA 的 54%,perplexity 仅损失约 1%。

MoRAgent: Parameter Efficient Agent Tuning with Mixture-of-Roles

提出 Mixture-of-Roles (MoR) 框架,将 Agent 能力分解为推理者、执行者、总结者三个角色,每个角色分配专门的 LoRA 组,以极少额外参数(0.16B–0.36B)实现接近甚至超越全参数微调的 Agent 性能。

Neutral Residues: Revisiting Adapters for Model Extension

提出 Neutral Residues,通过在 adapter 中引入 ReLU 门控 + \(\ell_1\) 稀疏局部损失 + 低方差初始化,使新增残差块在原始分布上输出近零值,在 Gemma-2B 上实现新语言学习与英语保持的最佳权衡。

Olica: Efficient Structured Pruning of Large Language Models without Retraining

提出 Olica 框架,通过对 MHA 层矩阵乘积做正交分解(PCA/SVD)并对 FFN 层做线性校准(岭回归闭式解 + 低秩近似),实现 LLM 结构化剪枝无需重训练,仅需 256 样本、3GB 显存、7 分钟即可完成 LLaMA-7B 剪枝且性能优于需要重训练的方法。

OrthoRank: Token Selection via Sink Token Orthogonality for Efficient LLM Inference

提出 OrthoRank,一种无需额外训练的动态 token 选择方法:利用 sink token 与其他 token 在隐藏状态空间中的正交性来衡量 token 重要性,在每层选出 Top-K 重要 token 进行完整计算,其余 token 仅参与 KV 计算,在相同稀疏率下实现比层剪枝更低的困惑度和更高的零样本准确率。

ParallelComp: Parallel Long-Context Compressor for Length Extrapolation

提出 ParallelComp,一种免训练的并行长上下文压缩方法,通过并行 KV cache 驱逐和注意力校准策略,使 8B 参数 LLM 在单块 A100 GPU 上从 8K 外推至 128K tokens。

Parameter-Efficient Fine-Tuning of State Space Models

首次系统性基准测试 6 种 PEFT 方法在 SSM(Mamba)上的表现,发现 LoRA 应作用于线性投影层而非 SSM 模块,并提出 SDT(稀疏维度调优)方法选择性更新关键状态维度以更高效地微调 SSM 参数。

Persistent Topological Features in Large Language Models

将拓扑数据分析中的 zigzag persistence 引入 LLM 内部表征分析,通过追踪 prompt 在各层表示空间中拓扑特征的持续演化,识别出四个处理阶段,并基于拓扑描述子提出了一种层剪枝准则,效果可比肩 SOTA 方法。

Predictive Data Selection: The Data That Predicts Is the Data That Teaches

提出 PreSelect 方法,基于"能预测模型能力的数据就是能教会模型的数据"这一假设,利用多模型损失排名相关性量化文档预测强度,训练 fastText 分类器实现高效数据选择,在 1B 模型上用 30B tokens 超越随机选取 300B tokens 的性能,实现 10 倍计算节省。

Q-resafe: Assessing Safety Risks and Quantization-aware Safety Patching for Quantized Large Language Models

系统评估了主流量化方法(AWQ、AQLM、LLM-QAT、QLoRA)在不同校准数据集和位宽下对LLM安全性的影响,发现所有量化方法均导致ASR大幅上升(0.3%→85%),并提出Q-resafe框架通过安全补丁数据构建+DPO对齐+选择性安全关键权重更新,以极低计算开销高效恢复量化模型的安全能力。

RADIO: Rate-Distortion Optimization for Large Language Model Compression

RADIO 从信息论中的率失真理论(Rate-Distortion Theory)出发,为 LLM 量化建立了理论基础,并提出了一种基于率失真优化的简洁量化技术,可扩展至数千亿参数模型,且允许用户灵活指定目标模型大小或精度进行后训练压缩。

Random Initialization of Gated Sparse Adapters (RIGSA)

提出 RIGSA,一种基于随机初始化全秩适配器 + ReZero 门控 + 迭代幅度剪枝的稀疏微调方法,在学习新任务的同时比 QLoRA 更好地保留源任务性能。

Rethinking the Stability-Plasticity Trade-off in Continual Learning from an Architectural Perspective

揭示了持续学习中稳定性与可塑性之间在架构层面的固有冲突——宽浅网络稳定性好、深窄网络可塑性强——并提出 Dual-Arch 框架,用两个专用轻量架构分别负责稳定性和可塑性,通过知识蒸馏协同,实现参数量减少最高 87% 的同时提升 CL 性能。

RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression

提出 RocketKV,一种无需训练的两阶段 KV 缓存压缩方法:第一阶段用 SnapKV 做粗粒度永久驱逐,第二阶段用混合稀疏注意力(HSA)做细粒度动态 top-k 选择,在 Mistral-7B 等模型上实现高达 400× 压缩比、3.7× 端到端加速和 32.6% 峰值内存节省,精度损失可忽略。

SAFE: Finding Sparse and Flat Minima to Improve Pruning

将剪枝问题建模为稀疏约束下的锐度感知优化问题,通过增广拉格朗日对偶法(ADMM)求解,同时实现稀疏性和平坦极小值,提升剪枝后网络的泛化性能和鲁棒性。

Sample Efficient Demonstration Selection for In-Context Learning

本文提出了一种样本高效的上下文学习(ICL)示例选择方法,能够在有限的标注预算下高效地选择最佳示例组合,显著提升 LLM 的 ICL 性能,同时大幅减少所需的标注数据量。

Sketch to Adapt: Fine-Tunable Sketches for Efficient LLM Adaptation

SpaLLM 提出了一种基于 sketching 的参数共享方法来统一 LLM 的压缩和微调过程,将预训练权重压缩为查找表(LUT)后直接在表值上微调,避免了 QLoRA 等双塔架构的低秩假设和实现复杂性,在多项基准上以更少的训练参数取得了优于 QLoRA/LoftQ 的性能。

Soft Reasoning: Navigating Solution Spaces in Large Language Models through Controlled Embedding Exploration

本文提出 Soft Reasoning,通过在首个生成 token 的 embedding 空间注入高斯扰动并用贝叶斯优化搜索最优扰动向量,以黑盒方式引导 LLM 在推理过程中探索更优的解空间,无需访问模型参数或额外验证器,在数学推理等任务上以极低计算开销超越 temperature scaling 和 Best-of-N 等基线。

Speculative Decoding in Decentralized LLM Inference: Turning Communication Latency into Computation Throughput

提出 Decentralized Speculative Decoding (DSD),一种即插即用的去中心化LLM推理加速框架,通过将跨节点通信等待时间转化为有效计算,结合基于语义重要性的自适应验证策略,在无需重训练的前提下实现最高 2.59× 的端到端加速。

Steer LLM Latents for Hallucination Detection

提出 Truthfulness Separator Vector (TSV),一种轻量级 steering vector,在推理时重塑 LLM 表示空间以增强真实与幻觉输出的分离,仅需 32 个标注样本即可接近全监督性能。

Strategic Fusion Optimizes Transformer Compression

本文提出 Strategic Fusion 框架,将 12 种基于激活值/互信息/梯度/权重/注意力的层剪枝信号通过线性回归和随机森林进行融合,在 BERT 模型和 9 个文本分类数据集上验证了多信号融合剪枝优于单信号策略,结合知识蒸馏后准确率-模型大小比平均提升 18.84 倍。

Text-to-LoRA: Instant Transformer Adaption

Text-to-LoRA (T2L) 训练了一个超网络(hypernetwork),仅凭自然语言任务描述就能在单次前向传播中为 LLM 生成任务特定的 LoRA 适配器,在 9 个训练任务上匹配专门微调的 LoRA 性能,并能零样本泛化到未见过的任务,实现了语言驱动的即时模型适配。

Towards an Optimal Control Perspective of ResNet Training

将 ResNet 训练形式化为最优控制问题,通过在中间层添加阶段成本 (stage cost) 损失实现自正则化,证明多余的深层权重渐近趋零,为理论驱动的层剪枝奠定基础。

Training a Generally Curious Agent (Paprika)

提出 Paprika 框架,通过在多种文本决策任务上微调 LLM,使模型学会通用的信息收集和决策能力,并能零样本迁移到完全未见的任务。

TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree

本文提出 TreeLoRA,通过构建基于梯度相似度的层级 K-D 树来组织历史任务的 LoRA 适配器,利用 Lower Confidence Bound (LCB) 多臂老虎机算法高效搜索最相关的任务分支实现知识共享,配合稀疏梯度更新,在 ViT 上实现 3.2× 加速、LLM 上 2.4× 加速,同时维持或超越 SOTA 性能。

VocabTrim: Vocabulary Pruning for Efficient Speculative Decoding in LLMs

提出 VocabTrim,一种免训练方法,通过剪枝 draft 模型的 LM head 词汇表来减少推测解码中的 draft 延迟,在 Llama-3 上实现 16% 的内存受限加速提升。

Weak-to-Strong Jailbreaking on Large Language Models

本文提出 weak-to-strong 越狱攻击:利用两个小模型(一个安全、一个不安全)在推理时通过对数概率代数修改大模型的解码分布,仅需一次前向传播即可将对齐大模型的恶意回复率提升至 99% 以上,揭示了 LLM 对齐中一个此前未被注意的高效攻击面。

When Data-Free Knowledge Distillation Meets Non-Transferable Teacher: Escaping Out-of-Distribution

本文研究了在教师模型为"不可迁移"(non-transferable)设计时无数据知识蒸馏面临的挑战——合成样本容易落入分布外区域导致蒸馏失败,提出了逃逸分布外区域(escaping OOD)的方法来实现有效蒸馏。

WildChat-50m: A Deep Dive Into the Role of Synthetic Data in Post-Training

构建迄今最大的公开聊天数据集 WildChat-50m(50+ 开源模型 × 100万+ 对话 = 1.25 亿条转录),系统研究不同数据生成模型(DGM)的合成数据质量,并设计 Re-Wild SFT 混合方案,仅用 Tulu-3 SFT 数据量的 40% 即在多项基准上超越其表现。


🏥 医学图像

ADIOS: Antibody Development via Opponent Shaping

将多智能体强化学习中的对手塑形(Opponent Shaping)引入抗体设计,提出 ADIOS 元学习框架:外层循环优化抗体,内层循环模拟病毒适应性逃逸,使设计出的"塑形抗体"(shapers)不仅能对抗当前病毒变种,还能主动引导病毒向更弱、更易被靶向的方向进化。

Aligning Protein Conformation Ensemble Generation with Physical Feedback

提出 Energy-based Alignment (EBA),将物理力场的能量反馈融入扩散生成模型的微调过程,通过 Boltzmann 因子加权的分类目标函数对齐生成分布与物理能量景观,在 ATLAS MD 基准上实现蛋白质构象集合生成的 SOTA 性能。

Bayesian Inference for Correlated Human Experts and Classifiers

提出通用贝叶斯框架来建模相关人类专家和分类器之间的联合标注行为,通过潜在表示捕捉专家间相关性,用模拟推断评估额外查询的效用,在医学分类和图像标注中大幅减少专家查询次数同时保持预测准确率。

Boosting Masked ECG-Text Auto-Encoders as Discriminative Learners (D-BETA)

D-BETA 提出了一种融合生成式掩码自编码器与增强判别能力的对比学习框架,通过 ECG-Text Sigmoid (ETS) 损失和最近邻负采样策略 (N3S),在 ECG-文本跨模态表征学习中显著超越现有方法,在仅用 1% 训练数据的线性探测中平均 AUC 提升 15%,零样本性能提升 2%。

Certification for Differentially Private Prediction in Gradient-Based Training

提出 Abstract Gradient Training (AGT) 框架,通过凸松弛与界传播技术计算训练过程中模型参数的可达集上界,从而利用平滑敏感度机制大幅收紧隐私预测的隐私分析,在医学影像和 NLP 任务上实现比全局敏感度紧数个数量级的隐私界。

CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models

提出 CFP-Gen——一种大规模扩散语言模型,通过注释引导特征调制(AGFM)和残基级控制编码(RCFE)实现多模态功能约束(功能注释 + 序列基序 + 3D 结构)的组合蛋白质生成,F1 分数比 ESM3 提升 30%。

ComRecGC: Global Graph Counterfactual Explainer through Common Recourse

本文首次形式化了图神经网络的公共补救 (Common Recourse) 全局反事实解释问题,证明该问题是 NP-hard 的,并提出了 ComRecGC 算法——通过多头顶点增强随机游走 (Multi-head VRRW) 寻找反事实图,再用 DBScan 聚类提取公共补救,在 NCI1、Mutagenicity、AIDS、Proteins 四个真实数据集上,覆盖率全面超越现有基线 10%–30%。

Context Matters: Query-aware Dynamic Long Sequence Modeling of Gigapixel Images

提出 Querent 框架——通过 query-aware 的动态区域重要性评估实现千亿像素全切片图像(WSI)中的高效长程上下文建模,在理论上有界逼近完整自注意力,在 10+ 个 WSI 数据集的生物标志物预测/基因突变预测/癌症分型/生存分析中超越 SOTA。

DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models

提出 DeepSeq 流水线,利用大语言模型(尤其是具备实时网络搜索能力的 Agentic GPT-4o)对单细胞RNA测序数据进行自动化细胞类型标注,最高准确率达 82.5%,解决了大规模组学数据标注的吞吐量瓶颈。

DeltaSHAP: Explaining Prediction Evolutions in Online Patient Monitoring with Shapley Values

DeltaSHAP 是一种专为在线患者监护系统设计的可解释AI算法,通过将 Shapley 值适配到时序场景,解释连续预测之间的变化量而非绝对预测值,同时提供特征归因的方向和幅度,在 MIMIC-III 基准上实现 62% 的解释质量提升和 33% 的计算时间缩减。

Designing Cyclic Peptides via Harmonic SDE with Atom-Bond Modeling

提出 CpSDE 框架,通过谐波 SDE 生成模型 (AtomSDE) 和残基类型预测器 (ResRouter) 的交替采样,首次实现基于 3D 受体结构的全类型环肽设计,在稳定性和亲和力上超越现有线性肽设计方法。

Do Multiple Instance Learning Models Transfer?

首次系统评估计算病理学中 MIL 模型的迁移学习能力,发现在 pancancer 数据集上预训练的 MIL 模型能够跨器官、跨任务泛化,以不到 10% 的预训练数据超越自监督 slide foundation model(CHIEF、GigaPath)。

Doubly Protected Estimation for Survival Outcomes Utilizing External Controls for Randomized Clinical Trials

提出一种双重保护(doubly protected)的生存结局估计框架,通过密度比加权校正协变量偏移、DR-Learner检测结局漂移并选择性借用可比外部对照,在保证一致性和效率提升的同时对外部数据异质性具有鲁棒性。

eccDNAMamba: A Pre-Trained Model for Ultra-Long eccDNA Sequence Analysis

eccDNAMamba 是首个面向环状DNA的双向状态空间编码器,结合BPE分词、环状数据增强和SpanBERT式预训练,在保持线性时间复杂度的同时支持高达200Kbp的超长eccDNA序列建模,在癌症分类和真实eccDNA识别任务上显著超越DNABERT-2、HyenaDNA和Caduceus。

EEG-Language Pretraining for Highly Label-Efficient Clinical Phenotyping

本文首创 EEG-语言模型(ELM),在15000份EEG记录和临床报告上训练,结合时间序列裁剪、文本分割和多实例学习策略,首次实现了EEG的零样本分类和跨模态检索,在低标注场景下病理检测性能显著优于纯EEG自监督方法。

Efficient Molecular Conformer Generation with SO(3)-Averaged Flow Matching and Reflow

提出 SO(3)-Averaged Flow 训练目标,通过解析地对旋转群 SO(3) 上所有旋转取平均来消除先验-数据分布间的旋转对齐需求,结合 Reflow+蒸馏实现高质量的少步乃至单步分子构象生成。

Efficient Noise Calculation in Deep Learning-based MRI Reconstructions

提出基于 Jacobian Sketching 的高效方法,通过随机相向量探测 DL 重建网络的 Jacobian 对角元,以无偏估计加速 MRI 重建中的体素级噪声方差,计算和内存需求降低一个数量级以上,与 Monte Carlo 参考相关系数达 99.8%。

Elucidating the Design Space of Multimodal Protein Language Models

系统性地探索了基于token的多模态蛋白质语言模型(PLM)的设计空间,通过比特级离散建模、几何感知架构、表征对齐和多聚体数据扩展四个维度的创新,将650M参数模型的折叠RMSD从5.52降至2.36,超越3B基线模型,接近专用折叠模型水平。

Empower Structure-Based Molecule Optimization with Gradient Guided Bayesian Flow Networks

提出 MolJO 框架,利用贝叶斯流网络(BFN)的连续可微参数空间 \(\boldsymbol{\theta}\),实现对分子坐标(连续)和原子类型(离散)的联合梯度引导优化,并设计滑动窗口后向校正策略平衡探索与利用,在 CrossDocked2020 上以 51.3% Success Rate 大幅领先现有方法。

Enhancing Statistical Validity and Power in Hybrid Controlled Trials: A Randomization Inference Approach with Conformal Selective Borrowing

提出基于 Fisher 随机化检验(FRT)+ 保形选择性借用(CSB)的混合对照试验推断框架,实现有限样本精确的 I 类错误率控制和模型无关的统计推断,通过自适应阈值最小化 MSE,在保持严格 I 类错误控制的同时提升检验功效。

Flexibility-conditioned Protein Structure Design with Flow Matching

提出 BackFlip(从骨架预测残基级柔性)和 FliPS(以柔性 profile 为条件的 SE(3)-等变 flow matching 模型),首次实现根据目标柔性分布生成具有期望动态特性的蛋白质骨架结构,并通过 300 ns 分子动力学模拟验证。

Foundation Models for Clinical Records at Health System Scale

提出 GPT-EHR,一种基于下一次就诊事件预测的生成式预训练框架,在 NYU Langone 129 万患者的纵向 EHR 数据上训练 decoder-only Transformer,零样本即可预测痴呆和膝骨关节炎发病,性能媲美全量微调的 BERT 基线,同时揭示并解决了重复事件 token 造成评估指标虚高的关键陷阱。

From Token to Rhythm: A Multi-Scale Approach for ECG-Language Pretraining

MELP 提出了一种多尺度 ECG-语言预训练模型,通过 Token/Beat/Rhythm 三个层次的跨模态监督信号,结合心脏学专业语言模型预训练,在零样本分类、线性探测和迁移学习中全面超越现有 ECG 自监督和多模态方法。

GenMol: A Drug Discovery Generalist with Discrete Diffusion

提出 GenMol,一个基于掩码离散扩散(Masked Discrete Diffusion)的通用分子生成框架,通过非自回归双向并行解码生成 SAFE 序列,并引入片段重掩码(fragment remasking)和分子上下文引导(MCG),用单一模型覆盖从头生成、片段约束生成、目标导向 hit 生成和先导化合物优化四大药物发现场景,全面超越此前最优方法。

Geometric Generative Modeling with Noise-Conditioned Graph Networks

提出 Noise-Conditioned Graph Networks (NCGNs),使 GNN 架构根据噪声级别动态调整消息传递的范围和图分辨率:高噪声时用远程连接+低分辨率,低噪声时用局部连接+高分辨率,在 3D 点云、空间转录组和图像生成中均超越固定架构基线。

Geometric Representation Condition Improves Equivariant Molecule Generation

GeoRCG 提出两阶段分子生成框架——先生成低维的几何表示(informative representation),再以此为条件生成完整分子,在条件分子生成任务上平均提升 50%,同时可将扩散步数从 1000 减少到 100。

I2MoE: Interpretable Multimodal Interaction-aware Mixture-of-Experts

I2MoE 提出了一种可解释的多模态交互感知混合专家框架,通过四种交互专家(唯一性×2 + 协同 + 冗余)结合弱监督交互损失显式建模模态间的异质交互,并通过重加权模型提供样本级和数据集级的可解释性,在 ADNI 数据集上提升准确率 5.5%。

iDPA: Instance Decoupled Prompt Attention for Incremental Medical Object Detection

提出 iDPA 框架,通过实例级 Prompt 生成(IPG)和解耦 Prompt 注意力(DPA)两大模块,在冻结的视觉-语言目标检测模型上实现增量医学目标检测(IMOD),仅训练 1.4% 的参数即在 13 个跨模态医学数据集上全面超越 SOTA。

Implementing Adaptations for Vision AutoRegressive Model

本文首次系统实现并评测了Vision AutoRegressive(VAR)模型的各种适配方法(FFT/LoRA/LNTuning)及差分隐私适配,发现VAR在非DP场景下显著超越扩散模型适配(DiffFit),收敛速度更快、计算效率更高,但DP适配性能仍然不佳,揭示了隐私保护图像生成领域的重要研究空白。

Improved Off-policy Reinforcement Learning in Biological Sequence Design

提出 δ-Conservative Search (δ-CS),一种面向生物序列设计的新型 off-policy 搜索方法,通过对高分离线序列进行 token 级噪声注入(以概率 δ 随机遮蔽)再用 GFlowNet 策略去噪,并根据代理模型不确定性自适应调节保守程度,在 DNA、RNA、蛋白质和肽设计任务上显著优于现有方法。

LangDAug: Langevin Data Augmentation for Multi-Source Domain Generalization in Medical Imaging

LangDAug 提出用基于能量模型(EBM)的 Langevin 动力学在多源域之间插值生成中间域增强样本,理论证明其诱导正则化效果并约束 Rademacher 复杂度,在眼底和前列腺 MRI 分割上超越 SOTA 域泛化方法。

LDMol: A Text-to-Molecule Diffusion Model with Structurally Informative Latent Space Surpasses AR Models

提出 LDMol,通过 SMILES 枚举对比学习构建结构感知的潜在空间,在该空间上训练条件扩散模型实现文本到分子生成,首次让扩散模型在文本数据生成任务上超越自回归模型。

Leveraging Partial SMILES Validation Scheme for Enhanced Drug Design in Reinforcement Learning Frameworks

提出 PSV-PPO 算法,在自回归 SMILES 分子生成的每一步引入部分 SMILES 验证(PSV)真值表,实时惩罚无效 token,在保持分子有效性的同时增强化学空间探索能力。

Mastering Multiple-Expert Routing: Realizable H-Consistency and Strong Guarantees

本文为多专家路由(learning to defer)问题提出了新的代理损失函数和高效算法,建立了可实现 H-一致性、H-一致性界和 Bayes 一致性的理论保证,覆盖单阶段和两阶段两种学习场景。

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

MedXpertQA 构建了包含 4460 题、覆盖 17 个专科和 11 个身体系统的专家级医学 QA 基准,通过严格的筛选增强和数据合成防泄漏,评估了 18 个主流模型,并专门设计了推理子集用于评估 o1 类推理模型。

MF-LAL: Drug Compound Generation Using Multi-Fidelity Latent Space Active Learning

提出 MF-LAL 框架,将多保真度代理模型与分子生成模型统一到层次化潜空间中,通过主动学习高效整合分子对接(低保真)和结合自由能计算(高保真)两类预言机,生成具有显著更优结合自由能的候选药物分子(平均 ABFE 得分提升约 50%)。

Multivariate Conformal Selection

将 Conformal Selection 从单变量响应推广到多变量设定,提出区域单调性 (Regional Monotonicity) 概念,设计距离型 (mCS-dist) 和学习型 (mCS-learn) 两种非一致性分数,在有限样本下保证 FDR 控制并提升选择功效。

Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning

本文发现简单的一次性随机剪枝就能解锁深度 RL 的扩展潜力——稀疏网络比配备 SOTA 架构的稠密网络实现更高的参数效率、更强的可塑性保持和更少的梯度干扰。

Neural Stochastic Differential Equations on Compact State Spaces: Theory, Methods and Applications

本文提出基于随机生存理论的神经 SDE 参数化方法 (WSP),确保 SDE 轨迹可证明地约束在紧多面体空间内,具有连续动力学和良好归纳偏置,克服了 chain-rule 方法和反射 SDE 的缺陷。

On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive Application Domains

本文系统揭示了 RAG 检索系统在知识密集型领域(医疗、法律)中面临的通用投毒攻击漏洞,提出"正交增强"性质解释攻击成因,并设计基于分布感知距离的检测防御方法,在几乎所有场景中达到近乎完美的检测率。

Out-of-Distribution Detection Methods Answer the Wrong Questions

本文系统论证了当前主流OOD检测方法(基于特征和基于logit)在根本上回答了错误的问题——它们检测的是"特征是否异常"或"模型是否不确定",而非"输入是否来自不同分布",并证明了各种常见改进策略也无法解决这一根本性错位。

PolyConf: Unlocking Polymer Conformation Generation through Hierarchical Generative Models

提出 PolyConf——首个专为聚合物构象生成设计的层次化生成框架:Phase 1 用掩码自回归模型(MAR)+ 扩散过程在随机顺序下生成各重复单元的局部构象,Phase 2 用 SO(3) 扩散模型生成朝向变换以将局部构象组装为完整聚合物构象;同时构建了首个聚合物构象基准 PolyBench(5万+聚合物,~2000原子/构象),在所有结构和能量指标上均大幅超越现有方法 25%+。

Protein Structure Tokenization: Benchmarking and New Recipe

提出 StructTokenBench——首个全面评估蛋白质结构分词器 (PST) 的基准框架,从下游有效性、敏感性、独特性和 codebook 利用效率四个维度评估现有方法,并提出 AminoAseed 策略通过 codebook 重参数化和 Pareto 最优配置显著改善 VQ-VAE 型分词器的质量(相比 ESM3 提升 6.31%、利用率提升 124%)。

Protriever: End-to-End Differentiable Protein Homology Search for Fitness Prediction

提出 Protriever,首个端到端可微的蛋白质同源序列检索框架,将检索器与阅读器联合训练,在蛋白质适应性预测任务上达到序列模型 SOTA,同时比传统 MSA 检索快两个数量级。

Raptor: Scalable Train-Free Embeddings for 3D Medical Volumes Leveraging Pretrained 2D Foundation Models

提出 Raptor(Random Planar Tensor Reduction),一种完全免训练的方法,利用冻结的 2D 基础模型(DINOv2-L)对 3D 医学体积沿三轴提取视觉 token,再通过随机投影大幅压缩维度,在 10 个医学任务上超越所有需要大规模预训练的 SOTA 方法。

Reliable Algorithm Selection for Machine Learning-Guided Design

提出一种设计算法选择方法,通过将候选设计算法配置的成功判定形式化为多重假设检验问题,结合预测驱动推断(Prediction-Powered Inference)技术校正预测误差,以高概率保证选出在未标注设计分布上满足用户定义成功准则的算法配置。

Roll the Dice & Look Before You Leap: Going Beyond the Creative Limits of Next-Token Prediction

本文设计了一套最小化算法任务来量化语言模型的"创造力极限",证明 next-token 学习在需要"思维跳跃"的开放式任务中是近视的,而多 token 方法(teacherless 训练、离散扩散模型)以及输入层噪声注入(seed-conditioning)能显著提升生成的多样性与原创性。

SAFER: A Calibrated Risk-Aware Multimodal Recommendation Model for Dynamic Treatment Regimes

提出 SAFER 框架,融合结构化 EHR 与临床笔记的多模态信息,通过 KL 散度度量标签不确定性并结合保形推断控制 FDR,为高风险动态治疗推荐提供统计安全保障。

Scalable Generation of Spatial Transcriptomics from Histology Images via Whole-Slide Flow Matching

提出 STFlow,一种基于 flow matching 的生成模型,通过建模整张切片的基因表达联合分布来显式捕获细胞间交互,并采用局部空间注意力实现高效全切片编码,在 HEST-1k 和 STImage-1K4M 上相对最优基线提升 18%。

Scalable Non-Equivariant 3D Molecule Generation via Rotational Alignment

提出 RADM (Rotationally Aligned Diffusion Model),通过学习样本相关的 SO(3) 旋转变换构建对齐的潜空间,使非等变扩散模型能够有效生成 3D 分子,在生成质量上媲美 SOTA 等变模型,同时提供更好的可扩展性和采样效率。

scSSL-Bench: Benchmarking Self-Supervised Learning for Single-Cell Data

提出 scSSL-Bench,一个系统性 benchmark,在 9 个单细胞数据集上评估 19 种自监督学习方法在批次校正、细胞类型注释和缺失模态预测三个下游任务上的表现,揭示了通用 SSL 方法与领域专用方法之间的任务特异性权衡。

SGD Jittering: A Training Strategy for Robust and Accurate Model-Based Architectures

提出 SGD jittering 训练策略,在模型迭代重建过程中逐步注入零均值高斯噪声,理论证明其同时提升模型鲁棒性和泛化精度,且无需对抗训练的高计算开销。

SPACE: Your Genomic Profile Predictor is a Powerful DNA Foundation Model

提出 SPACE(Species-Profile Adaptive Collaborative Experts),论证监督式基因组图谱预测比无监督序列预训练能学到更有效的 DNA 表征,并通过物种感知 MoE 编码器和双门控解码器在 18 项 NT 下游任务中 11 项 SOTA。

Steering Protein Language Models

首次将LLM领域的Activation Steering技术迁移到蛋白质语言模型(PLM),通过在推理时编辑模型内部激活来引导蛋白质序列生成和优化朝向目标属性(如热稳定性、溶解度),完全无需重新训练,并提出基于steering vector相异度的突变位点识别算法(ASPO),在溶菌酶和GFP优化任务上大幅超越传统方法。

Supercharging Graph Transformers with Advective Diffusion

提出 Advective Diffusion Transformer(AdvDIFFormer),一种物理启发的图Transformer模型,通过结合非局部扩散(全局注意力)和对流(局部消息传递)两种机制,在拓扑分布偏移下具有可证明的泛化误差控制能力,优于仅依赖局部扩散的GNN。

The Brain's Bitter Lesson: Scaling Speech Decoding With Self-Supervised Learning

开发神经科学启发的自监督 pretext 任务和异构脑信号处理架构,将 MEG 语音解码扩展至约 400 小时/900 名被试,超越 SOTA 15-27%,首次以非侵入式数据匹配手术级解码性能,并展现跨数据集、跨被试、跨任务的泛化能力。

The Disparate Benefits of Deep Ensembles

本文系统研究了深度集成(Deep Ensembles)对算法公平性的影响,发现集成会不均匀地提升不同群体的性能(disparate benefits effect),导致公平性下降,并证明Hardt后处理方法能有效缓解该问题同时保留集成的性能增益。

The Four Color Theorem for Cell Instance Segmentation

将四色定理引入细胞实例分割,将每个细胞视为"国家"、背景为"海洋",用仅 4 类语义分割替代实例分割,并设计渐进训练策略和编码变换方法解决四色编码的非唯一性问题,在多种成像模式上达到 SOTA 性能同时大幅降低模型复杂度。

Training Flexible Models of Genetic Variant Effects from Functional Annotations using Accelerated Linear Algebra

DeepWAS利用LD矩阵的带状近似做mini-batch训练 + Woodbury恒等式重参数化使矩阵良条件化 + 迭代线性代数算法(CG+SLQ)GPU加速,首次实现在百万变异规模上用大规模神经网络(5200万参数Transformer)优化完整边际似然来预测基因变异效应,核心发现是更大模型仅在全似然训练下才带来提升而在摘要统计量训练下反而退步。

Training Flexible Models of Genetic Variant Effects from Functional Annotations using Accelerated Linear Algebra

本文提出 DeepWAS(Deep genome Wide Association Studies),利用现代快速线性代数技术(带状矩阵近似 + 迭代求解)解决 GWAS 中大规模 LD 矩阵求逆的计算瓶颈,首次实现用大规模神经网络最大化全似然来训练功能注释驱动的遗传变异效应预测模型,且发现只有在全似然训练下(而非传统 summary statistics 拟合)更大的模型才能带来更好的性能。

UniMoMo: Unified Generative Modeling of 3D Molecules for De Novo Binder Design

提出 UniMoMo,首个统一小分子、肽和抗体三类分子的 3D binder 设计框架,使用“块图”作为统一表示、迭代全原子自编码器压缩潜空间、E(3)-等变扩散模型生成,在三个基准上超越领域特定模型。

UniSim: A Unified Simulator for Time-Coarsened Dynamics of Biomolecules

UniSim 是首个面向跨域(小分子/肽链/蛋白质)全原子时间粗化分子动力学的深度生成模型,通过三阶段管线——多头预训练统一原子表示、随机插值向量场模型学习长时间步状态推进、力引导核参数高效适配不同化学环境——实现跨分子域的可迁移动力学模拟。

Weisfeiler and Leman Go Gambling: Why Expressive Lottery Tickets Win

首次从理论上将 GNN 的表达力(Weisfeiler-Leman 测试)与彩票假说(LTH)联系起来,提出并证明了强表达力彩票假说(SELTH),证明稀疏初始化的 GNN 中存在保持 1-WL 表达力的可训练子网络,且表达力更强的稀疏初始化更可能成为"中奖彩票",同时展示了不当剪枝导致的不可恢复表达力损失在药物发现等场景中的严重后果。


🛡️ AI安全

A Certified Unlearning Approach without Access to Source Data

提出首个无需访问原始训练数据的认证遗忘框架,利用代理数据集(surrogate dataset)近似原始数据统计特性,通过基于源分布与代理分布之间统计距离的噪声缩放机制,实现可证明的数据删除保证。

Accelerating Spectral Clustering under Fairness Constraints

将公平谱聚类(Fair SC)问题转化为凸差分(DC)优化框架,通过变量增广策略和 ADMM 类型算法,避免了昂贵的特征分解计算,在大规模问题上实现显著加速。

Activation Space Interventions Can Be Transferred Between Large Language Models

本文证明了 LLM 之间存在共享的激活空间结构,通过训练自编码器(autoencoder)学习模型间的激活映射,可以将安全干预(如后门移除、有害拒绝转向向量)从源模型迁移到目标模型,实现"小模型对齐大模型"的高效安全干预范式。

Adversarial Inception Backdoor Attacks against Reinforcement Learning

提出"inception"后门攻击框架——通过在 RL 智能体的训练轨迹中插入触发器并将高回报动作替换为目标对抗动作,首次在严格奖励约束下实现 100% 攻击成功率,同时保持智能体在正常任务上的表现。

Align-then-Unlearn: Embedding Alignment for LLM Unlearning

提出 Align-then-Unlearn 框架,通过在语义嵌入空间(而非 token 级别)执行遗忘操作,先训练嵌入预测模块对齐未来语义表示,再微调 LLM 使预测嵌入远离目标概念嵌入,实现对 prompt 改写鲁棒的概念级知识遗忘。

An Attack to Break Permutation-Based Private Third-Party Inference Schemes for LLMs

提出一种基于词汇表逐token匹配的攻击方法,利用decoder-only LLM隐藏状态的非碰撞特性,可以从三种类型的置换隐藏状态中近乎完美恢复原始输入token,打破PermLLM、STIP、Centaur三种隐私推理方案的安全声明。

An Efficient Private GPT Never Autoregressively Decodes

提出 POST(Public decOding and Secure verificaTion)方法,利用公开 GPT 模型生成草稿 token 并通过私有模型安全验证,借助安全解码对输入长度不敏感的特性,实现 2.1×~6.0× 的隐私推理加速,同时保持与标准安全解码相同的隐私和生成质量。

Breaking the n^{1.5} Additive Error Barrier for Private and Efficient Graph Sparsification

本文突破了差分隐私图割稀疏化的 \(n^{1.5}\) 加性误差壁垒,提出了一种多项式时间的 \((\varepsilon,\delta)\)-DP 算法,将加性误差降至 \(n^{1.25+o(1)}\),核心技术是首个隐私保护的 expander decomposition 算法。

Can One Safety Loop Guard Them All? Agentic Guard Rails for Federated Computing

提出 Guardian-FC——首个后端无关的联邦计算统一安全框架,通过 Agentic-AI 控制平面的有限状态安全循环(Sense→Predict→Act→Prove)统一监管 FHE、DP、MPC 等异构隐私机制,实现一套 guard-rail 逻辑跨所有隐私后端的一致性安全执行。

Cape: Context-Aware Prompt Perturbation Mechanism with Differential Privacy

提出 Cape——一种上下文感知的 prompt 扰动机制,通过混合效用函数(结合 token 嵌入距离和上下文 logit)以及分桶指数采样机制,在 local DP 保证下实现比现有方法更优的隐私-效用权衡。

Cascade: Token-Sharded Private LLM Inference

提出 Cascade——一种基于 token 维度分片的多方推理协议,通过将隐藏状态按 token 维度分发给不同计算节点,避免密码学原语的高昂开销,在保持抵抗 vocab-matching 攻击能力的同时实现比 SMPC 方案快 100× 的推理速度。

Clients Collaborate: Flexible Differentially Private Federated Learning with Guaranteed Improvement of Utility-Privacy Trade-off

提出 FedCEO 框架,通过在服务器端对堆叠的客户端模型参数进行张量低秩近端优化,利用不同客户端间的语义互补性恢复 DP 噪声破坏的语义信息,将效用-隐私权衡界改进了 \(O(\sqrt{d})\) 量级。

Collaborative Mean Estimation Among Heterogeneous Strategic Agents: Individual Rationality, Fairness, and Truthful Contribution

针对异构成本的多智能体协作均值估计问题,设计了同时满足个体理性(IR)、激励相容(IC)和公平性的无货币机制,在最坏情况下实现 \(\mathcal{O}(\sqrt{m})\) 近似比,并证明了三条不可能性结果。

Connecting Thompson Sampling and UCB: Towards More Efficient Trade-offs Between Privacy and Regret

本文提出 DP-TS-UCB 算法,通过限制每轮高斯采样次数并在采样预算耗尽后切换为 UCB 式探索,实现了隐私与遗憾的参数化权衡,将 GDP 保证从 \(O(\sqrt{T})\) 大幅改善至 \(\tilde{O}(T^{0.25(1-\alpha)})\),同时保持近最优的遗憾界。

Connecting Thompson Sampling and UCB: Towards More Efficient Trade-offs Between Privacy and Regret

提出 DP-TS-UCB 算法,通过限制高斯采样次数并复用最大模型值,在 Thompson Sampling 和 UCB 之间建立连接,实现 \(\tilde{O}(T^{0.25(1-\alpha)})\)-GDP 隐私保证和 \(O(K\ln^{\alpha+1}(T)/\Delta)\) 遗憾上界的参数化权衡。

Convex Markov Games: A New Frontier for Multi-Agent Reinforcement Learning

提出凸 Markov 博弈 (cMG) 框架,将单 agent 凸 MDP 推广到多 agent 设定,允许对占用度量 (occupancy measure) 施加一般凸偏好(如熵、KL 散度、公平性惩罚、安全约束),证明纯策略 Nash 均衡存在,并设计可微的投影梯度损失 (PGL) 算法逼近均衡。

CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization

提出 CROW(Internal Consistency Regularization),通过对抗扰动 + 层间隐藏状态一致性正则化来消除 LLM 中的后门,仅需 100 条干净样本、单卡 4 分钟微调即可将攻击成功率降至 5% 以下,且不需要干净参考模型或触发器先验知识。

De-AntiFake: Rethinking the Protective Perturbations Against Voice Cloning Attacks

本文首次系统评估了基于保护性扰动的语音克隆(Voice Cloning)防御方法在面对对抗净化时的脆弱性,并提出了一种两阶段的"净化-精炼"(Purification-Refinement)框架 PhonePuRe,利用音素引导的扩散模型有效消除保护性扰动,使语音克隆模型能够重新准确复制说话人特征,揭示了现有防御方案的根本局限性。

De-mark: Watermark Removal in Large Language Models

提出De-mark框架,通过随机选择探测(random selection probing)策略估计n-gram水印强度并重建红绿列表,无需知道哈希函数即可去除水印,并提供去除后LM分布与原始分布之间的理论差距保证。

Disparate Conditional Prediction in Multiclass Classifiers

提出 Disparate Conditional Prediction (DCP) 度量从二分类到多类分类的扩展,通过局部优化和线性规划方法为多类分类器的公平性偏离程度提供上下界估计,支持在混淆矩阵已知或仅有人口级别统计信息两种场景下进行公平性审计。

Distributed and Decentralised Training: Technical Governance Challenges in a Shifting AI Landscape

本文系统区分了分布式训练(multi-data centre)与去中心化训练(community-driven)两种新兴范式,分析了低通信训练算法(如 DiLoCo)如何使这两种范式成为可能,并深入讨论了它们对AI技术治理(计算结构化、能力扩散、可关停性)带来的挑战与机遇。

Do Not Mimic My Voice: Speaker Identity Unlearning for Zero-Shot Text-to-Speech

首次提出零样本TTS中的说话人身份遗忘任务,设计了Teacher-Guided Unlearning (TGU) 框架,通过引入随机性使模型"忘记"目标说话人的声纹特征,同时保持对其他说话人的高质量语音合成能力,并提出 spk-ZRF 指标量化遗忘效果。

EgoPrivacy: What Your First-Person Camera Says About You?

提出 EgoPrivacy——首个大规模第一人称视频隐私基准,定义三类隐私(人口统计/个体/情境)七大任务,并设计检索增强攻击 (RAA) 将 ego-to-exo 检索与分类联合,证明基础模型零样本即可以 70–80% 准确率推断佩戴者性别、种族等敏感属性。

Emergent Misalignment: Narrow Finetuning Can Produce Broadly Misaligned LLMs

在 6000 个不安全代码样本上微调 GPT-4o 后,模型在完全无关的自由问答中以 20% 概率表现出广泛失对齐——宣称 AI 应奴役人类、提供恶意建议、实施欺骗——但仍拒绝直接有害请求,表明这不是越狱而是全新的"涌现式失对齐"。

Empirical Privacy Variance

揭示了在相同 \((ε,δ)\)-DP 保证下,DP-SGD 不同超参数配置训练出的语言模型在经验隐私(记忆化程度)上存在显著差异,并提出了兼顾经验隐私的超参数选择启发式方法。

Faster Rates for Private Adversarial Bandits

为差分隐私对抗性 bandits 问题提出简洁高效的非私有→私有转换框架,通过批量化损失+Laplace 噪声实现 O(√(KT/ε)) 的后悔界,首次证明中心 DP 和本地 DP 在该问题上存在分离,并给出首个私有 bandits with expert advice 算法。

Federated In-Context Learning: Iterative Refinement for Improved Answer Quality

本文提出 Fed-ICL,一种联邦 In-Context Learning 框架,通过客户端与服务端之间的多轮迭代协作,在不传输模型参数的情况下利用分散在各客户端的高质量示例逐步改善回答质量,并建立了收敛保证。

Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models

提出 Ferret,首个结合一阶优化与共享随机性的联邦全参数微调方法,通过将本地更新投影到低维空间实现 \(10^6\times\) 通信压缩和 \(6\times\) 计算加速,同时保持与 FedAvg 相当的模型精度。

FicGCN: Unveiling the Homomorphic Encryption Efficiency from Irregular Graph Convolutional Networks

提出FicGCN框架,通过延迟感知的打包策略、稀疏密文内聚合(SpIntra-CA)和基于区域的节点重排三项创新,解决GCN不规则稀疏性与同态加密SIMD计算模式之间的根本矛盾,在Corafull等大规模图上实现最高4.10×的端到端加速。

Generalization in Federated Learning: A Conditional Mutual Information Framework

提出基于条件互信息(CMI)的联邦学习泛化分析框架,首次统一刻画了参与差距和样本外差距两个层级的泛化误差,并揭示了差分隐私与泛化之间的内在联系。

ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks

首次提出"双重学习假说"揭示 ICL 后门攻击的理论机制,并设计 ICLShield 防御方法,通过动态添加高置信度和高相似度的干净示例来调节概念偏好比,平均降低攻击成功率 26.02%。

Identifying and Understanding Cross-Class Features in Adversarial Training

从类别级特征归因的角度揭示对抗训练(AT)中的"跨类特征"如何先被学习后被遗忘,统一解释了鲁棒过拟合和软标签训练优势两大现象。

Improving the Variance of Differentially Private Randomized Experiments through Clustering

提出 Cluster-DP 机制,利用非敏感的聚类结构信息改善差分隐私随机实验中因果效应估计的隐私-方差权衡,在不牺牲隐私保证的前提下,通过更同质的聚类结构显著降低 ATE 估计的方差损失。

Improving Your Model Ranking on Chatbot Arena by Vote Rigging

论文揭示 Chatbot Arena 的众包投票机制可被恶意操纵:提出 target-only 和 omnipresent 两类投票操纵策略,其中 omnipresent 策略利用 Bradley-Terry 评分系统的全局耦合特性,仅需操纵数百票即可将目标模型排名提升 15 位,凸显当前 LLM 评估平台的安全脆弱性。

Invariance Makes LLM Unlearning Resilient Even to Unanticipated Downstream Fine-Tuning

将不变风险最小化(IRM)引入 LLM 遗忘框架,提出 ILU 正则化方法,使被遗忘的知识在后续下游微调中不会被恢复,仅用单个无关微调数据集即可泛化到多个未知下游任务。

Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs

提出不确定性感知的公平性指标 UCerF 和大规模合成数据集 SynthBias,通过联合考虑模型预测正确性与置信度来更细粒度地评估 LLM 的性别-职业偏见。

Learning Safety Constraints for Large Language Models

论文提出 SaP(Safety Polytope):在 LLM 表征空间中学习一个“安全多面体”,并在推理时把不安全生成轨迹几何地拉回安全区域,以在不改模型权重的前提下实现可解释的安全约束。

On Differential Privacy for Adaptively Solving Search Problems via Sketching

首次将差分隐私技术从数值估计问题扩展到搜索问题(需要返回解向量而非单一数值),提出在温和的稀疏近邻假设下用 \(\tilde{O}(\sqrt{T} \cdot s)\) 份数据结构副本即可正确回答 \(T\) 个自适应近似近邻查询的算法,同时给出依赖条件数的自适应回归数据结构。

On Differential Privacy for Adaptively Solving Search Problems via Sketching

首次将差分隐私技术拓展到搜索问题(近似最近邻查询和回归解向量输出),在稀疏邻域假设和良好条件数假设下,实现仅需 \(\widetilde{O}(\sqrt{T})\) 份数据结构副本即可应对 \(T\) 次自适应查询的搜索型数据结构。

Privacy-Shielded Image Compression: Defending Against Exploitation from Vision-Language Pretrained Models

提出了 Privacy-Shielded Image Compression (PSIC),通过在学习图像压缩解码阶段注入条件触发偏置,实现一条码流的双模式解码——默认模式保留视觉感知质量但屏蔽 VLP 模型的语义理解,授权模式则完整恢复图像语义,从而在压缩阶段为用户提供即插即用的隐私保护能力。

Private Model Personalization Revisited

提出 Private FedRep 算法,在用户级差分隐私 (DP) 约束下通过交替最小化框架学习共享低维嵌入 \(U^* \in \mathbb{R}^{d \times k}\)\(k \ll d\)),将隐私误差项相比先前工作 Jain et al. 降低 \(\widetilde{O}(dk)\) 倍,且适用于更广泛的 sub-Gaussian 分布(而非仅限高斯),并通过 Johnson-Lindenstrauss 变换给出维度无关的分类风险界。

Quadratic Upper Bound for Boosting Robustness

利用交叉熵损失关于 logit 的凸性,推导出对抗训练损失的二次上界 (QUB),作为即插即用的损失函数替换应用于现有快速对抗训练方法,显著提升鲁棒性。

Relative Error Fair Clustering in the Weak-Strong Oracle Model

提出首个在弱强预言机模型下实现 \((1+\varepsilon)\) 逼近的公平 \(k\)-median 聚类算法,仅需 \(\text{poly}(k \log n / \varepsilon)\) 次昂贵的强预言机查询,相比此前大于 10 的常数因子逼近有根本性提升。

Rethinking the Bias of Foundation Model under Long-tailed Distribution

揭示基础模型微调在长尾任务上受"参数不平衡"(预训练数据偏差)和"数据不平衡"(下游数据偏差)的双重影响,发现参数不平衡更关键且无法被现有 logit 调整方法解决,提出基于因果后门调整的方法消除不完整语义因子的混杂效应,在三个长尾基准上平均提升约 1.67%。

Retraining with Predicted Hard Labels Provably Increases Model Accuracy

在噪声标签下,用模型自身预测的硬标签(0/1标签)对训练集重新标注并重训练,可以理论上可证明地提升模型准确率;进一步提出 consensus-based retraining(仅对预测标签与给定标签一致的样本重训练),在 label DP 场景下无额外隐私代价即可大幅提升性能。

Retraining with Predicted Hard Labels Provably Increases Model Accuracy

在噪声标签场景下,用模型自身预测的硬标签(0/1)对训练集重新标注并重训练,可以可证明地提升分类精度;进一步提出共识筛选策略(仅对预测标签与给定标签一致的样本重训练),在标签差分隐私训练中无额外隐私代价即可大幅提升性能。

Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks

提出 SIRA(Self-Information Rewrite Attack),利用自信息识别水印嵌入的高熵 token 并进行定向替换,在 7 种主流水印方法上实现近 100% 攻击成功率,成本仅 $0.88/百万 token,且完全黑盒、可迁移至任意 LLM 甚至移动端模型。

Robust Multi-bit Text Watermark with LLM-based Paraphrasers

提出基于LLM释义器(paraphraser)的多比特文本水印方法,通过共训练一对行为差异化的释义器和一个解码分类器,利用PPO强化学习优化编码-解码对,在1.1B小模型上实现>99.99% AUC的检测精度,同时保持文本语义不变。

SecEmb: Sparsity-Aware Secure Federated Learning of On-Device Recommender System with Large Embedding

提出 SecEmb,一种利用嵌入更新稀疏性的无损安全联邦推荐协议,通过函数秘密共享(FSS)在保护用户评分物品索引和梯度隐私的同时,将上传/下载通信开销降低最高 90 倍、用户端计算时间降低最高 70 倍。

Solving Probabilistic Verification Problems of Neural Networks Using Branch and Bound

本文提出一种基于分支定界(Branch and Bound)的神经网络概率验证算法,通过迭代精化输出概率的上下界来回答"给定输入分布下,网络输出满足特定条件的概率是多少",速度比已有方法快一到两个数量级。

Sorbet: A Neuromorphic Hardware-Compatible Transformer-Based Spiking Language Model

提出 Sorbet,首个完全兼容神经形态硬件的 Transformer 脉冲语言模型,通过两项关键创新——基于位移的 PTsoftmax 和 Bit Shifting PowerNorm (BSPN)——替代传统的 softmax 和层归一化,在 GLUE 基准上实现与 BERT 可比的性能,同时节省 27.16 倍能耗。

The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text

本文设计了针对 LLM 生成的合成数据的成员推断攻击(MIA),揭示合成数据会泄露训练数据信息;进一步发现针对模型的金丝雀(canary)在合成数据发布场景下效果不佳,提出利用自回归模型特性设计的新型金丝雀——拥有同分布前缀和高困惑度后缀,能在合成数据中留下可检测的痕迹,显著提升隐私审计能力。

The Ripple Effect: On Unforeseen Complications of Backdoor Attacks

首次系统量化了后门预训练语言模型在无关下游任务上的"并发症"现象——后门触发词会使下游模型的输出分布严重偏斜(甚至99%集中到单一类别),并提出基于多任务学习的无需下游任务知识的缓解方法。

Theoretically Unmasking Inference Attacks Against LDP-Protected Client Data in Federated Vision Models

本文为联邦学习中恶意服务器的主动成员推断攻击(AMI)提供了首个理论分析框架,推导出即使在 LDP 保护下攻击成功率的下界和上界,揭示 LDP 保护强度与模型效用之间的根本矛盾。

Theoretically Unmasking Inference Attacks Against LDP-Protected Clients in Federated Vision Models

首次为联邦学习中基于全连接层和自注意力层的主动成员推断攻击(AMI)LDP保护下推导出理论成功率的上下界,揭示即使在LDP保护下,隐恓风险仍依赖于隐私预算 \(\varepsilon\),且要有效缓解攻击所需的噪声会严重损害模型效用。

Towards Trustworthy Federated Learning with Untrusted Participants

提出 CafCor 算法,通过参与者间的共享随机性实现关联噪声注入,结合新型鲁棒聚合方法 CAF,在不信任服务器、存在恶意参与者的联邦学习场景下,实现接近中心化 DP 的隐私-效用权衡。

TuCo: Measuring the Contribution of Fine-Tuning to Individual Responses of LLMs

提出 Tuning Contribution (TuCo) 指标,通过将微调后 LLM 的前向传播精确分解为预训练分量 (PTC) 和微调分量 (FTC),首次实现在推理时逐 prompt 量化微调对模型输出的贡献,并揭示越狱攻击通过削弱 FTC 幅度来绕过安全防护。

Understanding Model Ensemble in Transferable Adversarial Attack

首次为模型集成对抗攻击建立理论框架,定义 transferability error 并将其分解为脆弱性(vulnerability)与多样性(diversity),再利用信息论工具给出上界,从理论上验证了"更多模型+更高多样性+更低复杂度"三条实践指南。

Watch Out Your Album! On the Inadvertent Privacy Memorization in Multi-Modal Large Language Models

揭示多模态大语言模型(MLLM)在微调过程中会不经意地记忆与训练任务完全无关的私密内容(如随机水印),这种记忆源于 mini-batch 内的虚假相关性,并提出基于层级探针的检测框架证明模型内部表示已编码此类信息,即使模型输出不直接显示。

X-Transfer Attacks: Towards Super Transferable Adversarial Attacks on CLIP

提出 X-Transfer 攻击方法,通过高效的代理模型缩放策略(基于多臂老虎机的动态选择),生成具有"超级迁移性"的通用对抗扰动(UAP),单一扰动可同时跨数据、跨领域、跨模型、跨任务攻击各种 CLIP 编码器和下游 VLM。


📐 优化/理论

A Generalization Result for Convergence in Learning-to-Optimize

提出一个概率框架,将 PAC-Bayesian 泛化理论与变分分析中的 Kurdyka-Łojasiewicz (KL) 收敛定理相结合,首次在不限制学习算法设计的前提下,以高概率证明了学习型优化算法收敛到临界点。

A Near-Optimal Single-Loop Stochastic Algorithm for Convex Finite-Sum Coupled Compositional Optimization

本文提出 ALEXR 算法——一种高效的单循环原始-对偶块坐标随机算法,用于求解凸有限和耦合复合优化(cFCCO)问题,在光滑和非光滑条件下均达到近最优收敛速率,并通过推导下界证明了算法的最优性。

A Unified View on Learning Unnormalized Distributions via Noise-Contrastive Estimation

以f-NCE为基础提出alpha-CentNCE和f-CondNCE两个估计器家族,统一了MLE、MC-MLE、GlobalGISO、pseudo-likelihood、ISO等学习非归一化分布的方法,纠正了CondNCE与score matching的误导性联系,并为有界指数族首次建立有限样本收敛保证。

Adjustment for Confounding using Pre-Trained Representations

本文研究如何利用预训练神经网络的隐表示来调整非表格数据(如图像、文本)中的混杂因素,形式化了表示充分性条件,证明了稀疏性/可加性假设在可逆线性变换(ILT)下不成立,并基于低内在维度和层次组合模型建立了深度网络的收敛速率理论,从而保证 DML 框架下 ATE 估计的有效推断。

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

提出 AdvPrompter——用一个 LLM(AdvPrompter)在秒级速度内为目标 LLM 生成人类可读的对抗提示后缀,通过交替优化算法训练,在 AdvBench 和 HarmBench 上实现高攻击成功率,且可迁移到闭源黑盒 LLM,同时展示了用生成的对抗后缀进行对抗训练以增强目标 LLM 鲁棒性的策略。

Autoformulation of Mathematical Optimization Models Using LLMs

本文提出一种利用大语言模型结合蒙特卡洛树搜索(MCTS)自动将自然语言描述的优化问题转化为可求解器求解的数学规划模型的方法,通过符号剪枝和 LLM 价值评估显著提升了搜索效率。

Benefits of Early Stopping in Gradient Descent for Overparameterized Logistic Regression

在过参数化逻辑回归中,理论证明了早停梯度下降(early-stopped GD)相比渐近 GD 具有统计优势:早停 GD 是校准且一致的,而渐近 GD 的 logistic risk 趋于无穷且校准误差不消失;同时建立了早停与 \(\ell_2\) 正则化之间的定量联系。

Beyond Self-Repellent Kernels: History-Driven Target Towards Efficient Nonlinear MCMC on General Graphs

提出 History-Driven Target (HDT) 框架,通过修改目标分布(而非转移核)将自排斥机制嵌入任意 MCMC 采样器,在保持 O(1/α) 方差缩减的同时解决了 SRRW 的计算开销大、仅限可逆链、内存占用高三大问题。

Can Transformers Learn Full Bayesian Inference In Context?

证明 Transformer 可以在上下文中执行完整的贝叶斯推断——通过在合成数据上预训练一个编码器-解码器架构(TabPFN 编码器 + 扩散 Transformer 解码器),模型在部署时无需参数更新即可为 GLM、混合高斯模型等统计模型生成与 HMC 质量媲美的后验样本。

Clipping Improves Adam-Norm and AdaGrad-Norm when the Noise Is Heavy-Tailed

证明了 AdaGrad/Adam 在重尾噪声下的高概率收敛可能很差(依赖置信水平的多项式),并证明梯度裁剪可以修复这个问题——Clip-AdaGrad-Norm 和 Clip-Adam-Norm 在重尾噪声下实现了对置信水平的对数多项式依赖的高概率收敛界,扩展到延迟步长版本。

Compelling ReLU Networks to Exhibit Exponentially Many Linear Regions at Initialization and During Training

提出一种基于非对称三角波的 ReLU 网络重参数化方法,使深度为 \(d\) 的 4 神经元宽网络在初始化时即产生 \(2^d\) 个线性区域,并在预训练中保持该指数级表达能力,在一维函数逼近任务上将误差降低了 3 个数量级

Constant Stepsize Local GD for Logistic Regression: Acceleration by Instability

证明了 Local GD 在分布式逻辑回归问题上可以使用任意正步长 \(\eta > 0\) 收敛,且通过允许初始不稳定阶段的非单调目标下降,可实现比现有凸优化最坏情况下界更快的 \(\widetilde{\mathcal{O}}(M/(\gamma^5 R^2))\) 收敛速率。

Efficient Curvature-Aware Hypergradient Approximation for Bilevel Optimization

提出 NBO 框架,利用双层优化中超梯度的内在结构(下层问题求解与 Hessian 逆向量积共享同一 Hessian),通过非精确 Newton 方法高效融合曲率信息来逼近超梯度,在确定性场景下将梯度计算复杂度相比 SOTA 改善了 \(\kappa \log \kappa\) 倍。

Emergence in Non-Neural Models: Grokking Modular Arithmetic via Average Gradient Outer Product

本文证明 grokking(延迟泛化)现象并非神经网络或梯度下降特有,而是源于任务相关特征的逐步学习——利用非神经网络的 Recursive Feature Machines (RFM) 在核机器上复现了模算术的 grokking,揭示分块循环(block-circulant)特征矩阵是泛化的核心。

FedSWA: Improving Generalization in Federated Learning with Highly Heterogeneous Data via Momentum-Based Stochastic Controlled Weight Averaging

针对高数据异质性下 FedSAM 泛化失败的问题,提出 FedSWA(周期学习率 + EMA 聚合)和 FedMoSWA(动量方差缩减控制变量),在理论和实验上均证明优于 FedSAM 及其变体,在 CIFAR-100 Dirichlet-0.1 上比 FedSAM 高出 21.8% 准确率。

Flexible Tails for Normalizing Flows

提出 Tail Transform Flow (TTF),在 normalizing flow 的最后一层添加基于互补误差函数的非 Lipschitz 变换,将高斯尾部转换为可调权重的重尾分布,避免了使用重尾基分布导致的神经网络优化困难问题。

FSL-SAGE: Accelerating Federated Split Learning via Smashed Activation Gradient Estimation

本文提出 FSL-SAGE,一种联邦分裂学习算法,通过辅助模型估计服务端梯度反馈,在保持与 FedAvg 相当的 \(O(1/\sqrt{T})\) 收敛速率的同时,大幅降低通信开销和客户端内存需求。

GCAL: Adapting Graph Models to Evolving Domain Shifts

提出 Graph Continual Adaptive Learning (GCAL),通过"适应+生成记忆"双层优化策略,在图模型面对持续演变的 OOD 图序列时,利用信息最大化进行无监督域适应,同时基于信息瓶颈理论设计变分记忆图生成模块来压缩历史图知识,有效缓解灾难性遗忘。

Generalization and Robustness of the Tilted Empirical Risk

本文为负倾斜参数(γ<0)下的 Tilted Empirical Risk (TER) 提供了系统性的泛化误差上下界和鲁棒性保证,在损失函数无界但具有有界 (1+ε) 阶矩条件下,通过均匀方法和信息论方法建立了 \(O(n^{-\epsilon/(1+\epsilon)})\) 的收敛速率,并给出了数据驱动的倾斜参数选择方案。

Global Convergence and Rich Feature Learning in \(L\)-Layer Infinite-Width Neural Networks under \(\mu\)P Parametrization

证明了在 \(\mu\)P (Maximal Update Parametrization) 下,\(L\) 层无限宽 MLP 用 SGD 训练时,各层特征在整个训练过程中保持线性独立且发生实质性演化,从而保证训练收敛点必为全局最小值——首次同时解决"丰富特征学习"和"全局收敛"两个理论目标。

Grokking at the Edge of Linear Separability

在最简单的逻辑回归二分类任务中揭示了 grokking(延迟泛化)的根本原因:当数据维度与样本数之比 \(\lambda = d/N\) 接近临界点 \(\lambda_c = 1/2\) 时,训练动力学会在过拟合解附近停留任意长时间后才收敛到泛化解,类似于物理学中的"临界减速"现象。

How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias

从理论上刻画了一层 Transformer 学习 "even pairs" 和 "parity check" 两类正则语言识别任务时的两阶段训练动力学,证明了线性层在梯度下降下隐式收敛到最大间隔超平面,并揭示了 CoT 在解决 parity 问题中的关键作用。

Improved Last-Iterate Convergence of Shuffling Gradient Methods for Nonsmooth Convex Optimization

首次证明 Random Reshuffle(RR)和 Single Shuffle(SS)在非光滑(强)凸有限和优化中的 last-iterate 收敛率严格优于 Proximal GD,RR 达到 \(\tilde{O}(GD_\star / (n^{1/4}\sqrt{K}))\),近似匹配下界 \(\Omega(1/(n^{1/4}\sqrt{K}))\)

Improved Sample Complexity for Private Nonsmooth Nonconvex Optimization

在差分隐私约束下研究非光滑非凸(NSNC)随机优化,通过改进梯度估计器的有效灵敏度,将已知最优样本复杂度降低了 \(\Omega(\sqrt{d})\) 倍,并首次证明 Goldstein 稳定性可从经验损失泛化到总体损失。

In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention

本文通过理论分析和大量实验揭示了多头 softmax attention 在线性回归 ICL 任务上训练后涌现出优雅的注意力模式(KQ 对角均匀、OV 仅关注最后一项且零和),进而证明这些结构使模型近似实现了去偏梯度下降预测器,接近贝叶斯最优。

Incremental Gradient Descent with Small Epoch Counts is Surprisingly Slow on Ill-Conditioned Problems

系统研究了增量梯度下降(IGD)在小 epoch 体制(\(K \lesssim \kappa\))下的收敛行为,证明 IGD 在此体制下比有放回 SGD 慢至少 \(n\) 倍,且当分量函数非凸时收敛速度急剧恶化至指数级慢。

Integer Programming for Generalized Causal Bootstrap Designs

提出基于整数规划(IP)数值求解最不利 copula 的方法,将因果 bootstrap 的设计不确定性量化从"完全随机化 + 均值差估计量"推广到任意已知概率分配与线性/二次处理估计量,并证明渐近有效性。

Interior-Point Vanishing Problem in Semidefinite Relaxations for Neural Network Verification

本文首次识别了SDP松弛用于深度神经网络验证时的"内点消失"(interior-point vanishing)问题——随着网络深度增加,SDP问题丧失严格可行性导致数值不稳定和求解失败——并提出五种缓解方法,其中B-Remove(移除层边界约束)最有效,解决了88%原本无法求解的问题。

Layer-wise Quantization for Quantized Optimistic Dual Averaging

通过层级量化(为不同层分配不同量化方案)和乐观对偶平均算法(QODA),在单调变分不等式上达到竞争性收敛率,在WGAN分布式训练中实现150%端到端加速。

Learning Mixtures of Experts with EM: A Mirror Descent Perspective

本文从镜像下降的视角严格分析了 EM 算法训练混合专家(MoE)模型的收敛性,证明 EM 等价于以 KL 散度为正则项的投影镜像下降,并给出了局部线性收敛的条件,在合成数据和真实数据上验证 EM 优于梯度下降。

Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge

提出 EvalPlanner,通过将 LLM-as-a-Judge 的推理过程解耦为"评估计划生成"和"计划执行"两个阶段,并在自训练循环中用 DPO 迭代优化计划与执行的偏好对,在 RewardBench 上以仅 22K 合成偏好对达到 93.9 的生成式奖励模型新 SOTA。

MetaAgent: Automatically Constructing Multi-Agent Systems Based on Finite State Machines

提出 MetaAgent,一个基于有限状态机(FSM)的框架,给定任务描述即可自动设计多智能体系统,无需外部训练数据,支持工具调用和状态回溯,在文本任务、ML 任务和软件开发任务上超越现有自动设计方法并逼近人工设计系统性能。

Nearly Optimal Sample Complexity for Learning with Label Proportions

本文研究从标签比例学习(LLP)的样本复杂度,在平方损失下给出了近最优的样本复杂度上下界,并设计了基于 ERM 和 SGD 的算法,在关于 bag size 的依赖关系上显著改进了现有结果。

Nonparametric Teaching for Graph Property Learners

提出 GraNT 范式,将非参数教学理论拓展到图属性学习场景,通过贪心选择"预测偏差最大"的图样本子集来加速 GCN 训练,在保持泛化性能的同时将训练时间缩减 30%–47%。

On Understanding Attention-Based In-Context Learning for Categorical Data

将 Transformer 的 in-context learning (ICL) 从实值输出推广到分类数据(categorical outcomes),证明一种交替使用 self-attention 和 cross-attention 的架构可以精确实现多步函数梯度下降(functional GD),并在理论上证明该 GD 参数构型是注意力模型损失函数的驻点。

Optimization over Sparse Support-Preserving Sets: Two-Step Projection with Global Optimality Guarantees

针对带有额外支撑保持约束的稀疏优化问题,提出两步投影IHT算法(先硬阈值再投影凸集),在RSC/RSS条件下给出全局目标值保证(无系统误差),揭示稀疏度松弛与次优性间的新trade-off。

POPri: Private Federated Learning using Preference-Optimized Synthetic Data

将差分隐私联邦学习中的合成数据生成问题重新建模为 LLM 策略优化(DPO)问题,利用客户端 DP 反馈构建偏好对来微调 LLM,比传统 Private Evolution 提升更大——在 ε=1 下将隐私-性能差距缩小 58%。

Provable Benefit of Random Permutations over Uniform Sampling in Stochastic Coordinate Descent

本文首次理论证明了在正定二次函数的坐标下降中,随机排列坐标下降(RPCD)的收缩率严格优于均匀随机坐标下降(RCD),从而解决了一个长期悬而未决的理论问题。

Provable In-Context Vector Arithmetic via Retrieving Task Concepts

本文从优化理论角度证明:带残差连接和层归一化的非线性 Transformer 经梯度下降在 QA 数据上训练后,能通过向量加法(task vector + query)完成事实召回型 ICL 任务,且在 ICL 数据上训练反而会导致低层特征的有害记忆。

Quantum Optimization via Gradient-Based Hamiltonian Descent

将梯度信息融入量子哈密顿下降 (QHD) 框架,提出 gradient-based QHD,在凸和非凸优化中均实现了比原始 QHD 及经典方法(NAG、SGDM)快至少一个数量级的收敛速度和更高的全局最优命中概率。

Random Feature Representation Boosting

提出 RFRBoost,利用梯度表示提升(gradient representation boosting)理论构建深层残差随机特征神经网络,在 MSE 损失下获得封闭解,在一般损失下化归为二次约束最小二乘问题,在表格数据上显著超越单层 RFNN 与端到端训练的 MLP ResNet。

Revisiting Unbiased Implicit Variational Inference

重新审视被认为"不实用"的无偏隐式变分推断(UIVI),用重要性采样替代其内部 MCMC 循环,并通过最小化期望前向 KL 散度无偏地学习最优提议分布,在标准 SIVI 基准上达到或超越 SOTA。

SDP-CROWN: Efficient Bound Propagation for Neural Network Verification with Tightness of Semidefinite Programming

提出 SDP-CROWN,将半定规划(SDP)松弛的紧致性融入线性界传播框架,每层仅增加一个参数 λ,便可在 ℓ₂ 扰动下将验证松弛度最多收紧 √n 倍,同时保持与 α-CROWN 同级的可扩展性。

Sparse Causal Discovery with Generative Intervention for Unsupervised Graph Domain Adaptation

提出 SLOGAN 框架,通过稀疏因果图构建与信息瓶颈解耦因果/虚假特征,结合跨域虚假特征交换的生成式干预机制和类别自适应伪标签动态校准,实现无监督图域自适应中稳定的因果特征迁移。

Statistical and Computational Guarantees of Kernel Max-Sliced Wasserstein Distances

本文为 Kernel Max-Sliced (KMS) Wasserstein 距离提供了尖锐的有限样本统计保证(无维度依赖、收敛速率 \(n^{-1/(2p)}\))和计算保证(证明精确计算是 NP-hard 后提出高效的半定松弛 SDR 及一阶算法),并在高维两样本检验、人体活动检测和生成建模上验证了优越性能。

Subspace Optimization for Large Language Models with Convergence Guarantees

本文揭示了 GaLore(子空间优化算法)在随机设定下不总是收敛,并提出了 GoLore(梯度随机低秩投影)——一种可证明收敛的变体,即使在标准 batch 大小下也能保证收敛。

Synonymous Variational Inference for Perceptual Image Compression

基于语义信息论中的同义性视角,提出同义变分推断 (SVI) 方法,从理论上证明感知图像压缩的优化方向是率-失真-感知三元权衡,并设计渐进式同义图像压缩 (SIC) 编解码器,单模型即可覆盖多码率多感知质量级别。

The Butterfly Effect: Neural Network Training Trajectories Are Highly Sensitive to Initial Conditions

通过"产卵-扰动"实验范式,系统研究神经网络训练轨迹对初始条件的敏感性,发现训练初期极微小的扰动(甚至单个权重)就能导致完全不同的收敛结果——即"蝴蝶效应",且这种不稳定性与训练噪声无关,随训练进展迅速消减。

The Panaceas for Improving Low-Rank Decomposition in Communication-Efficient Federated Learning

针对联邦学习中低秩分解的三个核心问题(分解什么、怎么分解、怎么聚合),分别提出 MUD(模型更新分解)、BKD(分块 Kronecker 分解)和 AAD(聚合感知分解)三种互补技术,在保持低通信开销的同时实现更快收敛和更高精度。

Tilted Sharpness-Aware Minimization

提出 Tilted SAM (TSAM),利用指数倾斜 (exponential tilting) 将 SAM 的 min-max 目标平滑化为对邻域内多个局部解按损失值加权的软优化,理论上更平滑、更偏好平坦极小值,实验在图像和文本任务上一致优于 SAM 及其变体。

Training Dynamics of In-Context Learning in Linear Attention

本文完整刻画了多头线性注意力在梯度流训练中获取 ICL 能力的动态过程:merged KQ 参数化呈现单次突变式 loss 下降,而 separate KQ 参数化则展现 saddle-to-saddle 逐步学习主成分回归的阶梯式训练动态。

Transformative or Conservative? Conservation Laws for ResNets and Transformers

系统推导并证明了卷积 ResNet 和 Transformer 等现代架构在梯度流训练动态下的守恒律,揭示残差连接不改变守恒律、块级守恒律等价于孤立块的守恒律,并证明离散 SGD 下守恒误差为 \(O(\text{step-size}^2)\)

Understanding Sharpness Dynamics in NN Training with a Minimalist Example: The Effects of Dataset Difficulty, Depth, Stochasticity, and More

提出用"每层单神经元的深度线性网络"作为极简模型,系统性地研究 progressive sharpening 和 edge of stability 现象,引入 dataset difficulty \(Q\) 概念并推导了 sharpness 在全局最优处的上下界,理论分析了数据规模、网络深度、batch size 和学习率对 sharpness 动态的影响机制。

Understanding the Statistical Accuracy-Communication Trade-off in Personalized Federated Learning with Minimax Guarantees

本文首次定量刻画了个性化联邦学习中个性化程度 \(\lambda\) 如何同时影响统计精度和通信效率,建立了 minimax 最优统计速率,并提出 FedCLUP 算法实现了统计-通信的最优权衡。

Widening the Network Mitigates the Impact of Data Heterogeneity on FedAvg

从 NTK 理论出发,证明 FedAvg 中数据异质性导致的模型发散上界为 \(\mathcal{O}(n^{-1/2})\)\(n\) 为网络宽度),在无穷宽极限下全局和局部模型均线性化,FedAvg 在相同迭代次数下等价于集中式梯度下降,泛化性能一致。


🧩 多模态VLM

Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging

通过将数学推理 LLM 的参数与 VLM 的文本部分直接加权平均(模型融合),在无需训练的情况下将推理能力迁移到 VLM,并发现感知能力集中在前层、推理能力集中在中后层的层级分布规律。

CoCoA-Mix: Confusion-and-Confidence-Aware Mixture Model for Context Optimization

提出 CoCoA-Mix 框架,通过混淆感知损失 (CoA-loss) 和置信度感知权重 (CoA-weights) 构建提示混合模型,在不引入额外网络参数的情况下同时提升 VLM prompt tuning 的专精性 (specialization) 和泛化性 (generalization)。

CoMemo: LVLMs Need Image Context with Image Memory

提出CoMemo双路径架构——Context路径将图像token拼入文本做自回归、Memory路径用交叉注意力做图像持久记忆,结合RoPE-DHR位置编码保持2D空间感知和缓解远程衰减,通过三阶段训练策略平衡双路径,在同等设置下全面超越LVLM-S和LVLM-X。

Core Knowledge Deficits in Multi-Modal Language Models

提出 CoreCognition 基准(12种核心认知能力、1503题),大规模评测230个MLLM后发现:模型在基础认知能力上系统性落后于人类,且随规模增大并未改善,而是更依赖捷径学习而非真正理解。

CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

首次揭示 VLM 中 token 稀疏与神经元稀疏之间的内在关联——核心神经元与核心 token 相互决定、相互强化,并据此提出 CoreMatching 协同稀疏推理框架,在 pre-filling 和 decoding 两阶段同时实现加速,达到 5× FLOPs 降低和 10× 整体加速。

Defending LVLMs Against Vision Attacks through Partial-Perception Supervision

提出 DPS(Defense through Partial-Perception Supervision),利用裁剪图像的响应作为"弱监督"来引导全图模型在推理时自我修正,实现无需训练的黑盒 LVLM 视觉攻击防御,平均攻击成功率降低 76.3%。

Do Vision-Language Models Really Understand Visual Language?

本文通过构建综合测试套件(含合成与真实图表)系统评估了大型视觉语言模型(LVLMs)的图表理解能力,发现模型虽可识别实体但对关系理解极为有限,其看似出色的图表推理表现实际源于利用背景知识作为捷径。

Dynamic Mixture of Curriculum LoRA Experts for Continual Multimodal Instruction Tuning

本文提出 D-MoLE 方法,通过动态层级 LoRA 专家分配器和基于梯度的跨模态持续课程策略,在参数预算约束下自动演化 MLLM 架构以持续适配新任务,相比最优基线平均提升 15%。

Efficient Quantification of Multimodal Interaction at Sample Level

提出 LSMI(Lightweight Sample-wise Multimodal Interaction)估计器,首次实现了对真实世界连续分布数据的逐样本级别多模态交互(冗余、唯一性、协同)精确且高效的量化,并展示了其在数据分区、知识蒸馏和模型集成中的实用价值。

ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics

ELEMENTAL 将视觉语言模型 (VLM) 与逆强化学习 (IRL) 融合,通过 VLM 提取特征函数 + IRL 优化权重 + 自我反思迭代改进,在 IsaacGym 9 个任务上比 EUREKA 提升 42.3%。

ERL-VLM: Enhancing Rating-Based RL to Leverage Feedback from Large VLMs

提出 ERL-VLM,用大型视觉语言模型(VLM)对单条轨迹做绝对评分(rating)而非成对比较(preference),结合分层采样和 MAE 损失解决数据不平衡与噪声标签问题,显著提升 VLM 反馈驱动的奖励函数学习效果。

Enhancing Target-unspecific Tasks through a Features Matrix

提出 Features Matrix (FM) 方法,利用多个手工 prompt 模板从冻结 CLIP 中提取通用知识构成特征矩阵,通过对齐 unexpected features 与微调视觉特征来增强模型在目标无关任务(如 base-to-novel 泛化、跨数据集泛化、域泛化)上的表现。

ExLM: Rethinking the Impact of [MASK] Tokens in Masked Language Models

本文首次系统分析了 MLM 中 [MASK] 对性能的影响,发现语义损坏(corrupted semantics)非真实token(unreal tokens)的负面作用更大,据此提出 ExLM:通过将每个 [MASK] 扩展为多个隐状态并用转移矩阵建模依赖关系,有效缓解语义多模态性问题,在文本和分子建模任务上均取得显著提升。

From Black Boxes to Transparent Minds: Evaluating and Enhancing the Theory of Mind in Multimodal Large Language Models

本文从可解释性角度评估多模态大模型(MLLM)的心智理论(ToM)能力,构建了基于 2D 网格世界的多模态 ToM 数据集 GridToM,并提出一种无需训练的注意力头激活干预方法来显著提升模型的 ToM 表现。

Graph4MM: Weaving Multimodal Learning with Structural Information

提出 Graph4MM 框架,通过 Hop-Diffused Attention 将多跳图结构信息注入自注意力机制,并设计 MM-QFormer 实现跨模态融合,在生成和判别任务上平均提升 6.93%。

Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin

提出 CAP 框架,通过概念对齐(检测并修复 concept mismatch)和混淆感知校准边距(缓解 concept confusion),解决 VLM 生成伪标签时的类别不平衡问题,在六个数据集三种范式下相对 SOTA 提升 6.29%。

Importance Corrected Neural JKO Sampling

提出 Importance Corrected Neural JKO Sampling (Neural JKO IC),将连续归一化流(CNF)的局部 JKO 步与基于重要性权重的拒绝重采样步交替使用,克服 Wasserstein 梯度流在多模态分布上的局部最优问题,同时保持独立同分布采样和密度可评估性。

Kernel-based Unsupervised Embedding Alignment for Enhanced Visual Representation in Vision-language Models

提出基于核函数的无监督嵌入对齐方法(KUEA),通过在核空间中对齐 CLIP 与 DINOv2 的视觉表示,仅用图像数据微调即可增强 CLIP 的细粒度感知能力,同时保持与文本编码器的兼容性,提升下游 MLLM 性能。

LADA: Scalable Label-Specific CLIP Adapter for Continual Learning

提出 LADA(Label-specific ADApter),通过在冻结 CLIP 图像编码器后追加轻量级的类别特定记忆向量,将所有已学任务的判别信息浓缩到统一特征空间,彻底消除推理阶段的参数选择步骤,在 X-TAIL 持续学习设定下取得 SOTA。

LAION-C: An Out-of-Distribution Benchmark for Web-Scale Vision Models

本文指出经典的 ImageNet-C 分布外鲁棒性基准对于在 LAION 等网络规模数据集上训练的模型已不再是真正的 OOD,为此设计了6种全新的高度合成化图像畸变构建 LAION-C 基准,配合19名被试的心理物理学实验,揭示了 OOD 泛化的范式转变——最优模型已追平甚至超越人类。

Learning Invariant Causal Mechanism from Vision-Language Models

通过因果分析证明 CLIP 嵌入是真实不变/可变因子的线性变换,提出 CLIP-ICM 框架利用干预数据估计线性投影矩阵,将预测限定在不变子空间中以实现跨环境一致预测。

Learning Optimal Multimodal Information Bottleneck Representations

提出 OMIB 框架,通过理论推导正则化参数 β 的上界并动态调整各模态权重 r,保证多模态信息瓶颈表示的最优性(包含全部任务相关信息、排除冗余信息)。

LEMoN: Label Error Detection using Multimodal Neighbors

本文提出 LEMoN 方法,利用对比预训练多模态模型(如 CLIP)的嵌入空间中图像-文本对的多模态邻域结构,在分类和图像描述两个场景下自动检测标签错误,在训练无关的基线中 F1 提升 3-4%,过滤后的数据可改善下游分类和描述性能。

Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

提出 MemVR 解码范式,将视觉 token 作为补充证据通过 FFN 的 key-value memory 机制重新注入到中间触发层,以"再看一次"的方式缓解 MLLM 幻觉问题,不引入额外推理开销。

M3-JEPA: Multimodal Alignment via Multi-gate MoE based on JEPA

将 JEPA(联合嵌入预测架构)推广到任意模态组合的多模态对齐中,用 Multi-gate MoE 作为跨模态预测器在潜在空间对齐(而非 token 空间),门控函数解耦模态特定和共享信息,通过交替梯度下降避免多方向任务间的梯度冲突,仅 140M 可训练参数在多个检索和分类任务上超越 BLIP-2(1.2B)等 SOTA。

MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

本文提出 MMInference,通过“模态感知的置换稀疏注意力 + 头级离线模式搜索 + 在线动态索引 + 定制 GPU Kernel”,在不改模型不微调的前提下,将长上下文 VLM 的 prefill 阶段在 1M token 场景最高加速到 8.3x,同时尽量保持任务精度。

MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding

针对多模态大语言模型中跨模态注意力不一致与逐层衰减的"注意力缺失障碍"问题,提出模块化双工注意力机制MODA,通过将注意力解耦为模态内自精炼与模态间交互两路,并借助Duplex Aligner和自适应掩码注意力实现"先对齐再校正"的策略,在21个感知、认知与情感基准上验证了有效性。

OmniBal: Towards Fast Instruction-Tuning for Vision-Language Models via Omniverse Computation Balance

针对大规模视觉语言模型 instruction-tuning 训练中因数据和模型异构性导致的计算不平衡问题,提出 OmniBal 框架从数据、模型、内存三个层面系统性平衡跨设备计算负载,在 InternVL-Chat 上实现约 1.8× 训练加速。

Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner

提出可扩展的贝叶斯 ToM 规划器,通过将多步多模态心智推理分解为逐步贝叶斯更新来规避推理边界,并用弱到强控制机制将小模型(4B–8B)后训练获得的 ToM 似然估计能力迁移到大模型(70B–405B)的推理中,在 MMToM-QA 基准上达 81.3% 准确率,超越此前最优 BIPALM 4.6 个百分点。

Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner

提出一种可扩展的贝叶斯心智理论(ToM)规划器,通过将多步推理分解为逐步贝叶斯更新,并利用弱到强控制机制将小模型的 ToM 专项能力迁移至大模型(最高 405B),在多模态 ToM 基准上超越 SOTA 4.6%。

Parrot: Multilingual Visual Instruction Tuning

提出 Parrot,通过文本引导的跨注意力机制和 MoE 模块将英语偏置的视觉特征转换为语言特定表示,以极少量多语言数据(每种语言约 10K 样本)显著提升 MLLM 的多语言能力。

Ranked from Within: Ranking Large Multimodal Models Without Labels

系统研究能否在无标签场景下预测 LMM 的相对性能,评估 47 个 SOTA LMM 在 9 个 VQA 基准上的表现,发现基于 softmax 分布的不确定性指标能提供稳健的无监督模型排名(与真实排名 Spearman 相关 \(\rho=0.92\))。

Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger

提出 RCTS 框架,通过自一致性评估机制构建推理上下文丰富的知识库,并用带启发式奖励的蒙特卡罗树搜索(MCTS-HR)重排检索示例,使 LVLM 在多个 VQA 数据集上显著超越 ICL 和 Vanilla-RAG 方法(平均 +3-4%)。

Reasoning Limitations of Multimodal Large Language Models. A Case Study of Bongard Problems

系统评估4个闭源+4个开源MLLM在经典合成Bongard Problems、Bongard HOI、Bongard-OpenWorld三个数据集上的抽象视觉推理能力,提出7种解题策略和新数据集Bongard-RWR(用真实图像表达合成BP概念),揭示MLLM在合成BP上的极差表现并非因域差异而是固有的抽象推理局限。

Robust Multimodal Large Language Models Against Modality Conflict

揭示 MLLM 幻觉的一个被忽视来源——模态冲突(视觉输入与文本输入之间的固有矛盾),从对象/属性/关系三个层面形式化定义模态冲突,构建 20K 样例的 MMMC 数据集,并提出 prompt engineering、SFT 和 RL 三种缓解方法,其中 RL 效果最佳。

RollingQ: Reviving the Cooperation Dynamics in Multimodal Transformer

揭示多模态 Transformer 中自注意力机制因"自增强循环"导致动态适应性失效(偏向单一模态),并提出 RollingQ 算法通过旋转 query 向量打破这一循环,恢复跨模态协作动态。

SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs

利用 GPT-4 全自动生成包含 200 万+ QA 对的大规模合成 KB-VQA 数据集 SK-VQA,训练 MLLM 适配上下文增强生成,在跨域泛化性能上显著优于已有数据集。

SlimLLM: Accurate Structured Pruning for Large Language Models

提出SlimLLM——LLM结构化剪枝方法:用特征空间重要性(考虑权重方向和幅度)评估通道,用Pearson相似度整体评估注意力头,配合简单线性回归恢复策略和层级剪枝比例分配,在LLaMA上20%剪枝保留98.7%性能。

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

SparseVLM 提出了首个文本引导的免训练视觉 token 稀疏化框架,通过选择与视觉相关的文本 token 作为"评分者"来评估视觉 token 的重要性,结合自适应剪枝比率和 token 回收机制,在 LLaVA 上仅保留 192 个 token(减少 66.7%)时维持 99.1% 的原始性能。

Targeted Unlearning with Single Layer Unlearning Gradient

提出 SLUG (Single Layer Unlearning Gradient) 方法,通过层重要性和梯度对齐指标识别最优单层,仅需一次梯度计算和单层参数更新即可实现高效精准的定向遗忘,可应用于 CLIP、Stable Diffusion 和 VLM。

The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models

发现多模态奖励模型 (MM-RM) 在训练时会过度依赖文本单模态捷径 (shortcuts),导致分布外泛化能力差,提出 Shortcut-aware MM-RM 学习算法通过动态样本重加权来减少对单模态伪相关性的依赖,OOD 准确率从 68.1% 提升至 78.5%。

Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage

提出 CapMAS 多智能体系统,通过 LLM-MLLM 协作将详细图文描述分解为原子命题并逐一验证真实性来纠正幻觉,同时引入从事实性和覆盖度两个维度评估详细描述的框架,显著提升了包括 GPT-4V 在内的多种 MLLM 的描述质量。

Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning

提出 Counterfactual Soft Reinforcement Learning (CoSo),利用反事实推理评估每个 token 对最终动作的因果影响,通过因果加权熵正则优化集中探索关键 token,解决 VLM 智能体在线 RL 微调中文本动作空间爆炸问题,在 Android 控制、卡牌游戏、具身 AI 上分别提升 12.3%、9.3%、16.7%。

Towards Rationale-Answer Alignment of LVLMs via Self-Rationale Calibration

提出 Self-Rationale Calibration (SRC) 框架,通过轻量级 rationale 微调引导 LVLM 输出推理过程,再利用句子级 beam search 生成多样候选响应,结合专门设计的 R-Scorer 配对评分策略筛选优劣 rationale-answer 对,以 DPO 偏好对齐方式迭代校准模型的推理-答案一致性,在感知、推理和泛化多个基准上取得显著提升。

Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models

通过分析提示调优导致VLM校准失败的根因(文本特征偏移),提出动态异常值正则化(DOR)方法,利用WordNet中高语义相似度名词作为文本异常值来约束微调过程中的特征漂移,显著降低校准误差。

Universal Retrieval for Multimodal Trajectory Modeling

首次系统定义多模态轨迹检索任务,构建统一代理轨迹数据集 UATD(7,747 个演示、82,793 个状态)和 GAE-Bench 基准(714,628 正样本对),提出基于 VLM2Vec 的 GAE-Retriever 框架,在 5 个 GUI 环境上相比最强基线 VLM2Vec-V2.2 平均提升 10.22 个百分点。

Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection

提出基于 LVLM 的 deepfake 检测框架,通过知识引导伪造检测器(KFD)计算图像特征与真/假描述文本的相关性实现分类和定位,再通过伪造提示学习器(FPL)将细粒度伪造特征注入 LLM 生成可解释的检测结果,在 FF++/CDF2/DFDC/DF40 等多个基准上超越 SOTA 泛化性能。

Vision-Language Model Selection and Reuse for Downstream Adaptation

提出 Model Label Learning (MLL) 范式,通过构建语义图对 49 个预训练 VLM 进行离线"标注"(描述各模型在不同视觉概念上的能力),面对新任务时通过语义匹配选择和集成最合适的模型,实现数据高效、计算高效且可扩展的 VLM 选择与复用。

Vision-Language Models Create Cross-Modal Task Representations

本文发现自回归视觉语言模型(VLMs)会将概念上等价的输入(不论是文本还是图像示例、指令还是少样本)压缩为共享的"任务向量",并通过跨模态 patching 实验验证了这种表征对齐的存在和实用性。

Vision Graph Prompting via Semantic Low-Rank Decomposition

提出 Vision Graph Prompting (VGP),首个面向 Vision GNN (ViG) 的视觉提示学习框架,利用图中语义连通分量的低秩特性,设计了图/边/节点三层粒度的语义低秩提示(SeLo-Graph/Edge/Node Prompt),在参数高效的前提下达到接近全量微调的下游任务迁移性能。


🧑 人体理解

A Generalizable Physics-Enhanced State Space Model for Long-Term Dynamics Forecasting in Complex Environments

提出 Phy-SSM,将部分已知的物理知识融入深度状态空间模型(SSM),通过动力学分解(已知/未知矩阵)和物理状态正则化,实现对噪声大、不规则采样数据的长期动力学精准预测与外推。

AAAR-1.0: Assessing AI's Potential to Assist Research

提出 AAAR-1.0 基准,通过公式推断、实验设计、论文弱点发现、审稿质量鉴别四个专家级任务,系统评估 LLM 辅助科研的真实能力,揭示当前模型在深度研究任务上仍有显著不足。

Access Controls Will Solve the Dual-Use Dilemma

提出基于访问控制的概念框架来解决AI安全中的双用途困境(dual-use dilemma),通过用户身份验证获取真实世界上下文,结合内容分类实现细粒度的权限管理,同时缓解过度拒绝(over-refusal)和不足拒绝(under-refusal)问题。

Beyond CVaR: Leveraging Static Spectral Risk Measures for Enhanced Decision-Making in Distributional Reinforcement Learning

提出首个在分布式 RL 框架内优化一般静态谱风险度量(SRM)的算法,超越了仅限于简单 CVaR 的现有方法,通过利用回报分布实现闭式外层优化和中间风险度量的时间分解,在多种风险设置中超越现有风险敏感 DRL 模型。

Deep Electromagnetic Structure Design Under Limited Evaluation Budgets

提出 Progressive Quadtree-based Search (PQS) 方法,通过四叉树层次化表示压缩电磁结构的高维设计空间,并利用基于一致性的样本选择机制在有限仿真预算下高效搜索优质设计,相比生成式方法节省 75~85% 的评估成本。

Diffusion Sampling Correction via Approximately 10 Parameters

提出PCA-based Adaptive Search (PAS)方法,利用采样轨迹处于高维空间低维子空间的几何特性,通过PCA提取少量正交基向量并仅学习约10个坐标参数来修正现有快速采样器的截断误差,在单张A100上亚分钟训练即可将DDIM在CIFAR10上的FID从15.69降至4.37(NFE=10)。

Doubly Robust Fusion of Many Treatments for Policy Learning

提出校准加权治疗融合(Calibration-Weighted Treatment Fusion)方法,通过双重稳健地合并具有相似效果的治疗组来降低动作空间维度,使得现有多臂策略学习方法(如策略树)可高效应用于大量治疗选项的个体化推荐场景。

DSSD: Efficient Edge-Device LLM Deployment and Collaborative Inference via Distributed Split Speculative Decoding

提出分布式拆分推测解码(DSSD)框架,将推测解码的验证阶段拆分到设备端和边缘端,用一次下行传输(LLM的单个词表分布)替代多次上行传输(SLM的\(\gamma\)个词表分布),在保持推理质量不变的前提下大幅降低通信延迟。

Efficient Logit-based Knowledge Distillation of Deep Spiking Neural Networks for Full-Range Timestep Deployment

提出一种时间维度解耦的 logit 蒸馏框架,利用 SNN 固有的时空特性,将训练目标分解到每个时间步,实现单模型在全范围推理时间步上的高性能部署,无需为不同时间步重新训练。

Enhancing Decision-Making of Large Language Models via Actor-Critic

提出 LAC(LLM-based Actor-Critic)框架,通过 token logits 的正/负结果概率比构建 Q 函数(Critic),并用 KL 约束闭式解实现无梯度策略优化(Actor),在 ALFWorld、BabyAI-Text、WebShop 三个基准上用 7B/8B 模型超越 GPT-4 + ReAct。

Enhancing Parallelism in Decentralized Stochastic Convex Optimization

提出 Decentralized Anytime SGD (DAT-SGD),通过在渐变平均查询点上计算梯度来缓解共识距离偏差,将去中心化随机凸优化的并行度上界从 \(\mathcal{O}(\rho^{1/2} N^{1/4})\) 提升至 \(\mathcal{O}(\rho \sqrt{N})\),在高连通拓扑下首次匹配中心化学习的速率。

Erwin: A Tree-based Hierarchical Transformer for Large-scale Physical Systems

提出 Erwin,一种基于 ball tree 分层结构的 Transformer 架构,通过将注意力计算限制在固定大小的局部球区域内,实现线性时间复杂度,同时通过渐进式粗化/细化和跨球交互机制捕获多尺度特征,在宇宙学、分子动力学、PDE 求解和粒子流体动力学多个领域达到 SOTA。

FedRAG: A Framework for Fine-Tuning Retrieval-Augmented Generation Systems

FedRAG 提出了一个同时支持集中式和联邦式架构的 RAG 系统微调框架,填补了 RAG 生态系统中缺乏统一微调工具的空白,并通过轻量级抽象实现了从集中式到联邦式训练的无缝转换。

From Logits to Hierarchies: Hierarchical Clustering made Simple

提出 L2H(Logits to Hierarchies)算法,仅利用预训练平面聚类模型的 logits 输出,通过掩码 softmax 和迭代合并策略,在无需微调的情况下构建高质量层次聚类,大幅超越专用深度层次聚类模型,且在 ImageNet 规模数据集上 CPU 运行不到一分钟。

Generative Social Choice: The Next Generation

将生成式社会选择框架扩展至带成本/预算约束和近似查询的场景,提出 DemocraticProcess 算法并给出近乎最优的近似比例代表性理论保证,实现了实用系统 PROSE(基于 GPT-4o)在药物评论和城市治理数据集上验证有效性。

If Open Source Is to Win, It Must Go Public

本文论证了开源 AI 在当前实践下无法独立实现 AI 民主化——模型权重只是"惰性代码",需要大量资本才能激活——必须嵌入公共 AI 基础设施(公共资金 + 公共访问 + 公共治理 + 私人承诺)才能成为真正的公共产品。

Improving Model Alignment through Collective Intelligence of Open-Source LLMs

本文提出 Mixture of Agents Alignment(MoAA),利用多个开源 LLM 的集体智慧生成高质量的对齐数据(SFT 数据和偏好数据),显著提升目标模型在 Arena-Hard 和 AlpacaEval2 上的表现,并展示了无需外部强监督的自我提升能力。

KELPS: A Framework for Verified Multi-Language Autoformalization via Semantic-Syntactic Alignment

提出基于断言逻辑的中间表示——知识方程(Knowledge Equation),实现自然语言数学命题到多种形式语言(Lean4/Coq/Isabelle)的规则化翻译,在 MiniF2F 上 pass@1 句法准确率达 88.9%,超越 DeepSeek-V3 和 Herald。

LLaVA-ReID: Selective Multi-Image Questioner for Interactive Person Re-Identification

本文定义了交互式行人重识别(Inter-ReID)新任务,构建了 Interactive-PEDES 多轮对话数据集,并提出 LLaVA-ReID——一个基于选择性多图像上下文和前瞻性监督的大多模态问题生成模型,通过迭代对话逐步细化目标人物描述。

Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning

提出基于 log-sum-exponential (LSE) 算子的新型非线性估计器,用于离线策略评估与学习,在重尾奖励和噪声倾向分数场景下显著降低方差并提供理论保证。

Merge-Friendly Post-Training Quantization for Multi-Target Domain Adaptation

首次系统分析量化引入的离散化噪声如何破坏模型融合效果,提出 HDRQ(Hessian and Distance Regularizing Quantization)——通过 Hessian 正则化平坦化损失曲面 + 距离正则化保持量化模型间权重对齐 + 噪声采样舍入消除舍入歧义,使量化模型在多目标域适应融合中性能接近全精度水平。

MERIT: Maximum-normalized Element-wise Ratio for Language Model Large-batch Training

提出 MERIT 优化器,通过最大范数归一化与逐元素信任比率扩展 LAMB,有效解决大批量训练中注意力 logit 爆炸导致的性能退化问题。

Provably Improving Generalization of Few-Shot Models with Synthetic Data

提出一个理论框架量化合成数据与真实数据的分布差异对少样本分类泛化能力的影响,并基于该理论设计了联合优化数据划分与模型训练的算法,在10个基准数据集上超越SOTA。

Reactivation: Empirical NTK Dynamics Under Task Shifts

首次系统实证研究了持续学习中NTK的动态行为,发现任务切换会一致性地触发NTK的突变——即使在lazy学习体制下,NTK的范数、速度和对齐指标都在任务边界出现急剧偏差,揭示了一种被称为"重激活"(reactivation)的特征学习现象,并通过区分概念性和频率性分布偏移精确定位了驱动因素。

RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning

构建首个大规模"规则破坏者"数据集 RULEBREAKERS(25,600 实例),系统评估 7 个 LLM 在形式逻辑推理与事实知识冲突时的表现,发现模型普遍倾向过度刚性地应用逻辑规则而忽略常识,与人类推理行为存在显著偏离。

SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability

提出 SAEBench——一个包含 8 项评估指标的综合基准,系统评测稀疏自编码器(SAE)在语言模型可解释性中的表现,揭示了代理指标(稀疏-保真度)与下游任务性能之间的严重脱节。

Scaling Large Motion Models with Million-Level Human Motions

本文提出 MotionLib(首个百万级运动数据集,120 万条序列)、MotionBook(无损特征 + 2D 无查找运动分词器)和 Being-M0(大型运动模型),首次在运动生成领域展示了数据和模型规模的 scaling law。

Semantic Shift Estimation via Dual-Projection and Classifier Reconstruction for Exemplar-Free Class-Incremental Learning

提出 DPCR 方法,通过双投影(任务级 TSSP + 类别级 CIP)估计语义漂移,并用岭回归无BP地重建分类器,同时解决无样例类增量学习中的语义漂移和决策偏差问题,在多个基准上超越 SOTA。

Sketch-Plan-Generalize: Learning and Planning with Neuro-Symbolic Programmatic Representations for Inductive Spatial Concepts

提出 SPG(Sketch-Plan-Generalize)——一种神经符号智能体框架,将归纳式概念学习分解为三阶段流水线:概念签名推断(Sketch)、基于 MCTS 的 grounded 动作序列搜索(Plan)、以及 LLM 驱动的程序归纳泛化(Generalize),在从少量演示中学习可组合、可泛化的空间抽象概念方面显著优于纯 LLM 和纯神经方法。

Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks

提出 Sparse Spectral Training (SST),通过在谱域上每步更新全部奇异值、按奇异值大小多项式采样选择性更新奇异向量,并周期性 re-SVD 保持正交性,实现接近全秩训练的预训练效果,同时显存开销与 LoRA 相当。

Streamline Without Sacrifice — Squeeze out Computation Redundancy in LMM

提出 ProxyV,通过引入少量代理视觉 token(proxy vision tokens)替代原始视觉 token 参与 LLM 解码层中的重计算操作(自注意力、FFN),在保留全部视觉信息的前提下大幅压缩计算冗余,甚至在部分设定下提升性能。

Sum-of-Parts: Self-Attributing Neural Networks with End-to-End Learning of Feature Groups

SOP 提出了一种将任意可微分模型转换为基于分组的自归因神经网络(SANN)的框架,通过端到端学习特征分组实现了在 SANN 中的 SOTA 性能,并从理论上证明了逐特征 SANN 的误差下界和分组 SANN 的零误差可达性。

TabFlex: Scaling Tabular Learning to Millions with Linear Attention

用线性注意力替换 TabPFN 中的 softmax 注意力,将表格分类的 ICL 方法从小数据集扩展到百万级样本,实现 2× 以上加速且性能不降。

TopInG: Topologically Interpretable Graph Learning via Persistent Rationale Filtration

TopInG 提出了一种基于持久同调的拓扑可解释图学习框架,通过学习"基本原理过滤"(rationale filtration)来识别稳定且持久的基本原理子图,引入"拓扑差异"(topological discrepancy)约束来强化基本原理子图与无关子图之间的拓扑区分,在处理多变形态的基本原理子图时显著优于现有方法。

Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs

FlashTrace 提出了一种高效的多 token 归因方法,通过跨度聚合(span-wise aggregation)将多 token 目标的归因复杂度从 \(\mathcal{O}(M \cdot N)\) 降至 \(\mathcal{O}(N)\),并通过递归归因(recursive attribution)机制追溯推理链中的重要性传播,实现了 130 倍以上的速度提升。

Truly Self-Improving Agents Require Intrinsic Metacognitive Learning

本文提出一个形式化框架论证了真正的自我改进 Agent 需要具备内在元认知学习能力(而非外在的、人为设计的固定循环),该框架包含三个组件:元认知知识、元认知规划和元认知评估,并分析了现有自改进 Agent 的不足和实现内在元认知的路径。

Validating Mechanistic Interpretations: An Axiomatic Approach

借鉴程序分析中抽象解释的思想,提出一组公理化框架来形式化定义和验证神经网络的机制解释(mechanistic interpretation),并在 2-SAT 求解器和模加法两个案例中验证了该框架的有效性。

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

将时间序列重构为图像,利用 ImageNet 预训练的 MAE(Masked Autoencoder)在零样本设置下进行时序预测,无需任何时序数据训练即可匹敌甚至超越专门的时序基础模型。

What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities

本文提出 OmniBench——一个基于图结构的可扩展虚拟 Agent 基准,通过自动化流水线合成可控复杂度的任务,配合 OmniEval 多维评估框架,在 20 个应用场景中生成 36K 个任务,系统揭示了虚拟 Agent 在不同能力维度上的短板。


📊 LLM评测

Are LLM Belief Updates Consistent with Bayes' Theorem?

本文提出贝叶斯一致性系数(BCC)来量化 LLM 的信念更新是否符合贝叶斯定理,发现更大、更强的预训练模型在给定新证据时,其信念更新与贝叶斯定理更一致。

Communicating Activations Between Language Model Agents

提出让 LLM 智能体通过中间层激活(而非自然语言)进行通信的方法——在模型 B 的前向传播中间层注入模型 A 的激活向量,无需额外参数和数据,在多项推理基准上比自然语言通信提升 27%,计算量仅为 1/4。

Cooperation of Experts: Fusing Heterogeneous Information with Large Margin

提出 Cooperation of Experts (CoE) 框架,将异构信息编码为多重网络,通过两级专家设计与大间隔置信张量优化实现专家协作(而非竞争),在节点分类任务上全面超越现有 MoE 和多重网络方法。

Correlated Errors in Large Language Models

本文通过对超过350个LLM的大规模实证分析,发现不同LLM之间存在高度相关的错误模式——在两个模型都出错时约60%的情况下会选择同一个错误答案,且越准确的模型相关性越高;进而研究了这种相关性对LLM-as-Judge评估和招聘市场的下游影响。

Cross-regularization: Adaptive Model Complexity through Validation Gradients

提出 Cross-regularization(交叉正则化),通过验证集梯度直接优化正则化参数(权重范数、噪声尺度、增强强度),在单次训练中收敛到交叉验证最优解,消除手动调参需求。

DiLQR: Differentiable Iterative Linear Quadratic Regulator via Implicit Differentiation

本文提出 DiLQR 框架,通过在 iLQR 控制器的不动点上施加隐式微分,得到解析梯度解,将反向传播的计算复杂度从随迭代数线性增长降为 \(O(1)\) 常数,实现最高 128× 加速,同时学习性能比传统神经网络策略提升 \(10^6\) 倍。

Disentangling and Integrating Relational and Sensory Information in Transformer Architectures

本文提出了 Dual Attention Transformer(DAT),通过在标准注意力机制中引入"关系注意力"头,将感知信息和关系信息解耦后并行处理再整合,在关系推理基准、数学问题求解、图像识别和语言建模等任务上均展现出显著的数据效率和参数效率提升。

EnIGMA: Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities

EnIGMA 是一个用于自主解决 Capture The Flag (CTF) 挑战的 LM agent,通过引入新型交互式 Agent 工具(调试器和服务器连接工具),首次使 LM agent 能够运行交互式终端程序,在 4 个基准的 390 个 CTF 挑战上取得 SOTA,并发现了 "soliloquizing" 这一新的幻觉现象。

MultiCogEval: Evaluating LLMs Across Multi-Cognitive Levels

受 Bloom 分类法启发,提出多认知层次评估框架 MultiCogEval,从知识掌握、综合应用、情景问题解决三个层次评估 LLM 医学能力,发现所有模型性能随认知复杂度增加显著下降,且模型规模在高层次更关键。

Faster and Stronger: When ANN-SNN Conversion Meets Parallel Spiking Calculation

首次将并行脉冲计算与 ANN-SNN 转换结合,建立数学等价映射关系,在超低时间步(4步)下实现 ImageNet Top-1 72.90%,推理速度加速 19~38 倍。

FEDTAIL: Federated Long-Tailed Domain Generalization with Sharpness-Guided Gradient Matching

FedTAIL 提出了一个联邦域泛化框架,通过梯度一致性正则化、逐类锐度感知最小化和曲率感知动态加权三个模块,同时解决域偏移和长尾类别不平衡的双重挑战,在多个基准上达到 SOTA。

Feedforward Few-shot Species Range Estimation

提出 FS-SINR(Few-shot Spatial Implicit Neural Representations),一种基于 Transformer 的前馈式少样本物种分布估计模型,无需针对新物种重新训练即可从少量观测位置(甚至零个)一次前传预测空间分布,在 IUCN 和 S&T 基准上以 2-6% 的计算时间超越 LE-SINR 等需要重新训练的方法。

Fully Heteroscedastic Count Regression with Deep Double Poisson Networks

提出 Deep Double Poisson Network (DDPN),通过输出 Double Poisson 分布的参数实现离散计数回归中的完全异方差性,支持任意高或低的预测方差,在精度、校准和 OOD 检测上全面超越现有基线。

Function Encoders: A Principled Approach to Transfer Learning in Hilbert Spaces

提出基于 Hilbert 空间几何视角的迁移学习分类体系(凸包插值 / 线性张成外推 / 全空间外推),并设计 Function Encoder 方法利用可学习神经网络基函数实现三种迁移,在多项基准上超越 MAML、Transformer 等方法。

G-Sim: Generative Simulations with Large Language Models and Gradient-Free Calibration

提出 G-Sim 混合框架,利用 LLM 自动设计仿真器的因果结构(子模块与连接关系),再通过无梯度优化(GFO)或仿真推断(SBI)对数值参数进行经验校准,在迭代循环中不断改进,生成可靠、可干预的通用仿真器。

Gradient Aligned Regression via Pairwise Losses

提出 GAR(Gradient Aligned Regression),通过在标签空间引入两个成对差异损失(误差方差 + 负Pearson相关系数)来对齐预测函数与真实函数的梯度,并利用 DRO 鲁棒聚合三个子损失,实现与传统回归损失相同的线性复杂度,同时在多个基准上超越 MAE/MSE 及对比学习方法。

How Much Can We Forget about Data Contamination?

通过受控实验系统量化数据污染对 LLM benchmark 评估的影响,发现在超过 Chinchilla 最优五倍以上的训练数据量下,即使 144 次重复的污染数据也能被完全遗忘;进一步证明权重衰减是遗忘的关键机制,并据此推断 Llama 3 405B 等大型模型已遗忘训练早期的数据。

Hyperband-based Bayesian Optimization for Black-box Prompt Selection

提出 HbBoPs 方法,结合结构感知深度核高斯过程(对 instruction 和 few-shot exemplar 分别编码)与 Hyperband 多保真度调度器,在黑盒 LLM 的 prompt 选择问题上同时实现样本高效和查询高效,在十个基准和三个 LLM 上超越所有 SOTA 方法。

Improved and Oracle-Efficient Online \(\ell_1\)-Multicalibration

提出将在线 \(\ell_1\)-multicalibration 归约为新定义的在线线性乘积优化 (OLPO) 问题,分别达到 \(\widetilde{O}(T^{-1/3})\)(改进速率)和 \(\widetilde{O}(T^{-1/4})\)(oracle 高效速率)的多校准误差上界。

Improving Generalization with Flat Hilbert Bayesian Inference

提出 Flat Hilbert Bayesian Inference (FHBI),将 SAM 的平坦性概念从有限维欧氏空间推广到无限维再生核希尔伯特空间 (RKHS),并与粒子采样贝叶斯推断结合,在 VTAB-1K 基准上以 73.7% 平均 Top-1 准确率全面超越九个基线方法。

Improving the Effective Receptive Field of Message-Passing Neural Networks

本文形式化了 MPNN 中有效感受野(ERF)的概念,证明节点贡献随距离指数衰减(二项式分布),并提出 IM-MPNN 架构通过多尺度图粗化和跨尺度信息交织来扩展 ERF,在 LRGB 等长程依赖基准上显著提升。

Latent Imputation before Prediction: A New Computational Paradigm for De Novo Peptide Sequencing

LIPNovo 提出在肽段预测前,通过隐空间补全(latent imputation)来弥补质谱中碎片缺失信息的新范式,利用可学习peak queries和二部匹配补全理论peak隐表示,在三个基准上大幅超越 CasaNovo 等 SOTA(氨基酸精度提升 5.6%-20%)。

Learning Distribution-Wise Control in Representation Space for Language Models

将表示微调(Representation Fine-tuning)中的确定性节点替换为随机节点,通过重参数化技巧学习潜在分布而非单点变换,在常识推理和数学推理任务上取得了一致性能提升,尤其在早期层的干预效果最为显著。

Learning Safe Strategies for Value Maximizing Buyers in Uniform Price Auctions

针对重复统一价格多物品拍卖中带有RoI约束的价值最大化买家,提出"安全竞标策略"概念,证明其仅需满足温和的不超出竞价条件,并设计多项式时间在线学习算法实现 \(\widetilde{O}(M\sqrt{mT})\) 的遗憾界。

Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation

利用 Art of Problem Solving (AoPS) 论坛的社区内容,构建了 652K 奥赛级数学 QA 对的训练集 AoPS-Instruct 和带时间戳的抗污染评估集 LiveAoPSBench,揭示了 LLM 在旧数据上的高表现可能源于预训练数据泄露而非真正推理能力。

LLM-SRBench: A New Benchmark for Scientific Equation Discovery with LLMs

提出LLM-SRBench基准(239题/4个科学领域),通过方程变换(LSR-Transform)和合成问题(LSR-Synth)防止LLM的记忆化,当前最好方法仅达31.5%符号准确率。

Meek Models Shall Inherit the Earth

基于 Chinchilla 缩放定律的数学建模,证明在固定分布的 next-token 目标下,计算缩放的递减收益将导致 SOTA 大模型相对于低计算预算"弱模型"(meek models)的能力优势最终收敛趋零,论证 AI 能力的民主化是当前缩放范式下的必然趋势,现有基于算力的 AI 治理策略需要根本性重新设计。

On Temperature Scaling and Conformal Prediction of Deep Classifiers

首次系统研究 Temperature Scaling (TS) 校准对 Conformal Prediction (CP) 方法的影响,揭示 TS 在改善 APS/RAPS 类条件覆盖率的同时会增大预测集尺寸的反直觉现象,建立了完整的非单调理论解释并提出实用指南。

PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation

提出 PhantomWiki——一个按需生成虚构世界语料库和 QA 对的评测框架,通过上下文无关文法(CFG)控制推理难度、调节宇宙规模控制检索难度,实现对 LLM 推理与检索能力的解耦评估,同时天然抵抗数据泄漏。

Position: AI Evaluation Should Learn from How We Test Humans

提出将人类心理测量学中的自适应测试范式系统性引入AI评估,通过估计题目特征(难度/区分度/猜测因子)实现高效、可靠的模型能力评估,仅需3%的题目即可准确重建完整benchmark分数。

IBDR: Promoting Ensemble Diversity with Interactive Bayesian Distributional Robustness

提出IBDR贝叶斯推断框架,通过在乘积分布空间上引入交互式损失和Wasserstein分布鲁棒性优化,构建兼顾多样性与低锐度的粒子集成,在VTAB-1K上以ViT-B/16实现73.6%平均准确率超越所有基线。

Provably Cost-Sensitive Adversarial Defense via Randomized Smoothing

基于 randomized smoothing 框架提出"代价敏感认证半径"(cost-sensitive certified radius),首次实现可扩展到大模型与高维数据的代价敏感对抗鲁棒性认证与训练,在保持整体准确率的同时显著提升对高代价误分类的鲁棒性。

Random Registers for Cross-Domain Few-Shot Learning

在跨域小样本学习(CDFSL)中发现可学习 prompt 会损害目标域泛化性能,而用随机噪声替代(即随机寄存器)反而能持续提升性能,并基于此提出 REAP 方法,通过在图像语义区域添加随机寄存器来增强注意力扰动,实现高效的域无关特征学习。

ResearchTown: Simulator of Human Research Community

提出 ResearchTown,一个基于 agent-data 图和 TextGNN(文本空间消息传递)的多智能体框架,将人类科研社区建模为异构图,统一模拟论文阅读、论文写作和审稿三大核心研究活动,并通过节点掩码预测任务 (ResearchBench) 进行可扩展、客观的仿真质量评估。

Runtime Analysis of Evolutionary NAS for Multiclass Classification

首次对进化神经架构搜索(ENAS)在多类分类问题上进行运行时理论分析,证明 one-bit 和 bit-wise 变异的 (1+1)-ENAS 算法均以 \(O(rM\ln rM)\) 期望运行时找到最优架构,说明简单的 one-bit 变异即可与复杂的 bit-wise 变异媲美。

Set-Valued Predictions for Robust Domain Generalization

提出集值预测器(set-valued predictor)解决域泛化(DG)中的鲁棒性问题:输出标签子集而非单一标签,使预测在尽可能多的未见域上满足预定义的覆盖率要求,同时最小化预测集大小。

The Best of Both Worlds: Bridging Quality and Diversity in Data Selection with Bipartite Graph

提出 GraphFilter 方法,将 SFT 数据集建模为句子-n-gram 的二部图,通过乘法优先级函数同时优化数据质量和多样性,在 3 个模型 6 个基准上全面超越 9 种基线方法。

UI-Evol: Automatic Knowledge Evolving for Computer Use Agents

提出UI-Evol即插即用模块,通过Retrace(从截图还原实际动作序列)和Critique(对比外部知识诊断偏差并修正)两阶段自主进化GUI任务知识,在OSWorld基准上将Agent S2的成功率从19.5%提升到22%+,同时将行为标准差降低约4倍,显著增强了计算机操作代理的可靠性。

Unlocking Post-hoc Dataset Inference with Synthetic Data

提出通过合成生成held-out数据集并结合后校准(post-hoc calibration)来实现无需真实held-out集的数据集推断(Dataset Inference),通过suffix completion生成高质量合成数据、双分类器校准解耦生成偏移与成员信号,在15个多样化文本数据集上实现高置信度版权检测且低误报率。


🕸️ 图学习

A Cognac Shot To Forget Bad Memories: Corrective Unlearning for Graph Neural Networks

提出 Cognac——首个有效的 GNN 纠正性遗忘方法,通过交替执行图邻域对比遗忘(CoGN)和解耦梯度上升/下降(AC⚡DC),在仅识别 5% 被操纵实体时即可恢复接近 oracle(完全干净数据训练)的性能,比从头重训高效 8×。

A General Graph Spectral Wavelet Convolution via Chebyshev Order Decomposition

提出 WaveGC——通过分离 Chebyshev 多项式的奇偶项构建严格满足可容许性条件的可学习图小波,结合矩阵值滤波核的多分辨率图谱卷积网络,在短程和长程图任务上均实现一致改进(VOC 上提升 15.7%)。

A Recipe for Causal Graph Regression: Confounding Effects Revisited

首次系统性地将因果图学习从分类扩展到回归任务,通过增强型图信息瓶颈(Enhanced GIB)承认混淆子图的预测能力,并用对比学习替代依赖离散标签的因果干预方法,在图级 OOD 回归基准上显著超越现有方法。

Balancing Efficiency and Expressiveness: Subgraph GNNs with Walk-Based Centrality

提出 HyMN——通过游走中心性(Subgraph Centrality)对子图 GNN 的子图包进行高效采样,仅需 1-2 个子图即可媲美全包 Subgraph GNN 的性能,同时将中心性作为结构编码进一步增强判别能力,使子图方法首次可扩展到数百倍更大的图。

Banyan: Improved Representation Learning with Explicit Structure

Banyan 通过纠缠层次树结构对角化消息传递两大创新,仅用 14 个非嵌入参数就在语义文本相似度任务上超越了大规模 Transformer 模型,为低资源语言的语义表示学习提供了高效可行的替代方案。

Beyond Message Passing: Neural Graph Pattern Machine

提出 Neural Graph Pattern Machine (GPM),用随机游走采样图模式,通过语义路径与匿名路径的双编码器捕捉节点特征和拓扑结构,再用 Transformer 识别任务相关的关键模式,彻底绕过消息传递范式,在节点/边/图级任务上全面超越 SOTA。

CoDy: Counterfactual Explainers for Dynamic Graphs

提出 CoDy——首个用于时序图神经网络(TGNN)的反事实解释方法,通过蒙特卡洛树搜索(MCTS)结合时空启发式策略高效探索可能的解释子图空间,在多个数据集上 AUFSC+ 提升 16%。

Diss-l-ECT: Dissecting Graph Data with Local Euler Characteristic Transforms

提出 Local Euler Characteristic Transform (ℓ-ECT),将经典 ECT 拓扑不变量扩展到图的局部邻域,为每个节点生成无损的拓扑-几何指纹,在节点分类任务(尤其是高异质性图)上超越标准 GNN,同时提供理论可逆性保证与可解释性。

Does Graph Prompt Work? A Data Operation Perspective with Theoretical Analysis

首次从"数据操作"角度为 Graph Prompt 提供完整理论框架:证明 Prompt 能通过模拟图数据变换将原始图映射到"桥接图"使冻结模型适配下游任务,并推导了单图/多图场景下的误差上界与分布。

From RAG to Memory: Non-Parametric Continual Learning for Large Language Models

提出 HippoRAG 2,通过将段落节点融入知识图谱、用 query-to-triple 深度上下文化链接、以及 LLM 驱动的识别记忆过滤,全面超越标准 RAG 在事实记忆、语义理解和关联推理三大维度的表现,向 LLM 的非参数化持续学习迈进一步。

Graph-constrained Reasoning: Faithful Reasoning on Knowledge Graphs with Large Language Models

提出 Graph-constrained Reasoning (GCR),通过将知识图谱编码为 KG-Trie 并嵌入 LLM 解码过程,实现零幻觉的忠实推理,在 KGQA 基准上达到 SOTA 且具备零样本跨图谱迁移能力。

Graph Attention is Not Always Beneficial: A Theoretical Analysis of Graph Attention Mechanisms via Contextual Stochastic Block Models

本文通过上下文随机块模型(CSBM)理论分析了图注意力机制的有效性边界:当结构噪声大于特征噪声时 GAT 有效,反之 GCN 更优;并提出了首个多层 GAT 完美节点分类条件,将 SNR 要求从 \(\omega(\sqrt{\log n})\) 放宽到 \(\omega(\sqrt{\log n}/\sqrt[3]{n})\)

GrokFormer: Graph Fourier Kolmogorov-Arnold Transformers

提出 GrokFormer,通过傅里叶级数参数化的 Kolmogorov-Arnold 可学习激活函数,在图 Laplacian 的多阶谱上自适应学习滤波器基,同时具备 谱阶自适应谱自适应 能力,是目前唯一在两个维度上都可学习的图 Transformer 滤波器。

HGOT: Self-supervised Heterogeneous Graph Neural Network with Optimal Transport

提出 HGOT,首次将最优传输理论引入异质图自监督学习,用 branch view(元路径视图)与 central view(聚合视图)之间的 Fused Gromov-Wasserstein 传输计划替代传统对比学习中的数据增强与正负样本选取,在节点分类上平均提升超过 6%。

Hyperbolic-PDE GNN: Spectral Graph Neural Networks in the Perspective of A System of Hyperbolic Partial Differential Equations

将消息传递建模为双曲偏微分方程组,证明节点特征的解空间由拉普拉斯矩阵的特征向量张成,从而将拓扑结构信息内嵌到节点表示中,并通过多项式近似建立与谱 GNN 的桥梁以增强其性能。

Is Complex Query Answering Really Complex?

本文揭示了知识图谱复杂查询回答(CQA)现有基准中高达 98% 的"复杂"查询实际上可被简化为简单的单链接预测问题,由此导致研究进展被严重高估;作者提出了平衡采样的新基准(FB15k237+H、NELL995+H、ICEWS18+H),并引入混合求解器 CQD-Hybrid 验证了这一发现,在新基准上所有 SOTA 方法的 MRR 大幅下降(最多超过 30 个点)。

L-STEP: Learnable Spatial-Temporal Positional Encoding for Link Prediction

提出 L-STEP,一种基于可学习时空位置编码的轻量级时序链接预测模型,通过离散傅里叶变换捕获位置编码的时序演化,用 MLP 替代 Transformer 注意力机制达到 SOTA 效果且运行更快。

LLM Enhancers for GNNs: An Analysis from the Perspective of Causal Mechanism Identification

从因果机制识别的角度分析"LLM增强器+GNN"范式的内部机制,发现LLM增强器主要提供节点级/原始数据级信息,并据此提出注意力传输(AT)模块优化两者间的信息传递。

Machines and Mathematical Mutations: Using GNNs to Characterize Quiver Mutation Classes

利用图神经网络 (GNN) 和可解释性技术研究箭图变异等价类问题,独立重新发现\(\tilde{D}\) 型箭图变异类的组合刻画定理,展示了 ML 作为数学研究工具的价值。

Mitigating Over-Squashing in Graph Neural Networks by Spectrum-Preserving Sparsification

提出 GOKU(稠密化-稀疏化重连范式),通过将输入图视为未知稠密潜在图的谱稀疏器并求解逆稀疏化问题,在增强图连通性的同时显式保留拉普拉斯谱,有效缓解 GNN 的 over-squashing 问题。

Mixed-Curvature Decision Trees and Random Forests

将经典决策树和随机森林算法从欧几里得空间推广到混合曲率乘积流形(hyperbolic × spherical × Euclidean),通过角度重参数化(angular reformulation)构造尊重流形几何的分裂准则,在 57 个分类/回归/链路预测任务上表现优异(29 个第一,41 个前二)。

GlycanAA: Modeling All-Atom Glycan Structures via Hierarchical Message Passing and Multi-Scale Pre-training

提出 GlycanAA,首个全原子级糖链建模方法:将糖链表示为包含原子节点和单糖节点的异构图,通过层次消息传递捕获从局部原子交互到全局单糖交互的多尺度信息,并通过多尺度掩码预测预训练(PreGlycanAA)进一步增强,在 GlycanML 基准 11 个任务上获得第一。

Neural Graph Matching Improves Retrieval Augmented Generation in Molecular Machine Learning

提出 MARASON,将神经图匹配(Neural Graph Matching)引入分子机器学习的检索增强生成(RAG)框架,通过可微分的碎片级对齐机制,把检索到的参考分子谱图信息有效融入目标分子的质谱预测中,在 NIST 数据集上将 top-1 检索准确率从 19% 提升到 28%。

On Measuring Long-Range Interactions in Graph Neural Networks

首次从第一性原理出发形式化定义图任务中的"长距离交互",推导出唯一满足四条公理的 range measure \(\hat{\rho}_u = \mathbb{E}_{v \sim I_u}[d_G(u,v)]\),通过合成实验验证其有效性后,用该度量揭示 LRGB 基准中的 peptides 任务实际上是短距离的。

Open Your Eyes: Vision Enhances Message Passing Neural Networks in Link Prediction

首次将视觉感知引入消息传递图神经网络(MPNN),通过将子图可视化为图像并用视觉编码器提取视觉结构特征(VSF),提出 GVN/E-GVN 框架,在 7 个链接预测基准上均达到 SOTA。

Positional Encoding meets Persistent Homology on Graphs

理论证明图上位置编码(PE)和持续同调(PH)在区分非同构图方面互不可比,提出 PiPE(Persistence-informed Positional Encoding)通过消息传递网络统一两者,可证明比单独使用任一方法更具表达力,在 ZINC/Alchemy/DrugOOD/BREC 等多个基准上一致优于纯 PE 和纯 PH 基线。

TINED: GNNs-to-MLPs by Teacher Injection and Dirichlet Energy Distillation

提出 TINED,将 GNN 中特征变换(FT)的参数直接注入 MLP(Teacher Injection),并用 Dirichlet 能量蒸馏传递 GNN 层中 FT 与图传播(GP)的对立平滑特性,在 7 个数据集上超越 GNN 教师,推理速度提升 94 倍。

Toward Data-centric Directed Graph Learning: An Entropy-driven Approach

提出 EDEN(Entropy-driven Digraph Knowledge Distillation),从数据中心视角构建层级知识树(HKT),通过有向拓扑结构度量和节点互信息量化,揭示有向图中拓扑与节点属性的潜在关联,作为即插即用模块可为任意 DiGNN 带来平均 2-5% 的性能提升,在 14 个数据集和 4 个下游任务上取得 SOTA。

Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees

提出 Task-Tree 作为统一学习实例,通过引入虚拟任务节点将节点/边/图级任务对齐到同一表示空间,配合重构目标预训练 GNN,构建图基础模型 GIT,在 32 个图、5 个领域上实现微调/上下文学习/零样本三种范式的跨域跨任务泛化。

Unifews: You Need Fewer Operations for Efficient Graph Neural Networks

Unifews 提出统一的逐元素稀疏化框架,将 GNN 的图传播和特征变换视为矩阵运算,基于幅值阈值同时剪枝图边和模型权重,通过谱图平滑理论给出有界近似误差保证,在十亿边级别图上实现高达 100x 加速且不损失精度。

WILTing Trees: Interpreting the Distance Between MPNN Embeddings

本文发现MPNN学到的嵌入距离与任务相关的functional distance对齐(而非结构距离),并提出基于加权Weisfeiler-Leman标记树(WILT)的最优传输距离来蒸馏和解释MPNN距离,边权揭示了少量关键子图主导了嵌入空间的度量结构。


🔬 可解释性

A Cross Modal Knowledge Distillation & Data Augmentation Recipe for Improving Transcriptomics Representations through Morphological Features

提出 Semi-Clipped(基于 CLIP 的跨模态蒸馏方法)和 PEA(扰动嵌入增强),在弱配对数据场景下将显微镜图像的丰富形态学特征蒸馏到转录组学表征中,在保持基因表达可解释性的同时显著提升其预测能力。

A Reasoning-Based Approach to Cryptic Crossword Clue Solving

提出三阶段LLM推理pipeline(答案候选生成→wordplay解释→Python形式化验证),使用开源9B模型在Cryptonite密码填字谜数据集上实现新SOTA,关键创新在于将wordplay推理形式化为可执行Python代码并通过带hints的verifier迭代修正。

Ab Initio Nonparametric Variable Selection for Scalable Symbolic Regression with Large p

提出 PAN+SR 框架,通过基于 BART 的非参数变量预筛选,将高维符号回归问题降维至低维子空间,使 19 种现有 SR 方法在高维场景下均获显著性能提升。

Avoiding Leakage Poisoning: Concept Interventions Under Distribution Shifts

揭示概念模型(CBM)中的"泄漏中毒"现象——绕过概念瓶颈的信息泄漏在分布偏移下反而损害预测准确率,使概念干预失效,提出 MixCEM 通过置信度门控动态决定何时使用/丢弃泄漏信息,在分布内外均保持高准确率和有效干预。

Concept-Based Unsupervised Domain Adaptation

提出 CUDA 框架——将概念瓶颈模型(CBM)与无监督域适应(UDA)结合,通过松弛一致性对齐概念表示(允许域间小差异)和目标域的无标注概念推断,首次在域偏移下同时提供可解释性和跨域泛化,并提供理论保证。

Configurable Preference Tuning with Rubric-Guided Synthetic Data

提出Configurable Preference Tuning (CPT)框架,通过基于细粒度rubric生成的合成偏好数据训练LLM,使模型能在推理时仅通过修改system prompt就动态调整行为风格,无需重新训练,在多个基座模型上准确率从0.52-0.68提升至0.76-0.83。

Conformal Prediction as Bayesian Quadrature

从贝叶斯视角重新审视共形预测——证明分裂共形预测和共形风险控制都是贝叶斯求积(Bayesian Quadrature)框架的特例,提出实用的贝叶斯替代方案,提供可解释的保证和对未来损失范围的更丰富表示。

Do Sparse Autoencoders Generalize? A Case Study of Answerability

本文系统评估了稀疏自编码器(SAE)提取的特征在"可回答性"(answerability)任务上的跨域泛化能力,发现 SAE 特征的域外迁移表现极不一致——在某些数据集上优于残差流线性探针,但在另一些上接近随机,揭示了当前 SAE 可解释性方法在捕获抽象概念方面的根本局限。

Evaluating Neuron Explanations: A Unified Framework with Sanity Checks

提出 NeuronEval 统一框架,将 19 种现有神经元解释评估方法形式化为同一数学范式,并设计 Missing Labels / Extra Labels 两项合理性检验,揭示大多数常用指标(如 Recall、AUC、top-and-random 采样下的 Correlation)不可靠,仅 Correlation(Pearson)、Cosine、AUPRC、F1 和 IoU 通过测试。

Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

提出 PromptQuine 框架,通过进化搜索对 ICL prompt 进行 token 级剪枝,发现将清晰示例剪成看似"乱码"的子序列反而能提升 LLM 性能,且匹配或超越 SOTA prompt 优化方法。

Explaining, Fast and Slow: Abstraction and Refinement of Provable Explanations

本文提出了一种基于抽象-细化的方法来高效计算神经网络预测的可证明充分解释(provably sufficient explanations),通过将大网络抽象为小网络来加速验证过程,解释质量有形式化保证。

Foundation Molecular Grammar: Multi-Modal Foundation Models Induce Interpretable Molecular Grammar

FMG 利用多模态基础模型(MMFM)的化学知识,通过将分子渲染为图像并用文本描述,结合 prompt learning 跨模态对齐来归纳出可解释的分子图语法,替代传统依赖专家标注或启发式的语法学习方法。

Inference-Time Decomposition of Activations (ITDA): A Scalable Approach to Interpreting Large Language Models

提出 ITDA,一种基于匹配追踪(Matching Pursuit)的推理时激活分解方法,以仅 1% 的 SAE 训练成本实现可比的重构性能,可扩展到 405B 参数模型,并天然支持跨模型表示比较。

Leveraging Predictive Equivalence in Decision Trees

提出将决策树转换为最小析取范式(DNF)表示,消除"预测等价性"问题,统一表示具有相同决策边界的不同决策树,进而改善变量重要性度量、缺失数据鲁棒性和特征获取成本优化。

MIB: A Mechanistic Interpretability Benchmark

提出 MIB(Mechanistic Interpretability Benchmark),包含电路定位和因果变量定位两个赛道、四个任务、五个模型,通过标准化的反事实干预评估和新指标(CPR/CMD)系统比较 MI 方法,发现 attribution + mask optimization 方法在电路定位中最优,而 SAE 特征在因果变量定位中并不优于原始神经元。

LANTERN: Modeling User Behavior from Adaptive Surveys with Supplemental Context

提出LANTERN(Late-Attentive Network for Enriched Response Modeling),一个模块化的用户行为建模架构,将自适应调查数据作为主信号,通过交叉注意力实现后期融合,选择性门控和残差连接保持调查信号的主导地位,外部上下文(人口统计、行为日志等)仅在相关时被融入,在约35,000用户的生产级数据集上以F1=0.775显著超越纯调查基线的0.734。

Near-Optimal Decision Trees in a SPLIT Second

提出 SPLIT 算法族,通过在决策树根部附近做全局最优搜索、叶节点附近用贪心策略的混合方案,实现比全局最优方法快 100 倍以上且精度几乎无损的决策树构建。

On the Effect of Uncertainty on Layer-wise Inference Dynamics

使用 Tuned Lens 系统分析 5 个 LLM 在 11 个数据集上各层的 token 概率演化轨迹,发现确定性和不确定性预测的层间推理动力学高度对齐(信心突变出现在相似的层),表明不确定性并不影响模型的推理动态结构,挑战了通过简单中间层特征检测不确定性的方法可行性。

On the Power of Context-Enhanced Learning in LLMs

本文形式化定义了"上下文增强学习"(context-enhanced learning),证明在简化设定下它比标准学习的样本效率指数级更高,并在机制层面揭示其优势来源于更精确的梯度学习信号。

Position: We Need An Algorithmic Understanding of Generative AI

提出 AlgEval 框架,倡导系统性地研究生成式 AI 学习和使用的算法——包括算法原语(vocabulary)及其组合(grammar)——作为替代纯粹规模扩展的理解路径,并通过图导航任务的案例研究展示了 top-down 假说与 bottom-up 验证相结合的方法论。

Rethinking Explainable Machine Learning as Applied Statistics

本文是一篇立场论文,提出可解释机器学习应被视为"高维函数的应用统计学"——解释算法本质上是函数的统计量(functionals),应当像传统统计量(如 p 值、置信区间)一样关注其解释(interpretation)问题,而非仅研究数学性质;当前文献最大的缺陷正是忽视了"解释算法的输出到底回答了哪个直觉问题"这一核心议题。

SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior

提出 SafetyAnalyst 框架,通过链式思维推理生成可解释的"危害-收益树"(枚举 AI 行为可能导致的有害和有益效果及其可能性/严重性/即时性),再用 28 个全可解释参数聚合为危害分数,在 prompt 安全分类上以平均 F1=0.81 超越现有审核系统(F1<0.72),同时提供可解释性、透明性和可操控性。

SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression

提出 SLiM,一种一次性压缩框架,将硬件友好的均匀量化、半结构化稀疏和基于显著性的低秩适配器无缝整合,在 4-bit + 2:4 稀疏条件下准确率提升最高 5.66%。

Supernova Event Dataset: Interpreting Large Language Models' Personality through Critical Event Analysis

提出 Supernova Event Dataset(包含传记、历史事件、新闻、科学发现的 Wikipedia 文章),通过让 LLM 从长文本中抽取并排序关键事件,再由另一个 LLM 作为评判者推断目标模型的"人格特质",揭示不同 LLM 在主观决策中的一致性行为模式差异。

To Steer or Not to Steer? Mechanistic Error Reduction with Abstention for Language Models

提出 MERA(Mechanistic Error Reduction with Abstention),一个基于线性error estimator的原则性activation steering框架,通过约束优化推导闭式最优steering强度,并引入校准步骤确保仅在可证明有效时才进行干预,解决了传统固定steering强度导致的过度/不足steering问题。

Towards Attributions of Input Variables in a Coalition

本文从 AND-OR 交互的视角重新推导了 Shapley value 的计算机制,证明了不同变量划分下的归因冲突本质上源于仅覆盖联盟部分变量的交互效应,并据此定义了联盟归因指标和三个忠实度度量,实验验证其与人类直觉一致。

Towards Flexible Perception with Visual Memory

将深度视觉模型的知识表示从"刻在权重里"转变为"存在外部数据库里",用预训练编码器 + kNN 检索构建灵活的 Visual Memory,实现数据的即插即拔(添加/删除/扩展)和可解释分类,ImageNet 上达到 88.5% top-1 准确率。

What Makes an Ensemble (Un)interpretable?

系统研究集成学习方法的可解释性问题——什么因素使集成模型难以解释,以及如何在保持预测性能的同时提高集成的可解释性,提出了量化集成可解释性的理论框架和实用的可解释集成构建方法。

Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

从机制可解释性视角研究 VLM 空间推理失败的原因,发现图像 token 虽占输入 90% 但仅获 10% 注意力,且注意力的几何分布才是关键;提出 AdaptVis——基于推理时置信度自适应调整图像注意力温度的无训练解码方法,在 WhatsUp 上实现高达 50% 绝对提升。


📚 预训练

A Square Peg in a Square Hole: Meta-Expert for Long-Tailed Semi-Supervised Learning

提出 Meta-Expert 算法,通过动态专家分配(DEA)模块根据样本的类别归属(头/中/尾)自动选择最擅长的专家生成伪标签,并利用多深度特征融合(MFF)模块缓解模型对头类的偏向,实现"方枘方凿"——让每个专家处理它最擅长的样本区间。

Algebra Unveils Deep Learning -- An Invitation to Neuroalgebraic Geometry

本文提出 neuroalgebraic geometry(神经代数几何) 这一新研究方向,系统地利用代数几何的工具(维度、度、奇异点、纤维、临界点理论等)来分析深度学习模型参数化的函数空间(neuromanifold),建立起代数几何不变量与机器学习核心问题(样本复杂度、表达能力、训练动力学、隐式偏差)之间的对应字典。

Bayesian Neural Scaling Law Extrapolation with Prior-Data Fitted Networks

首个面向神经缩放定律(Neural Scaling Law)的贝叶斯外推方法,通过设计专门的先验分布(覆盖Down/Down-Down/Down-Up-Down三种功能族),利用PFN (Prior-data Fitted Networks) meta-learn外推能力,在点估计精度和不确定性质量上均优于现有方法。

Benign Overfitting in Token Selection of Attention Mechanism

本文首次从理论上证明了注意力机制中 token 选择的良性过拟合现象,表明一层注意力网络通过梯度下降可以完美拟合含噪标签的训练数据,同时在信号学习与噪声记忆之间保持平衡时仍能泛化。

Chameleon: A Flexible Data-mixing Framework for Language Model Pretraining and Finetuning

提出 Chameleon 框架,利用 kernel ridge leverage scores(KRLS)在代理模型的嵌入空间中量化各训练域的重要性,以仅 DoReMi 1/10 的计算成本达到同等或更优的数据混合效果,且支持新域引入时无需重训代理模型、统一处理预训练和微调场景。

Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers

通过直方图计数任务,揭示了小型Transformer中注意力层与前馈层之间的精细分工:注意力擅长关系比较(relation-based counting),前馈层负责字典记忆(inventory-based counting),两种策略的出现由嵌入维度 \(d\)、隐层大小 \(p\) 和词表大小 \(T\) 的相对关系决定。

Density Ratio Estimation-based Bayesian Optimization with Semi-Supervised Learning

提出 DRE-BO-SSL,将半监督学习(标签传播/标签扩散)引入密度比估计型贝叶斯优化,通过无标签数据点缓解监督分类器的过度利用(over-exploitation)问题,在探索与利用之间取得更好平衡。

DipLLM: Fine-Tuning LLM for Strategic Decision-Making in Diplomacy

提出 DipLLM,通过自回归分解框架将外交博弈的指数级组合动作空间分解为单元级决策序列,并微调 LLM 学习均衡策略,仅用 Cicero 1.5% 的训练数据即超越其性能。

Does Data Scaling Lead to Visual Compositional Generalization?

本文通过受控实验系统研究了数据规模与数据多样性对视觉模型组合泛化能力的影响,发现组合泛化的关键驱动力是数据多样性而非数据量,并证明当表示呈线性分解结构时仅需每个概念值2个组合样本即可完美泛化。

Evaluating Morphological Alignment of Tokenizers in 70 Languages

扩展 MorphScore 评估框架至 70 种语言,系统研究分词器的形态边界对齐程度与下游任务性能之间的相关性,发现形态对齐仅能解释极少量的性能方差,且呈负相关,挑战了"形态对齐分词有利于模型性能"的主流假设。

How to Synthesize Text Data without Model Collapse?

提出 Token-level Editing (ToEdit),通过对人类数据进行 token 级别的局部重采样(而非完全生成合成数据),在理论上证明测试误差存在有限上界,从而避免 model collapse,并在预训练、持续预训练和微调三个阶段验证了有效性。

In-Context Adaptation to Concept Drift for Learned Database Operations

提出 FLAIR 框架,利用数据库执行结果作为上下文实现 in-context adaptation,无需运行时参数更新即可应对 concept drift,在基数估计等任务上实现 5.2× 加速和 22.5% 误差降低。

Inductive Gradient Adjustment for Spectral Bias in Implicit Neural Representations

本文从 NTK 线性动力学模型出发,提出 Inductive Gradient Adjustment (IGA) 方法,通过归纳泛化 eNTK 梯度变换矩阵,有目的性地缓解 MLP 的频谱偏差,使 INR 在百万级数据点上也能高效学习高频细节。

Language Model Developers Should Report Train-Test Overlap

本文系统性地调研了30个语言模型开发者在训练-测试重叠(train-test overlap)方面的报告实践,发现仅9个模型提供了足够的重叠信息,并呼吁所有开发者在发布评估结果时必须同时报告训练-测试重叠统计数据或公开训练数据。

Language Models over Canonical Byte-Pair Encodings

揭示 BPE 分词下自回归语言模型给指数级数量的非规范 (noncanonical) token 编码分配了不必要的概率质量,提出基于有限状态自动机 (FSA) 的条件化与构造化两套修复方案,在多种模型和语料上一致提升 held-out 似然。

Large Language Models are Demonstration Pre-Selectors for Themselves

提出 FEEDER(FEw yet Essential Demonstration prE-selectoR),一个基于"充分性"和"必要性"度量的示例预选框架,利用 LLM 自身能力从训练数据中识别代表性子集,在 ICL 和微调两个场景下均可减少 20%+ 数据量同时保持甚至提升性能。

LLM Data Selection and Utilization via Dynamic Bi-level Optimization

提出动态数据加权模型(DWM),通过双层优化在LLM训练过程中实时调整每批数据的权重,捕捉模型动态变化的数据偏好,比静态数据选择方法一致提升性能且可迁移到不同模型规模。

Metadata Conditioning Accelerates Language Model Pre-training

提出 MeCo(Metadata Conditioning then Cooldown),在预训练时将文档的 URL 等元数据前置拼接到文本中,帮助模型区分异质数据源,最后 10% 训练用标准数据做 cooldown,使 1.6B 模型用 33% 更少的数据即可达到同等下游性能,同时解锁了通过条件推理引导生成的能力。

On the Clean Generalization and Robust Overfitting in Adversarial Training from Two Theoretical Views: Representation Complexity and Training Dynamics

本文从表示复杂度训练动态两个视角,理论解释了对抗训练中"干净泛化与鲁棒过拟合共存"(CGRO)现象:CGRO分类器仅需额外 \(\tilde{O}(ND)\) 参数即可通过鲁棒记忆实现,而真正的鲁棒泛化在最坏情况下需要指数级模型容量;在结构化数据上,对抗训练的三阶段相变过程会使网络部分学习真特征、完全记忆噪声,从而可证地收敛到CGRO状态。

On the Role of Label Noise in the Feature Learning Process

从特征学习理论视角严格分析了两层ReLU CNN在标签噪声下的训练动态,揭示清晰的二阶段行为——Stage I模型学信号拟合干净样本(泛化好),Stage II损失收敛后模型记忆噪声过拟合噪声样本(泛化退化)——并为早停和小损失样本选择提供严格理论保证。

Position: The Future of Bayesian Prediction Is Prior-Fitted

本文是一篇 position paper,主张 Prior-Data Fitted Networks (PFNs)——在随机生成的合成数据集上训练神经网络以近似贝叶斯后验预测分布——代表了贝叶斯推断的未来方向,因为它在实现简洁性、先验定义灵活性、推理速度上全面超越传统 MCMC/VI/GP 方法,并已在表格学习 (TabPFN) 中证明了超越 XGBoost 的实力。

Revisiting Continuity of Image Tokens for Cross-Domain Few-Shot Learning

发现破坏 ViT 图像 token 的连续性(使相邻 patch 像素不再平滑过渡)在源域性能显著下降但在目标域仅略降,揭示连续性帮助学习的大空间模式更难跨域迁移,据此提出简单有效的 ReCIT 方法来缩小域差距。

The Dark Side of the Forces: Assessing Non-Conservative Force Models for Atomistic Machine Learning

系统评估非保守力(直接预测而非从势能求导)机器学习原子间势在几何优化和分子动力学中的灾难性后果,并提出保守+非保守混合模型通过多时间步方案兼顾效率与物理正确性。

The Double-Ellipsoid Geometry of CLIP

通过数据驱动分析发现CLIP的L2归一化前primary embedding呈现双椭球壳几何——图像和文本分别在偏离原点的可线性分离椭球壳上,引入conformity概念解释该结构如何帮助缓解false negatives并解释modality gap的成因。

The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training

揭示了 Transformer 中不同类型模块(Emb、QK、FFN、VO、Norm)存在显著且持久的锐度差异(sharpness disparity),并据此提出 Blockwise LR 策略,为低锐度模块分配更大学习率,在不损失稳定性的前提下实现 LLM 预训练近 2× 加速

Tokenized Bandit for LLM Decoding and Alignment

将 LLM 解码与对齐问题形式化为 tokenized bandit(token化老虎机)问题,提出 DDMC(Diminishing Distance with More Commons)假设,证明在该假设下贪心解码近似最优,并设计了具有次线性遗憾的在线学习算法 EOFUL 和 GreedyETC。

Towards Robust Influence Functions with Flat Validation Minima

揭示影响函数 (IF) 在含噪训练数据上失效的根本原因不在于 Hessian 逆近似不准(先前研究的焦点),而在于验证损失的尖锐度导致损失变化估计失真,理论推导出 IF 误差上界与验证风险尖锐度的联系,并设计出专用于平坦验证极小值的新 IF 形式 (FVM)。

When Can In-Context Learning Generalize Out of Task Distribution?

通过在线性回归ICL任务上系统改变训练任务分布的覆盖范围(超球面帽的半角 \(\phi\)),发现transformer存在从"专用解"到"通用解"的sharp phase transition:当任务多样性超过临界阈值(\(\phi \gtrsim 120°\))时,模型能泛化到整个任务空间,甚至超越贝叶斯最优估计器的OOD性能。

Whitened CLIP as a Likelihood Surrogate of Images and Captions

提出 Whitened CLIP (W-CLIP),通过对 CLIP 嵌入做可逆 PCA 白化变换使其近似 i.i.d. 标准正态分布,从而用欧氏范数的平方直接估计图像和文本的对数似然,在伪影检测、域偏移分析和全圆 SLERP 图像操控中展现了有效性。


⚖️ 对齐/RLHF

ADHMR: Aligning Diffusion-based Human Mesh Recovery via Direct Preference Optimization

将DPO思想引入扩散式人体网格恢复(HMR):训练HMR-Scorer评估预测质量,构建偏好数据集(winner/loser对),用DPO微调基座扩散模型,无需3D标注即可提升in-the-wild图像上的HMR性能。

AlphaPO: Reward Shape Matters for LLM Alignment

AlphaPO 在 Direct Alignment Algorithms(DAA)框架中引入 \(\alpha\) 参数来改变奖励函数的"形状",从标准的 log 奖励推广到更一般的幂次变换形式,从而细粒度控制 likelihood displacement 和 over-optimization,在 Mistral-7B 和 Llama3-8B 上相对 SimPO 提升 7%-10%,相对 DPO 提升 15%-50%。

AMPO: Active Multi-Preference Optimization for Self-play Preference Selection

提出 AMPO 框架,将在线策略生成、多偏好组对比损失和主动子集选择相结合,通过从大规模候选响应池中智能挑选少量但信息丰富的子集进行偏好优化,在 AlpacaEval 上达到 SOTA。

AssistanceZero: Scalably Solving Assistance Games

提出 AssistanceZero,首次将 assistance game 扩展到复杂环境(Minecraft 建筑辅助,\(10^{400}\) 种可能目标),通过扩展 AlphaZero 增加 reward 预测头和人类行为预测头,在 MCTS 下进行不确定性规划,显著优于 PPO 和模仿学习基线,人类实验证明能有效减少用户操作并展现挖地基、推断屋顶、从纠正中学习等涌现行为。

BOPO: Neural Combinatorial Optimization via Best-anchored and Objective-guided Preference Optimization

将 preference optimization(偏好优化)引入神经组合优化(NCO),提出 BOPO:通过 (1) best-anchored 偏好对构建(hybrid rollout + uniform filtering + best-anchored pairing)和 (2) objective-guided 自适应缩放损失函数(\(\beta = g(y_l)/g(y_w)\)),在 JSP/TSP/FJSP 三类经典组合优化问题上全面超越 SOTA,无需 reward model 或参考策略。

Bounded Rationality for LLMs: Satisficing Alignment at Inference-Time

提出 SITAlign——基于有界理性的满意决策框架,在推理时最大化主要目标(如有用性)同时确保次要目标(如无害性)满足阈值约束,通过对偶理论求解,在 GPT-4 评估上相比多目标解码 SOTA 提升 22.3% 胜率。

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

发现 RLHF 中 KL 正则化带来的结构性质——策略对最优策略的 coverage 被其次优性控制(\(\text{Cov}^{\pi^*|\pi} \leq 1 + \kappa \cdot (J(\pi^*) - J(\pi))/\beta\)),据此提出两条迁移学习原则:(1) 选高 policy value 的 transfer policy,(2) self-transfer 从在线数据蒸馏策略。设计 TPO 算法实现早期 \(O(W\sqrt{T})\)、后期 \(O(\sqrt{T})\) 的 regret,可模块化集成 DPO/IPO/XPO,在 T5 summarization 实验上验证有效。

Challenges and Future Directions of Data-Centric AI Alignment

本文是一篇 position paper,倡导将 AI 对齐的研究重心从算法设计转向数据质量,通过对 Anthropic-HH 数据集的定性分析揭示了人类反馈中的六大不可靠来源,并提出了改进数据收集、清洗和验证的未来方向。

ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization

提出 ConfPO,通过策略模型自身的置信度分数识别偏好关键 token 并仅对其优化,无需额外模型或计算开销,在 AlpacaEval 2 和 Arena-Hard 上一致优于均匀优化的 DAA 方法,同时缓解奖励黑客问题。

D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples

本文提出 D-Fusion 方法,通过 mask 引导的自注意力融合(Self-Attention Fusion)构建视觉一致的偏好数据对并保留去噪轨迹,解决了 DPO 训练扩散模型时因视觉不一致导致效果受限的问题,在多种 RL 算法和 prompt 类型上显著提升了 prompt-image 对齐质量。

Diverging Preferences: When do Annotators Disagree and do Models Know?

本文系统分析了 RLHF 偏好数据集中标注者分歧的原因(建立了包含 10 个类别的分类法),发现超过 75% 的分歧源于个人偏好而非标注噪声,提出了分布式奖励模型(Mean-Var Reward Model)来有效区分分歧偏好与高一致偏好,并揭示了 LLM-as-Judge 评估方法在分歧情况下的系统性偏见。

DPO Meets PPO: Reinforced Token Optimization for RLHF

本文提出 Reinforced Token Optimization (RTO),将 RLHF 建模为 token 级别的 MDP(而非句子级 bandit),利用 DPO 隐式地提取 token-wise 奖励信号后用 PPO 进行策略优化,在 AlpacaEval 2 上比 PPO 高 7.5 分、在 Arena-Hard 上高 4.1 分,且仅需 1/8 数据量即可达到 PPO 级别性能。

Improving LLM Safety Alignment with Dual-Objective Optimization

通过梯度分析揭示DPO在安全对齐中的两大缺陷(学习率饱和与OOD泛化差),提出DOOR/W-DOOR双目标优化框架(鲁棒拒绝训练+有害知识遗忘+token级加权),在Llama-3-8B和Gemma-2-2B上显著降低了prefilling/suffix/multi-turn等多种越狱攻击的成功率,同时保持通用能力。

Instruction Tuning of Large Language Models for Tabular Data Generation—in One Day

本文首次探索用指令微调提升 LLM 的表格数据生成能力,通过构建仅 10K 条高质量指令数据集并在单张 A100 上微调 Llama3.1-8B-Instruct 不到 6 小时,即可达到与 GPT-4o 相当的表格数据生成性能。

Layer-wise Alignment: Examining Safety Alignment Across Image Encoder Layers in Vision Language Models

本文发现了 VLM 中图像编码器的"早退出"漏洞(ICET)——跳过图像编码器的部分层会大幅增加有害输出概率,提出 Layer-wise PPO (L-PPO) 修改 Clipped-PPO 算法在不同层级做多模态 RLHF,在 ASR 上降低高达 48%、毒性分数降低 33.64%。

M³HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality

提出 M³HF 框架,在多智能体强化学习训练过程中整合多阶段、混合质量的人类自然语言反馈,利用 LLM 解析反馈并通过预定义模板和自适应权重更新奖励函数,显著提升多智能体协作性能。

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization

本文提出 MMedPO,一种临床感知的多模态医学偏好优化方法,通过注入可信幻觉和局部病灶加噪构建多模态偏好数据,利用多个医学 LLM 协作评估临床相关性作为加权信号融入 DPO 训练,在 Med-VQA 和报告生成任务上分别平均提升 14.2% 和 51.7%。

Model Swarms: Collaborative Search to Adapt LLM Experts via Swarm Intelligence

借鉴粒子群优化(PSO)算法,将多个 LLM 专家视为"粒子",在权重空间中协作搜索,通过个体最优/全局最优/全局最差三个信号引导专家迭代移动,仅需 200 个样本即可实现无需微调的模型适配,在 9 个任务上平均超越 12 个基线 13.3%。

MPO: An Efficient Post-Processing Framework for Mixing Diverse Preference Alignment

提出 MPO(Mixing Preference Optimization),一个轻量级后处理框架,通过对数线性组合已有单目标策略来实现多偏好对齐,避免了多目标 RLHF 中昂贵的强化学习过程。

On the Robustness of Reward Models for Language Model Alignment

提出 Batch-wise Sum-to-Zero Regularization (BSR),通过约束每个 batch 内奖励分数之和为零来抑制隐状态范数的过度弥散,从根源上解决奖励模型的过优化问题,使 8B 规模 RM 在复杂偏好预测任务上超越 SOTA 5%+,并在 RLHF 下游训练中将生成长度降低 40% 同时提升 7% 胜率。

Preference Optimization for Combinatorial Optimization Problems

将RLHF中的偏好优化思想引入组合优化(COP),把定量奖励信号转化为定性偏好信号,结合熵正则化目标和局部搜索微调,在TSP/CVRP/FFSP等标准基准上实现了1.5x-2.5x的收敛加速和更优解质量。

Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift

提出 NS-DPO,通过 Dynamic Bradley-Terry 模型引入单一指数衰减参数 γ 对训练数据进行时序加权,使 DPO 在偏好随时间漂移的场景下仍能鲁棒对齐,同时在平稳场景下不损失性能。

Safety Alignment Can Be Not Superficial With Explicit Safety Signals

通过在LLM中引入显式的安全二分类任务([CLS] token),并设计策略性注意力机制和解码策略,在推理过程中动态评估安全性,以不到0.2x的额外开销将对抗攻击成功率从90%+降至接近0%。

Self-Consistency Preference Optimization

将推理时的自一致性(self-consistency)概念引入训练阶段,通过投票机制构建偏好对并使用加权DPO损失进行迭代训练,在无需金标签的情况下大幅提升LLM的数学和逻辑推理能力。

Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences

提出 SmPO-Diffusion,通过平滑偏好建模替代二元偏好标签 + ReNoise Inversion 替代前向加噪估计,在大幅降低训练成本(比 DPO 快 6.5 倍,比 KTO 快 26 倍)的同时实现了 T2I 扩散模型偏好对齐的 SOTA 性能。

TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization

将序列级PPO分解为一系列token级近端策略优化问题,并引入token级奖励引导函数 \(f(\hat{r}(s_t, a_t))\) 来替代DPO中的固定常数 \(\beta\),使不同token根据各自奖励值呈现不同程度的偏离参考策略,在MT-Bench/AlpacaEval 2/Arena-Hard上分别提升最多7.5/6.2/4.3个胜率点。

Vulnerability-Aware Alignment: Mitigating Uneven Forgetting in Harmful Fine-Tuning

揭示安全对齐数据在有害微调(HFT)过程中存在不均匀遗忘现象——某些样本子集在不同微调任务和有害数据比例下始终更容易被破坏,据此提出 Vulnerability-Aware Alignment (VAA):先通过代理微调识别脆弱/非脆弱样本分组,再利用 Group DRO 框架学习对抗采样器进行平衡训练,在四个下游微调任务上将平均有害率从 34.5% 降至 24.8%,同时保持下游任务精度。


📈 时间序列

Are LLMs Prescient? A Continuous Evaluation using Daily News as the Oracle

提出 Daily Oracle——一个每日自动从新闻生成预测性 QA 对的持续评估基准,系统性揭示了 LLM 预测能力随预训练数据过时而平滑退化的规律,TF 题平均降 21.55%、MC 题降 11.33%,且 RAG 也无法完全挽救。

Breaking Silos: Adaptive Model Fusion Unlocks Better Time Series Forecasting

提出 TimeFuse——一个样本级自适应模型融合框架,通过元特征描述输入时间序列特征并训练可学习融合器预测最优模型组合权重,在多个预测基准上对 SOTA 模型实现近乎普遍的改进(95.1% 样本优于最佳单模型)。

Causal Discovery from Conditionally Stationary Time Series

提出 SDCI(State-Dependent Causal Inference)——处理条件平稳时间序列的因果发现方法,通过离散潜状态变量建模非平稳行为,实现状态依赖的因果结构恢复,在粒子交互、基因调控网络和 NBA 球员运动预测中验证有效性。

Causality-Aware Contrastive Learning for Robust Multivariate Time-Series Anomaly Detection

提出 CAROTS——将因果关系融入对比学习的多变量时间序列异常检测框架,用因果保持增强作为正样本(正常变化),因果破坏增强作为负样本(模拟异常),训练编码器基于因果结构区分正常与异常。

Channel Normalization for Time Series Channel Identification

提出通道归一化(Channel Normalization, CN),通过为每个通道分配独立的仿射变换参数来增强时间序列模型的通道可辨识性(CID),并扩展出自适应版本 ACN(动态调整参数)和原型版本 PCN(支持未知/可变通道数),在多种时间序列模型上实现显著性能提升。

Context is Key: A Benchmark for Forecasting with Essential Textual Information

提出 Context is Key(CiK)基准——71个手工设计的预测任务横跨7个领域,每个任务必须结合数值历史和自然语言上下文才能准确预测,同时提出 RCRPS 评估指标和 Direct Prompt 方法,发现 Llama-3.1-405B 的简单提示方法(RCRPS=0.159)大幅领先所有统计模型和时序基础模型。

Customizing the Inductive Biases of Softmax Attention using Structured Matrices

提出用高效结构化矩阵(BTT 和 MLR)替换 softmax attention 中的低秩打分函数,既解决了标准 attention 的低秩瓶颈问题,又通过 MLR 引入了距离依赖的计算偏置,在上下文回归、语言建模和长程时间序列预测上均取得改进。

Event-Aware Sentiment Factors from LLM-Augmented Financial Tweets: A Transparent Framework for Interpretable Quant Trading

利用大语言模型对金融推文进行多标签事件分类标注,将非结构化社交媒体文本转化为结构化、可解释的事件驱动量化因子,发现特定事件类别(如谣言/投机)具有显著的负Alpha信号(Sharpe ratio低至-0.38)。

HyperIMTS: Hypergraph Neural Network for Irregular Multivariate Time Series Forecasting

提出 HyperIMTS,利用超图结构表示不规则多元时间序列(IMTS)中的观测值和其依赖关系,通过三种消息传递机制(节点→超边、超边→超边、超边→节点)实现不规则性感知的时间和变量依赖学习,在 5 个 IMTS 数据集上达到 SOTA 且计算效率优于 padding 方法。

IMTS is Worth Time × Channel Patches: Visual Masked Autoencoders for Irregular Multivariate Time Series Prediction

提出 VIMTS 框架,将不规则多变量时间序列(IMTS)转化为 time × channel 的类图像 patch 结构,借助在大规模 RGB 图像上预训练的视觉 MAE 的稀疏多通道建模能力,结合 GCN 跨通道补全与粗到细预测策略,在 IMTS 预测任务上实现 SOTA 性能和强 few-shot 能力。

KAN-AD: Time Series Anomaly Detection with Kolmogorov-Arnold Networks

KAN-AD 将时间序列异常检测重新建模为用光滑单变量函数逼近序列,用截断傅里叶展开替代 KAN 中的 B 样条避免局部扰动敏感性,以不到 1000 个参数在 4 个基准上平均提升 15% 检测精度。

Learning Soft Sparse Shapes for Efficient Time-Series Classification

提出 SoftShape 模型,用基于贡献分数的软稀疏化替代传统硬筛选 shapelet 的方式,结合 MoE 驱动的 intra-shape 和 shared expert 的 inter-shape 双模式时序模式学习,在 128 个 UCR 数据集上取得 SOTA 分类精度。

LightGTS: A Lightweight General Time Series Forecasting Model

提出 LightGTS,利用时间序列固有的尺度不变周期性归纳偏置,通过 Periodical Tokenization 和 Periodical Parallel Decoding 两个核心技术,仅用不到 500 万参数就在 9 个基准数据集上的 zero-shot 和 full-shot 设定中取得了 SOTA 性能,比现有时序基础模型小 10-100 倍。

Lyapunov Learning at the Onset of Chaos

提出 Lyapunov Learning 算法,通过将神经网络视为动力系统并在损失函数中加入 Lyapunov 指数正则项,将网络推向混沌边缘(edge of chaos),从而在非平稳时间序列发生 regime shift 时实现快速自适应,在 Lorenz 系统实验中将 post-shift MSE 降低约 96%。

Risk and Cross Validation in Ridge Regression with Correlated Samples

利用随机矩阵理论和自由概率技术,为训练样本具有任意相关性的高维岭回归推导了精确的风险渐近公式,提出了修正的广义交叉验证估计器 CorrGCV,在样本相关条件下准确预测样本外风险。

TQNet: Temporal Query Network for Efficient Multivariate Time Series Forecasting

提出Temporal Query(TQ)技术——使用周期性移位的可学习向量作为注意力机制的query来捕获全局变量间相关模式,同时keys/values来自原始数据以保留样本级局部信息,在此基础上构建的TQNet仅使用单层多头注意力和浅层MLP,即在12个真实数据集上达到整体SOTA,且效率接近线性方法DLinear。

TimePoint: Accelerated Time Series Alignment via Self-Supervised Keypoint and Descriptor Learning

提出 TimePoint——受 2D 关键点检测启发但针对 1D 信号重新设计的自监督方法,通过学习时间序列的关键点和描述子实现稀疏表示,将 DTW 应用于稀疏关键点而非完整信号,在大幅加速对齐的同时通常提升对齐精度。

TimePro: Efficient Multivariate Long-term Time Series Forecasting with Variable- and Time-Aware Hyper-state

提出基于 Mamba 的 TimePro 模型,通过构建变量感知和时间感知的超级状态(hyper-state),自适应选择关键时间点来调节变量维度的隐状态,以线性复杂度实现高效的多变量长期时间序列预测。

TIMING: Temporality-Aware Integrated Gradients for Time Series Explanation

提出 TIMING 方法,通过引入时序感知的分段随机掩码基线改进 Integrated Gradients,同时设计新评估指标 CPD/CPP 解决现有时序 XAI 评估中正负归因相互抵消的问题,在多个真实数据集上全面超越现有基线。

TransPL: VQ-Code Transition Matrices for Pseudo-Labeling of Time Series Unsupervised Domain Adaptation

提出 TransPL,通过将时间序列 patch 离散化为 VQ 码并构建类别-通道级转移矩阵,利用贝叶斯定理在目标域生成可解释伪标签,实现时间序列无监督域适应中平均 6.1% 准确率和 4.9% F1 的提升。

Understanding the Limits of Deep Tabular Methods with Temporal Shift

揭示深度表格模型在时间分布偏移下失败的根因——训练滞后与验证偏差导致模型选择失效,以及模型表示丢失周期/趋势信息——并提出改进的时序划分策略和基于傅里叶级数的即插即用时间嵌入方法。

WAVE: Weighted Autoregressive Varying Gate for Time Series Forecasting

将经典统计学中的ARMA(自回归移动平均)结构引入自回归Transformer注意力机制,通过间接MA权重生成方法在不增加时间复杂度和参数量的前提下,解耦长短期时序模式,显著提升时间序列预测性能。

When Will It Fail?: Anomaly to Prompt for Forecasting Future Anomalies in Time Series

提出 Anomaly to Prompt (A2P) 框架,通过异常感知预测 (AAF) 和合成异常提示 (SAP) 两大模块,首次有效解决时间序列中"未来异常预测"(Anomaly Prediction) 这一新任务——不仅预测未来信号走势,还能精准定位未来哪些时间点会出现异常。

A2P: Anomaly to Prompt for Forecasting Future Anomalies in Time Series

提出A2P框架解决"异常预测(AP)"新任务——预测未来哪些时间点会发生异常,通过Anomaly-Aware Forecasting让预测模型学习异常关系+Synthetic Anomaly Prompting用可学习prompt模拟多样异常模式。

Winner-takes-all for Multivariate Probabilistic Time Series Forecasting

提出 TimeMCL,将 Multiple Choice Learning 的 Winner-Takes-All (WTA) 损失引入多变量概率时序预测,通过多头网络单次前向传播即可生成多样且具代表性的未来轨迹,兼顾预测质量与计算效率。


⚡ LLM效率

Addressing Imbalanced Domain-Incremental Learning through Dual-Balance Collaborative Experts (DCE)

DCE 提出频率感知专家组 + 动态专家选择器的双阶段训练框架,同时解决域增量学习中域内类别不平衡和跨域类别分布偏移两个难题,在四个 benchmark 上达到 SOTA。

Autonomy-of-Experts Models (AoE)

AoE 提出让 MoE 中的 expert 基于自身内部激活范数自主决定是否处理输入(而非由外部 router 决定),通过低秩权重分解降低预计算开销,在 700M-4B 参数语言模型预训练中超越传统 MoE。

Consistency in Language Models: Current Landscape, Challenges, and Future Directions

系统综述了 LLM 一致性研究的全景,提出包含逻辑一致性(否定/对称/传递)、语义一致性、事实/信息一致性和非逻辑一致性(道德/规范)的分类体系,分析了 2019-2025 年间评测方法的不足,并呼吁建立标准化多语言基准和跨学科方法。

CostFilter-AD: Enhancing Anomaly Detection through Matching Cost Filtering

将立体匹配/光流估计中的代价体滤波(cost volume filtering)思想引入无监督异常检测(UAD),构造输入与模板之间的匹配代价体,并通过3D U-Net 加双流注意力引导进行去噪滤波,作为通用后处理插件可同时提升重建型和嵌入型 UAD 方法的性能,在 MVTec-AD 和 VisA 上取得 SOTA。

Curse of High Dimensionality Issue in Transformer for Long-context Modeling

本文从监督学习视角重新审视序列建模中的注意力冗余问题,提出了 Dynamic Group Attention (DGA) 机制,通过将不重要的 token 动态分组聚合来减少注意力计算中的冗余,在保持竞争性能的同时大幅降低推理延迟(LLaMA2-7B 在 16K 上下文下推理速度提升 2.42 倍)。

Curvature Enhanced Data Augmentation for Regression

提出 CEMS(Curvature-Enhanced Manifold Sampling),利用数据流形的二阶近似(曲率信息)生成合成样本,用于回归任务的数据增强,在分布内和分布外场景均取得 SOTA 或接近 SOTA 的性能。

EasyInv: Toward Fast and Better DDIM Inversion

提出 EasyInv,通过在反演过程中周期性地将当前 latent 状态与前一步 latent 状态加权聚合(类卡尔曼滤波),增强初始 latent 的影响力、抑制噪声累积误差,在不需要迭代优化的前提下达到与迭代方法相当甚至更好的反演质量,同时推理速度提升约 3 倍。

Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling

本文提出 Grouped Cross-Attention (GCA) 机制,将 chunk 级别的因果检索(causal retrieval)集成到注意力中实现端到端可学习的检索器,构建的 Differentiable Retrieval-based Transformer (DRT) 在 16M 上下文的 passkey 检索测试中达到近乎完美的准确率,实现了训练长度 1000 倍的长度泛化。

Ladder Residual: Parallelism-Aware Architecture for Accelerating Large Model Inference

本文提出 Ladder Residual,一种简单的架构修改——将每个模块的输入从上一层的输出改为上上层的输出(错位残差),使模块计算与 AllReduce 通信解耦,从而实现通信与计算的重叠,在 70B 模型 8 卡 TP 推理中实现 29% 的端到端加速,且模型性能与标准 Transformer 持平。

Long-Short Alignment for Effective Long-Context Modeling in LLMs

本文从模型输出分布的角度提出长度泛化的新视角——长短对齐 (Long-Short Alignment),指出不同长度输入的输出分布一致性是长度泛化的关键因素,提出 Long-Short Misalignment 度量并将其作为训练正则项,在合成任务和自然语言任务上均显著提升长上下文建模能力。

Mixture of Lookup Experts

提出 MoLE(Mixture of Lookup Experts),将 MoE 中的路由专家输入从中间特征改为 embedding token,使专家可在推理前被重参数化为查找表(LUT)并卸载到存储设备,从而在保持 MoE 级别性能的同时实现与 dense 模型相当的推理速度和显存占用。

MoH: Multi-Head Attention as Mixture-of-Head Attention

本文将多头注意力(MHA)重新表述为求和形式,借鉴 MoE 思想提出 Mixture-of-Head Attention(MoH),通过路由器为每个 token 动态选择最相关的注意力头子集,仅激活 50%~90% 的头即可匹配甚至超越标准 MHA 性能,并证明预训练模型(如 LLaMA3-8B)可通过 continue-tuning 转换为 MoH 模型。

NExtLong: Toward Effective Long-Context Training without Long Documents

本文提出 NExtLong 框架,通过将文档分割为 meta-chunk 并在 chunk 之间插入从预训练语料检索的硬负例干扰文本来合成长上下文训练数据,迫使模型区分长距离依赖信息和干扰内容,在 HELMET 和 RULER 基准上比此前最佳的长上下文合成方法 Quest 平均提升 7.33%。

Online Sparsification of Bipartite-Like Clusters in Graphs

提出了一种近线性时间的在线图稀疏化算法,能在保留图的二部图式聚类(bipartite-like clusters)结构的前提下,将边数压缩到 \(\widetilde{O}(n)\),同时适用于无向图和有向图,显著加速现有聚类算法。

PENCIL: Long Thoughts with Short Memory

提出 PENCIL(PENCIL ENables Context-efficient Inference and Learning),在自回归生成过程中引入受函数调用栈启发的归约规则(reduction rule),递归地清除不再需要的中间推理步骤,使LLM能以多项式级上下文长度解决本需指数级上下文的计算难题。

Position: Theory of Mind Benchmarks are Broken for Large Language Models

这篇 Position Paper 指出当前大多数 LLM Theory of Mind(ToM)基准只测“能否预测他人行为”(Literal ToM),却没有测“能否基于该预测采取最优响应”(Functional ToM),因此会系统性高估模型在真实交互中的适应能力。

Ranked Entropy Minimization for Continual Test-Time Adaptation

提出 Ranked Entropy Minimization (REM),通过渐进式遮挡策略构建预测难度的显式排序结构,结合遮挡一致性损失和熵排序损失,解决了熵最小化方法在持续测试时自适应(CTTA)中的模型崩塌问题,同时保持了计算效率。

Rejecting Hallucinated State Targets during Planning

本文系统识别了目标导向决策规划中生成器产生不可行目标(幻觉目标)导致的"妄想行为"类型,并设计了一种可行性评估器(feasibility evaluator)作为附加模块来识别和拒绝这些不可行目标,结合离策略学习规则、分布式架构和后见重标记数据增强,在不修改原始智能体的前提下显著减少妄想行为并提升OOD泛化性能。

Retraining-Free Merging of Sparse MoE via Hierarchical Clustering

提出 HC-SMoE,一种基于专家输出层次聚类的无需重训练专家合并框架,通过输出相似度度量和层次聚类实现 SMoE 模型的高效压缩,在 Qwen 和 Mixtral 上分别实现 25%-50% 的专家参数缩减并保持优越性能。

Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets

Safe Delta提出了一种安全感知的后训练防御方法,通过估计安全退化程度、选择性保留delta参数以最大化效用同时限制安全损失、并施加安全补偿向量来弥补残余安全损失,在多种微调数据集(不同规模、任务类型)上一致地保持LLM安全性而不牺牲效用。

Scaling Inference-Efficient Language Models

本文提出了推理感知的 Scaling Law,通过在 Chinchilla 损失函数中引入模型宽高比(aspect ratio)项来联合优化参数量、训练 token 数和模型形状,训练 63 个模型拟合该定律后指导设计了 Morph-1B 模型,在保持下游任务精度的同时实现 1.8× 推理延迟提升。

Star Attention: Efficient LLM Inference over Long Sequences

提出Star Attention两阶段块稀疏注意力:第一阶段将上下文分块在多主机上局部注意力编码,第二阶段查询通过聚合全局注意力生成,无需微调即可兼容现有LLM,推理加速11倍且保持97-100%精度。


🔄 自监督

A Bayesian Model Selection Criterion for Selecting Pretraining Checkpoints

引入"下游自由能"作为预训练检查点可适应性的贝叶斯模型选择准则,证明"预训练自由能"可作为其上界代理(无需下游数据),并实验验证大学习率/小 batch/高 momentum 通过降低预训练自由能改善下游迁移性能。

AdaWorld: Learning Adaptable World Models with Latent Actions

提出 AdaWorld——通过从视频中自监督提取潜在动作(latent actions)进行动作感知预训练,构建高度可适应的世界模型,支持零样本动作迁移和少量交互快速适应新环境。

Alpha-SQL: Zero-Shot Text-to-SQL using Monte Carlo Tree Search

Alpha-SQL 将零样本 Text-to-SQL 建模为树搜索问题,通过蒙特卡洛树搜索 (MCTS) 框架结合 LLM-as-Action-Model 和自监督奖励函数,无需微调即可在 BIRD 数据集上以 32B 开源模型达到 69.7% 执行精度,超越基于 GPT-4o 的零样本 SOTA 2.5 个百分点。

Beyond Sensor Data: Foundation Models of Behavioral Data from Wearables Improve Health Predictions

在 Apple Heart and Movement Study 的 162K 参与者、25 亿小时可穿戴行为数据上,系统探索 tokenizer 和架构组合,以 TST+Mamba-2+对比学习构建行为数据基础模型 WBM,在 57 项健康检测任务上显著优于手工特征基线,并与 PPG 传感器模型形成互补。

CLARIFY: Contrastive Preference Reinforcement Learning for Untangling Ambiguous Queries

提出 CLARIFY 方法,通过对比学习构建融合偏好信息的轨迹嵌入空间,利用拒绝采样选择更清晰可区分的偏好查询,从而提升离线 PbRL 在非理想反馈下的标注效率和策略性能。

ReSA: Clustering Properties of Self-Supervised Learning

系统分析了 JEA-based SSL 中各组件的聚类性质,发现 encoding 比 embedding 和 projector 隐层具有更优更稳定的聚类能力,据此提出 ReSA(Representation Self-Assignment)利用 encoding 的聚类信息引导 embedding 学习,形成正反馈 SSL 框架,在多个标准基准上大幅超越 SOTA。

Collapse-Proof Non-Contrastive Self-Supervised Learning

提出 FALCON 方法,基于超维计算 (hyperdimensional computing) 原理设计投影器和损失函数,理论证明可同时避免四种已知训练失败模式(表示崩塌、维度崩塌、聚类崩塌、簇内崩塌),并使表征自然具备去相关和聚类特性。

Contextures: Representations from Contexts

建立 contexture 理论,统一证明监督学习、自监督学习和流形学习等多种表示学习范式都可被理解为学习上下文变量诱导的期望算子的 top-\(d\) 奇异函数,并揭示模型规模增大的边际递减效应以及提出上下文质量评估指标。

Deep Learning is Not So Mysterious or Different

本文是一篇 position paper,论证深度学习中被认为"神秘"的泛化现象(良性过拟合、双重下降、过参数化的成功)并非深度学习独有,也不神秘,可以通过长期存在的泛化框架(PAC-Bayes、可数假设界)形式化描述,并提出软归纳偏置(soft inductive biases)作为统一解释原则。

Foundation Model Insights and a Multi-Model Approach for Superior Fine-Grained One-shot Subset Selection

本文系统研究了基础模型(FM)替代传统信息提取器(IE)用于子集选择的优劣,发现 FM 在细粒度数据集上显著优于传统 IE,并提出 RAM-APL 方法,利用多个 FM(DINOv2 + CLIP)从类内和类间两个维度联合衡量样本重要性,在三个细粒度数据集上达到 SOTA。

Generalization Analysis for Supervised Contrastive Representation Learning under Non-IID Settings

本文首次在非独立同分布(non-IID)条件下为监督对比表征学习(CRL)建立了泛化界,利用 U-统计量分解技术处理训练元组重叠样本的依赖性问题,给出了以标记样本数 \(N\) 为自变量的 excess risk 收敛速率。

Griffin: Towards a Graph-Centric Relational Database Foundation Model

Griffin 是首个面向关系数据库(RDB)的基础模型,通过将多表结构转化为异构图,结合统一编码器/解码器、交叉注意力和层级聚合的 MPNN,在 150M+ 行数据上进行自监督掩码补全预训练 + 联合 SFT,实现跨数据库、跨域、跨任务的泛化预测。

L2D: Large Language Models to Diffusion Finetuning

提出L2D微调方法,将预训练LLM视为单步扩散模型,引入并行扩散路径实现多步推理缩放,不修改原始权重即可随推理步数增加获得单调递增的准确率,在4个LLM上的数学/编码/推理任务上取得一致提升。

MTL-UE: Learning to Learn Nothing for Multi-Task Learning

MTL-UE是首个针对多任务学习的不可学习样本生成框架,通过编码器-解码器架构注入任务特定的类别先验嵌入来降低虚假特征的类内方差,配合任务内/间嵌入余弦正则化增大类间距离和减少冗余,在CelebA(40任务)上将MTL模型准确率从91%降至59%,在4个数据集、3种基础UE方法、5种backbone和5种MTL策略上一致有效。

Neighbour-Driven Gaussian Process Variational Autoencoders for Scalable Structured Latent Modelling

提出两种基于最近邻的高斯过程先验近似方法(HPA 和 SPA),将近邻驱动的稀疏性引入 GPVAE 的潜空间推断,在保留关键潜变量依赖的同时实现可扩展的 mini-batch 训练,避免了对大量诱导点或受限核函数的依赖。

PDE-Transformer: Efficient and Versatile Transformers for Physics Simulations

提出 PDE-Transformer,一种面向物理模拟的改进 Transformer 架构,通过分离通道嵌入、移位窗口注意力和多尺度 U 形结构,在 16 种 PDE 类型上超越现有 SOTA,并展现出强大的下游任务迁移能力。

Proxy-FDA: Proxy-based Feature Distribution Alignment for Fine-tuning Vision Foundation Models without Forgetting

提出结构级特征正则化方法 Proxy-FDA:通过迁移预训练特征空间的最近邻图到微调特征空间,并用轻量代理生成器合成新特征增强分布覆盖,在不牺牲下游精度的前提下实现所有微调任务的正向迁移。

Test-Time Canonicalization by Foundation Models for Robust Perception

提出 FoCal 框架,在推理阶段利用 CLIP 和 Stable Diffusion 的视觉先验,通过"变换-排序"策略将输入图像变换为最具视觉典型性的版本,无需重训练即可提升模型对视角、光照、旋转等变换的鲁棒性。

Test-Time Training Provably Improves Transformers as In-Context Learners

本文从理论上严格证明了测试时训练(TTT)能够可证明地提升 Transformer 的上下文学习(ICL)能力,并在表格基础模型 TabPFN 上验证 TTT 可将所需样本量减少 3-5 倍,同时带来显著的推理效率提升。

Towards Benchmarking Foundation Models for Tabular Data With Text

首个系统性研究含文本特征的表格数据建模:设计定性反例暴露三类文本嵌入的失败模式,手动策划 13 个真实数据集,发现文本特征在 11/13 数据集上提升预测精度,但无单一最优嵌入方法,表明表格+文本仍是未解决问题。

Update Your Transformer to the Latest Release: Re-Basin of Task Vectors

提出 TransFusion,一种专为 Transformer 设计的两级权重置换方法(头间+头内),实现将旧模型的微调知识(任务向量)免数据免训练地迁移至新版基础模型。

What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models

本文提出"归纳偏置探针"(Inductive Bias Probe),通过在合成数据上反复微调基础模型来测试其外推行为是否符合预设的世界模型,发现在轨道力学、Othello、格问题等领域中,基础模型虽然能准确预测序列但未真正学到底层世界模型,而是发展出特定于任务的启发式策略。


✂️ 语义分割

ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

提出 ActionPiece,首个上下文感知的动作序列分词器,将用户行为序列建模为"特征集合的序列",通过类 BPE 的合并策略在集合内部和相邻集合之间发现高频特征模式,使同一动作在不同上下文中被分词为不同 token,显著提升生成式推荐性能。

ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

提出 ActionPiece,首个上下文感知的动作序列分词方法,将每个动作表示为无序特征集合,通过加权共现统计在集合内和相邻集合间学习合并规则构建词表,使同一动作在不同上下文中被分词为不同token,在推荐任务中显著提升生成式推荐的准确性。

Adapter Naturally Serves as Decoupler for Cross-Domain Few-Shot Semantic Segmentation

本文发现 adapter 天然具有领域信息解耦能力(基于结构而非损失),据此提出 Domain Feature Navigator (DFN) 作为结构化领域解耦器,配合 SAM-SVN 防止源域过拟合,在跨域少样本语义分割 (CD-FSS) 上以 1-shot 平均 63.99% / 5-shot 平均 69.77% MIoU 显著超越 SOTA。

Alberta Wells Dataset: Pinpointing Oil and Gas Wells from Satellite Imagery

提出首个大规模油气井检测基准数据集 Alberta Wells Dataset(213k+ 井位、188k+ 卫星图像 patch),将废弃/暂停/活跃油气井的定位问题建模为二值分割和目标检测任务,并评估了多种 CNN 和 Transformer 基线模型。

Aligning Spoken Dialogue Models from User Interactions

首次为全双工语音对话模型(Moshi)设计完整的偏好对齐框架,从15万+条真实用户语音对话中自动构建内容+时序两类偏好对,通过仅在文本token上做DPO-LN对齐,QA平均提升3.1%、安全性提升6.9%,并通过人类评估确认多轮对话质量的改善。

Balanced Learning for Domain Adaptive Semantic Segmentation

提出 BLDA——通过分析网络预测的 logit 分布来直接量化类别偏差程度,用共享锚点分布对齐各类 logit 分布实现后处理校准,同时在自训练中用 GMM 在线估计并修正 logit 生成无偏伪标签,在 GTA→CS 和 SYN→CS 两个基准上为多种基线方法带来一致提升。

ConText: Driving In-context Learning for Text Removal and Segmentation

首次将视觉上下文学习(V-ICL)范式应用于OCR任务,提出任务链式提示(task-chaining prompting)、上下文感知聚合(CAA)和自提示策略(self-prompting)三项关键设计,在文本去除和分割任务上大幅超越现有V-ICL通用模型和专用模型,分别取得 +4.50 PSNR 和 +3.34% fgIoU 的提升。

Dual form Complementary Masking for Domain-Adaptive Image Segmentation

提出 MaskTwins 框架,将掩码重建理论化为稀疏信号重建问题,证明互补掩码对(dual form complementary masks)在提取域无关特征方面具有理论优势,并在端到端训练中通过互补掩码一致性约束实现域自适应分割。

Efficient and Robust Semantic Image Communication via Stable Cascade

基于 Stable Cascade 架构构建语义图像通信框架,利用 EfficientNet-V2 提取极紧凑图像嵌入(仅占原始大小 0.29%)作为 LDM 条件,通过噪声鲁棒微调使系统在低 SNR 信道下仍能忠实重建图像,同时实现 3-16 倍推理加速。

FeatSharp: Your Vision Model Features, Sharper

提出 FeatSharp,通过将 FeatUp 的联合双边上采样(JBU)与图像瓦片(tiling)特征进行注意力融合,以极低成本将低分辨率视觉编码器的特征图连贯地上采样到高分辨率,同时捕获原始分辨率下丢失的细粒度细节。

InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective

提出 InfoSAM,从信息论角度为 SAM 的参数高效微调(PEFT)设计了基于 Rényi 互信息的关系压缩与蒸馏框架,通过压缩伪不变信息、保留域不变关系来提升微调效果。

IT³: Idempotent Test-Time Training

提出 IT³,一种基于幂等性(idempotence)的通用测试时训练方法,通过最小化网络递归调用间的偏差来适应分布外样本,无需领域特定的辅助任务,适用于任意任务和架构。

MorphTok: Morphologically Grounded Tokenization for Indian Languages

提出 MorphTok 框架,通过形态学感知的预分词步骤(查找表/语言模型)和约束 BPE(CBPE)算法处理印度语言中的依存元音问题,在机器翻译和语言建模任务上提升下游性能,并引入人类评估指标 EvalTok。

QMamba: On First Exploration of Vision Mamba for Image Quality Assessment

首次将 Vision Mamba(状态空间模型)引入图像质量评估(IQA),提出 QMamba 框架和 StylePrompt 轻量微调策略,在合成/真实/AIGC 多种 IQA 任务上以更低计算成本超越 CNN 和 Transformer 基线。

Self-Disentanglement and Re-Composition for Cross-Domain Few-Shot Segmentation

本文发现跨域少样本分割(CD-FSS)中基于距离比较的方法存在特征纠缠问题,其根源在于ViT各层输出在距离计算时的等权交叉匹配,进而提出通过自解耦(Self-Disentanglement)和重组合(Re-Composition)的方式,学习ViT组件间的比较权重来解决该问题。

Separating Knowledge and Perception with Procedural Data

仅用程序化生成数据(非真实图像)训练视觉表征模型,再通过 visual memory(KNN 检索数据库)注入真实世界知识,在分类和分割任务上逼近真实数据训练的性能,同时实现对所有真实数据的完全可控(隐私保护、高效遗忘)。

Sounding that Object: Interactive Object-Aware Image to Audio Generation

提出一种交互式对象感知音频生成模型,通过多模态点积注意力在训练时学习图像区域与声音的关联,在测试时用 SAM 分割掩码替代注意力权重,允许用户通过点击选择图像中的视觉对象来生成对应的声音。

SpikeVideoFormer: An Efficient Spike-Driven Video Transformer with Hamming Attention and \(\mathcal{O}(T)\) Complexity

提出 SpikeVideoFormer,首个面向视频任务的脉冲驱动 Transformer,通过 Hamming 注意力替代点积注意力实现 spike 特征相似性的准确度量,结合联合时空注意力保持 \(\mathcal{O}(T)\) 线性时间复杂度,在三个视频任务上达到 SNN SOTA,同时效率比 ANN 高 5-16 倍。

SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics

提出 SToFM,首个多尺度空间转录组学基础模型,通过基因尺度域适应、微观尺度子切片划分和宏观尺度虚拟细胞注入,结合 SE(2) Transformer 和 88M 细胞的大规模预训练语料库,在组织区域语义分割和细胞类型标注等任务上显著超越现有方法。

unMORE: Unsupervised Multi-Object Segmentation via Center-Boundary Reasoning

提出 unMORE,通过学习三层物体中心表征(存在性/中心场/边界距离场)并设计无网络的多目标推理模块,实现无监督多目标分割,在 COCO 等 6 个数据集上大幅超越所有无监督方法。

Using Multiple Input Modalities Can Improve Data-Efficiency and O.O.D. Generalization for ML with Satellite Imagery

系统研究在卫星遥感 ML 任务中融合光学影像与额外地理数据层(DEM、土地覆盖图、温度、风速等)的效果,发现多模态输入显著提升模型性能,且收益在标注数据有限和地理分布外场景中最大;意外地,硬编码融合策略优于学习型融合策略。


💬 LLM/NLP

Adaptive Multi-prompt Contrastive Network for Few-shot Out-of-distribution Detection

提出 AMCN(Adaptive Multi-prompt Contrastive Network),通过生成三类自适应文本 prompt(可学习 ID prompt、标签固定 OOD prompt、标签自适应 OOD prompt)并结合类别自适应阈值,在仅有少量 ID 标注样本的条件下实现高质量 OOD 检测,显著超越现有 few-shot OOD 检测方法。

B-score: Detecting biases in large language models using response history

提出B-score指标,通过比较LLM在单轮(single-turn)与多轮(multi-turn)对话中的回答概率差异来检测偏见,发现LLM在多轮对话中能"自我去偏",并利用B-score提升答案验证准确率。

BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute

提出 BEST-Route(Best-of-n Enhanced Sampling and Test-time Route Optimization),在传统查询路由的基础上引入 best-of-n 采样策略,使路由器不仅选择模型,还自适应决定采样数量 n,通过小模型多次采样+选优替代大模型单次调用,在不到 1% 性能损失下降低高达 60% 的推理成本。

Beyond Induction Heads: In-Context Meta Learning Induces Multi-Phase Circuit Emergence

本文通过设计 In-Context Meta-Learning (ICML) 实验环境,揭示了 Transformer 在获得上下文元学习能力的训练过程中,内部电路经历了三个截然不同的阶段性涌现(Bigram → Label Attention → Chunk Example),而非 induction head 研究中观察到的单阶段跃变,从而为理解 ICL 的深层机制提供了新视角。

Binary Hypothesis Testing for Softmax Models and Leverage Score Models

从理论角度研究Softmax模型和Leverage Score模型的二元假设检验问题,建立了在能量约束下区分两个参数化模型所需的查询次数的紧界,与理解LLM不同能力域的区分性问题相关。

Build Agent Advocates, Not Platform Agents

Position paper,指出LMA(语言模型代理)若被平台公司控制将成为加剧监控、锁定和注意力操控的"platform agents",提出应发展用户控制的"agent advocates"来保护个人自主权,并给出三大干预措施:开放模型/算力、互操作性标准、市场监管。

Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models

本文通过因果分析、表征分析和注意力分析等方法,在13个开源LLM中识别出支持抽象推理的三阶段涌现符号架构——符号抽象头将输入token转化为抽象变量、符号归纳头在抽象变量层面进行序列归纳、检索头根据预测的抽象变量检索对应值来完成下一token预测。

Expert Evaluation of LLM World Models: A High-Tc Superconductivity Case Study

以高温超导(HTS)领域为案例,构建了专家级数据集(1,726篇论文 + 67道专家问题),系统评估6种LLM系统的科学文献理解能力,发现基于精选文献的RAG系统在事实完整性和证据支持方面显著优于通用闭源模型。

Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence

提出双部分 token 嵌入策略(共享可学习部分 + 随机区分部分),使语言模型能在训练后泛化到更大词表,并对 alpha-等价变换具有天然鲁棒性。

LaRoSA: Enhancing LLM Efficiency via Layerwise Rotated Sparse Activation

LaRoSA 提出了一种无需训练的激活稀疏化方法,通过逐层正交旋转矩阵将输入激活变换到更适合稀疏化的空间,并结合 Top-K 选择实现一致的模型级稀疏度和可靠的推理加速。

LASER: Attention with Exponential Transformation

通过分析注意力机制中 softmax 的梯度反向传播瓶颈,提出 LASER 注意力——在指数变换的 Value 空间中做注意力计算(即对 exp(V) 做 attention 再取 log),从而获得更大的 Jacobian 信号,改善参数学习效率。

On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding

本文首次建立了 Looped Transformer 关于循环次数和目标函数连续性模的逼近速率理论,揭示了循环架构特有的逼近误差来源(上下文连续性与 token 连续性),并提出 Timestep-Modulated Looped Transformer (TMLT) 通过时间步编码消除该限制,在推理、上下文学习和语言建模任务上取得一致提升。

Product of Experts with LLMs: Boosting Performance on ARC Is a Matter of Perspective

将 LLM 同时用作候选解生成器和评分器,通过基于 DFS 的搜索算法生成高概率候选解,再利用多视角增强下的 Product of Experts (PoE) 打分选出最优答案,在 ARC-AGI 公开评估集上以 71.6% 的准确率达到开源 SOTA,超越人类平均水平(60.2%),且单任务推理成本仅约 $0.02。

QuEst: Enhancing Estimates of Quantile-Based Distributional Measures Using Model Predictions

提出 QuEst 框架,将少量高质量观测数据与大量模型预测(imputed)数据相结合,对分位数相关的分布度量(QBDM)给出更精确的点估计和严格的置信区间,覆盖 CVaR、Interval-VaR 等经典指标。

Regress, Don't Guess — A Regression-like Loss on Number Tokens for Language Models

提出 Number Token Loss (NTL),一种纯 token 级别的回归式损失函数,通过最小化数值 token 之间的 \(L_p\) 范数或 Wasserstein 距离,为 LLM 注入数值邻近性归纳偏置。

Taming Knowledge Conflicts in Language Models

揭示了语言模型注意力头中"上下文信息与参数记忆的叠加"(CP Superposition)现象,提出 JuICE(Just Run Twice)方法,通过双次推理的注意力干预策略,在不微调的前提下灵活引导模型偏向参数知识或上下文知识,在 11 个数据集 × 6 种模型架构上达到 SOTA。

The Lock-in Hypothesis: Stagnation by Algorithm

本文提出并形式化了"锁定假说"(Lock-in Hypothesis):LLM 训练与部署过程中形成的人类-AI 反馈循环会固化用户的现有信念,导致群体观点多样性不可逆地丧失,甚至锁定在错误信念上。

Theoretical Limitations of Ensembles in the Age of Overparameterization

在过参数化条件下,无限集成模型与单个无穷宽模型逐点等价,集成方差不再反映传统贝叶斯不确定性而是衡量增加模型容量的预期效果,从理论上解释了深度集成相比大模型无本质泛化优势的经验观察。

Towards Universal Offline Black-Box Optimization via Learning Language Model Embeddings

提出UniSO框架,将不同类型和维度的优化变量统一编码为JSON字符串后输入语言模型,通过token预测(UniSO-T)和数值回归(UniSO-N)两种建模范式训练通用回归器,并通过元数据引导的对比学习和Lipschitz平滑正则化改善嵌入空间质量,实现了跨域跨维度的通用离线黑盒优化。


🎁 推荐系统

Adaptive Elicitation of Latent Information Using Natural Language

提出一种基于 LLM 的自适应信息获取框架,通过元学习预测模型对未来观测进行自回归前向模拟,量化并区分认知不确定性与偶然不确定性,自适应选择最具信息量的自然语言问题来高效减少对潜变量实体的认知不确定性。

Aligning LLMs by Predicting Preferences from User Writing Samples

提出通过分析用户写作样本预测其偏好来实现个性化 LLM 对齐的新范式,无需显式偏好标注即可从用户文本风格中推断偏好信号,为个性化对齐开辟了新的数据来源。

Deprecating Benchmarks: Criteria and Framework

提出了一套判断 AI 基准何时应被废弃的 7 项标准 和一个包含评估-报告-通知三阶段的 废弃框架,并以 EU AI Office 为例给出了制度化落地方案。

ELMO: Efficiency via Low-precision and Peak Memory Optimization in Large Output Spaces

提出 ELMO 框架,通过纯 BFloat16/Float8 低精度训练结合梯度融合、分块策略等峰值显存优化,将 300 万标签的 XMC 模型训练显存从 39.7 GiB 降至 6.6 GiB,且不损失分类精度。

How to Set AdamW's Weight Decay as You Scale Model and Dataset Size

将 AdamW 的权重更新解释为指数移动平均(EMA),揭示了 EMA 时间尺度 \(\tau = 1/(\eta\lambda)\) 是核心超参数,其以 epoch 为单位的最优值在模型和数据集规模变化时保持稳定,从而给出了 weight decay 随规模缩放的明确规则。

LCRON: Learning Cascade Ranking as One Network

提出LCRON,将多阶段级联排序系统作为统一网络进行端到端训练:通过可微排序技术构建的端到端代理损失\(L_{e2e}\)直接优化ground truth items通过整个级联的存活概率下界,辅以从下界紧致度推导出的各阶段辅助损失\(L_{single}\)驱动阶段间协同,在公开基准和工业广告系统的线上A/B测试中均取得显著提升(广告收入+4.10%,用户转化+1.60%)。

New Interaction Paradigm for Complex EDA Software Leveraging GPT

提出 SmartonAI 系统,将大语言模型(LLM)和检索增强生成(RAG)集成到 EDA 工具 KiCad 中,通过自然语言交互实现任务分解、文档检索和智能插件推荐与执行,大幅降低复杂工程软件的学习门槛。

Not All Explanations for Deep Learning Phenomena Are Equally Valuable

本文是一篇 position paper,主张深度学习中的"反直觉现象"(如 double descent、grokking、lottery ticket)在实际场景中很少出现,研究者不应追求对它们的孤立解释,而应将其作为检验和完善更广泛深度学习理论的实验场。

PARM: Multi-Objective Test-Time Alignment via Preference-Aware Autoregressive Reward Model

提出 PARM 单一统一的偏好感知自回归奖励模型,通过 PBLoRA(Preference-Aware Bilinear Low-Rank Adaptation)将偏好向量条件化到 ARM 中,实现高效的多目标测试时对齐——用 1 个奖励模型替代 k 个独立 ARM,降低推理成本且支持弱到强引导(7B 引导 65B)。

Position: Don't Use the CLT in LLM Evals with Fewer Than a Few Hundred Datapoints

本文作为立场论文,论证了在 LLM 评估数据量少于几百个样本时,基于中心极限定理 (CLT) 的置信区间严重低估不确定性,推荐使用贝叶斯可信区间或 Wilson 得分区间作为替代方案。

QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval

提出 QuRe,通过基于相关性分数陡降的硬负样本采样策略和奖励模型优化目标,在组合图像检索(CIR)中同时召回目标图像和其他相关图像,从而提升用户满意度。

Recommendations and Reporting Checklist for Rigorous & Transparent Human Baselines in Model Evaluations

本文对 AI 评估中"人类基线"(human baseline)的方法论进行了系统审查,发现现有 115 项人类基线研究在严谨性和透明度方面存在严重不足,并提出了覆盖基线全生命周期的方法建议和报告清单。

Recommendations with Sparse Comparison Data: Provably Fast Convergence for Nonconvex Matrix Factorization

首次为基于成对比较数据的推荐系统非凸矩阵分解问题提供理论恢复保证:证明在warm start条件下,投影梯度下降以指数速率收敛到真实低秩特征矩阵,样本复杂度为近乎最优的 \(O(nr^2 \log n)\),关键技术贡献是将matrix Bernstein不等式扩展到成对比较的采样矩阵结构。

RLTHF: Targeted Human Feedback for LLM Alignment

RLTHF 提出了一种人机混合的 LLM 对齐框架,通过分析奖励模型的奖励分布来识别 LLM 错标的"难样本",仅对这些样本进行人工标注,以全量人工标注 6-7% 的成本达到甚至超越全人工标注的对齐质量。

SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

SIMPLEMIX 发现 on-policy 数据擅长推理任务而 off-policy 数据擅长开放式任务,通过简单地混合两类数据源即可在 Alpaca Eval 2.0 上平均提升 6.03%,超越 HyPO 等复杂方法 3.05%。

Position: The Right to AI

本文是一篇 position paper,提出"AI 权利"(Right to AI)的概念,主张受 AI 系统影响的个人和社区应当有权参与 AI 的开发和治理,并借鉴城市规划中"城市权利"理论,构建了一个四层公民参与模型。

MATCHA: Toward Safe and Human-Aligned Game Conversational Recommendation via Multi-Agent Decomposition

提出 MATCHA 多 Agent 框架,将游戏对话推荐分解为六个专用 Agent(意图解析、工具增强候选生成、多 LLM 排序、反思重排、风险控制、可解释生成),在 Roblox 真实用户数据上 Hit@5 提升 20%、流行度偏差降 24%、对抗防御率 97.9%。


🔗 因果推理

Causal Abstraction Inference under Lossy Representations

提出 投影抽象(Projected Abstraction) 框架,突破现有因果抽象理论对"抽象不变性条件(AIC)"的依赖,使得在有损/降维表示下仍能进行数学一致的因果推断,并给出图模型层面的可识别性判据。

Causal Discovery of Latent Variables in Galactic Archaeology

利用基于秩的潜变量因果发现算法(RLCD),仅从五个可观测恒星属性中,以纯数据驱动的方式自动恢复出两个物理上有意义的潜变量——出生半径和引导半径,验证了因果发现方法在天体物理学中发现隐藏物理量的潜力。

Causal Effect Identification in lvLiNGAM from Higher-Order Cumulants

在存在潜在混淆的线性非高斯无环模型(lvLiNGAM)中,利用高阶累积量(而非仅协方差矩阵)识别因果效应,解决了两个挑战性设置:(1) 单个可能影响处理的代理变量; (2) 工具变量数少于处理变量数的欠定工具变量问题。两种情况下均证明了可识别性并提供了一致估计方法。

Causal Evidence for the Primordiality of Colors in Trans-Neptunian Objects

利用模型无关的因果发现方法(FCI算法),以 98.7% 的置信度证明海王星外天体(TNO)的颜色是其轨道倾角分布的根本原因,从而强有力地支持了 TNO 颜色的"原生性"假说——即颜色反映的是形成位置而非后期碰撞演化的结果。

Classifier Reconstruction Through Counterfactual-Aware Wasserstein Prototypes

提出利用 Wasserstein 重心将原始样本与反事实样本融合为类别原型,从而在有限查询预算下高保真地重建目标二分类器,有效缓解了朴素使用反事实样本导致的决策边界偏移问题。

E-LDA: Toward Interpretable LDA Topic Models with Strong Guarantees in Logarithmic Parallel Time

提出 E-LDA(Exemplar-LDA),通过将 LDA 的 MAP 主题-词分配问题重新形式化为单调子模函数最大化问题,首次获得了具有 \(1-1/e\) 近似保证的实用算法,并且在对数并行时间内收敛,同时保证每个学到的主题都具有基于关键词的形式化可解释性。

Estimating Causal Effects in Gaussian Linear SCMs with Finite Data

提出 Centralized Gaussian Linear SCM (CGL-SCM),通过将外生变量标准化为 \(\mathcal{N}(0,1)\) 大幅减少参数量,并设计基于 EM 的估计算法,在有限观测数据下准确恢复可识别的因果效应。

Exogenous Isomorphism for Counterfactual Identifiability

提出外生同构(Exogenous Isomorphism, EI)概念,证明 \(\sim_{\mathrm{EI}}\)-identifiability 蕴含 \(\sim_{\mathcal{L}_3}\)-identifiability(完整反事实层可辨识性),并在双射SCM和三角单调SCM两类特殊模型上给出实现EI的充分条件,统一并推广了已有反事实可辨识性理论。

Isolated Causal Effects of Natural Language

提出"孤立因果效应"(Isolated Causal Effect)的形式化估计框架,通过双重稳健估计器和遗漏变量偏差(OVB)敏感性分析,将焦点语言属性的因果效应从相关的非焦点语言中隔离出来。

Latent Variable Causal Discovery under Selection Bias

首次将秩约束推广到选择偏差场景,证明在线性选择机制下有偏协方差矩阵的秩仍保留因果结构和选择机制的信息,提出广义 t-separation 图准则,并在单因子模型上证明了可识别性,在合成和真实数据(World Value Survey、Big Five 人格)上验证了有效性。

Learning Time-Aware Causal Representation for Model Generalization in Evolving Domains

提出时间感知结构因果模型 (time-aware SCM) 和 SYNC 方法,通过同时学习静态与动态因果表示并建模因果机制漂移,在演化域泛化 (EDG) 任务中有效消除虚假相关,实现优越的时序泛化性能。

MPF: Aligning and Debiasing Language Models post Deployment via Multi Perspective Fusion

提出 Multiperspective Fusion (MPF),一种无需微调的后部署对齐框架,通过将基线情感分布分解为可解释的视角成分,引导 LLM 生成与人类基线对齐的响应,有效缓解模型偏见。

Position: Causal Machine Learning Requires Rigorous Synthetic Experiments for Broader Adoption

本文是一篇 Position Paper,主张合成实验对因果机器学习 (Causal ML) 方法的严格评估不可或缺,但当前的合成实验设计存在偏差和复杂度不足,需要遵循一套原则来提高实验质量,从而推动 Causal ML 的广泛采用。

RATE: Causal Explainability of Reward Models with Imperfect Counterfactuals

提出 RATE(Rewrite-based Attribute Treatment Estimator),通过"双重重写"策略消除 LLM 不完美反事实重写引入的偏差,从而正确估计高层属性对奖励模型评分的因果效应。

RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

受 Pearl 因果阶梯启发,提出 RE-IMAGINE 框架,通过将问题转化为中间符号表示(代码)并在计算图上执行多层级变异,生成不可通过记忆化解决的基准变体,系统评估 LLM 的真实推理能力。

Transformer-Based Spatial-Temporal Counterfactual Outcomes Estimation

提出基于 Transformer 的时空反事实结果估计框架,利用 CNN 计算高维倾向性得分、Transformer 估计强度函数,在合成与真实数据上均优于传统因果推理方法。


💡 LLM推理

Ad-Hoc Human-AI Coordination Challenge (AH2AC2)

提出 AH2AC2 挑战——基于 Hanabi 合作卡牌游戏,通过行为克隆+正则化强化学习构建人类代理智能体,并开源有限人类数据集,为 Human-AI 临时协作研究提供标准化、可复现的评估框架。

AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism

AdaDecode 通过在中间层训练轻量级 LM Head 实现高置信度的 token 早期预测,将后续层的 KV cache 计算延迟并行化执行,在保证与标准自回归解码完全一致输出的同时,实现最高 1.73× 的解码吞吐量加速。

Adversarial Manipulation of Reasoning Models using Internal Representations

本文发现推理模型(如 DeepSeek-R1-Distill-Llama-8B)在 CoT 生成阶段存在一个线性"谨慎方向"(caution direction),通过消融该方向可有效越狱模型,揭示了 CoT 本身是对抗攻击的新靶点。

Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators

本文提出 JETTS 基准,系统评估 LLM-judge 在 test-time scaling 场景(response reranking、step-level beam search、critique-based refinement)中作为评估器的表现,发现 judge 在 reranking 中与 outcome reward model 竞争力相当但在 beam search 中显著弱于 process reward model,且自然语言 critique 目前无法有效引导生成器改进。

FMC: Formalization of Natural Language Mathematical Competition Problems

本文提出基于 LLM 错误反馈的全自动形式化流水线,将自然语言数学竞赛题转化为 Lean 形式化表示,构建了包含 3,922 道自然语言与 9,787 条 Lean 形式化对齐的奥赛级数据集 FMC,并验证了其作为自动定理证明基准的价值。

Improving Rationality in the Reasoning Process of Language Models through Self-playing Game

本文提出 Critic-Discernment Game(CDG),通过自博弈语言游戏让 LLM 与"有帮助的批评者"和"误导性批评者"互动,用 ReST 强化学习联合优化三个角色,无需人类或更强模型的监督即可显著提升 LLM 对自身推理过程的理性理解,在数学推理、逐步错误检测、自我纠错和长链推理四个任务上均取得一致提升。

No Soundness in the Real World: On the Challenges of the Verification of Deployed Neural Networks

本文证明所有当前最先进的神经网络验证器都只提供"理论健全性"(约束全精度输出)而非"实际健全性"(约束部署环境中的浮点输出),并通过构造环境敏感的对抗性后门网络,实证验证了所有测试验证器均可被欺骗。

One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

提出 Long CoT Collection——一个由短CoT LLM(如GPT-4o)标注的100K长链推理数据集,通过从o1提取推理流程(reasoning flow)作为间接引导,使短CoT模型也能生成高质量长推理链,从而有效缓解开源推理模型在强化学习阶段的冷启动问题,初始化后的模型在RLVR中获得2-3倍的性能提升。

PCoT: Persuasion-Augmented Chain of Thought for Detecting Fake News and Social Media Disinformation

提出 PCoT(Persuasion-Augmented Chain of Thought),通过两阶段推理——先让 LLM 识别文本中的说服策略,再将说服分析结果注入虚假信息检测推理——在零样本设置下,跨 5 个 LLM 和 5 个数据集平均提升 F1 约 15%。

PCoT: Persuasion-Augmented Chain of Thought for Detecting Fake News and Social Media Disinformation

本文提出 PCoT(说服增强链式思维)方法,通过两阶段推理——先让 LLM 识别文本中的说服策略,再利用该分析进行虚假信息检测——在五个数据集和五个 LLM 上实现平均 15% 的 F1 提升,并发布了两个新的后知识截止期虚假信息数据集。

ProofCompass: Enhancing Specialized Provers with LLM Guidance

ProofCompass 提出一种无需额外训练的混合方法,用通用 LLM 为专业定理证明器(如 DeepSeek-Prover-v1.5-RL)提供自然语言证明策略和中间引理选择,在 miniF2F 上用 25 倍少的尝试次数超越了基线性能(54.9% → 55.3%)。

Putnam-AXIOM: A Functional & Static Benchmark for Measuring Higher Level Mathematical Reasoning in LLMs

提出 Putnam-AXIOM —— 522 道大学级 Putnam 竞赛数学题 + 100 道程序化功能变体,揭示 LLM 数学推理中的记忆依赖,并引入 Teacher-Forced Accuracy (TFA) 作为超越最终答案的推理质量评估指标。

Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness

本文从有效性和忠实性两个角度系统分析影响 CoT 性能的关键因素,发现问题难度、信息增益和信息流是有效性的核心因素,并揭示 LLM 在预测答案时可从问题中直接召回 CoT 缺失的正确信息导致不忠实推理,进而提出 QUIRE 方法同时提升 CoT 的忠实性和有效性。

Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning

本文从信息论视角系统分析了 LLM 推理中的"雪球误差"现象,建立了雪球误差与推理正确概率之间的理论联系,证明了外部慢思考方法(如 BoN、MCTS)本质上是通过扩展搜索宽度来缓解误差累积,并在理论和实验上证明了方法效果主要取决于总推理代价和奖励函数可靠性,而非搜索框架本身。

Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness

本文从有效性(effectiveness)和忠实性(faithfulness)两个维度系统分析了 CoT 的性能影响因素,发现问题难度、信息增益和信息流是影响 CoT 有效性的关键因子,而不忠实 CoT 的根因在于模型在预测答案时绕过 CoT 直接从问题中召回了正确信息,并据此提出 QUIRE 方法同时提升 CoT 的有效性和忠实性。


🤖 具身智能

BiAssemble: Learning Collaborative Affordance for Bimanual Geometric Assembly

提出 BiAssemble 框架,通过学习感知双臂协作的点级可供性(affordance),将几何装配任务分解为抓取→对齐→装配三步,在破碎物体重组任务上超越现有可供性和模仿学习方法,并在真实世界基准上验证。

Closed-loop Long-horizon Robotic Planning via Equilibrium Sequence Modeling

将 LLM 的自精炼规划过程建模为不动点问题(深度均衡模型),通过隐式微分实现端到端监督训练,无需额外验证器或 RL,并设计嵌套均衡求解实现闭环长程机器人规划。

CommVQ: Commutative Vector Quantization for KV Cache Compression

提出 CommVQ——通过可加向量量化压缩 KV cache,创新性地设计与 RoPE 可交换的码本并用 EM 算法训练,在 2-bit 下几乎无损、1-bit 下仍保持可用精度,使 LLaMA-3.1 8B 在单张 RTX 4090 上支持 128K 上下文。

Efficient Robotic Policy Learning via Latent Space Backward Planning

提出潜在空间反向规划(LBP),从最终目标出发递归预测越来越接近当前状态的中间子目标,在保持任务对齐的同时大幅提升规划效率,在 LIBERO-LONG 仿真和真实机器人长时域任务上达到 SOTA。

FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making

提出 FOUNDER 框架,通过学习映射函数将 Foundation Model (FM) 的多模态任务表示对齐到 World Model (WM) 的状态空间,结合时间距离预测器生成奖励信号,实现无需环境奖励的开放式多任务具身决策。

Geometric Contact Flows: Contactomorphisms for Dynamics and Control

提出 Geometric Contact Flows (GCF),利用黎曼几何和接触几何作为归纳偏置,通过接触微分同胚(contactomorphisms)将具有稳定性/能量守恒等期望性质的潜在接触哈密顿动力学映射到目标动力学,同时利用集成不确定性驱动测地线实现鲁棒泛化和避障。

Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models

提出 Hi Robot,一个层次化 VLM 系统:高层 VLM 将复杂用户指令/反馈推理为原子命令,低层 VLA (π0) 执行动作,结合合成数据生成方案,在三类机器人平台上实现了远超 GPT-4o 和扁平 VLA 的开放式指令跟随能力。

Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors

利用LLM内部已识别的因果机制来预测模型在分布外输入上的输出正确性,提出反事实模拟和值探测两种方法,在OOD设置中比现有基线平均AUC-ROC提升13.84%。

Learning to Stop: Deep Learning for Mean Field Optimal Stopping

首次在离散时间有限状态空间下形式化并计算求解平均场最优停止(MFOS)问题,证明 MFOS 以 \(O(1/N)\) 速率逼近多智能体最优停止(MAOS),并提出两种深度学习算法(直接法 DA 和动态规划法 DPP),在维度高达 300 的 6 个场景中验证有效性。

Machine Learning from Explanations

提出一种用简单解释信号(重要输入特征)引导机器学习的方法——通过交替优化预测准确率和注意力对齐的两阶段训练循环,在小数据、类不平衡、虚假特征场景下显著提升性能和稳定性。

PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning

提出 PoisonBench——首个系统评估 LLM 在偏好学习阶段面对数据投毒攻击脆弱性的基准,涵盖内容注入与对齐退化两类攻击,在 22 个模型上揭示了投毒比例与攻击效果的对数线性关系及欺骗性对齐的初步证据。

STAR: Learning Diverse Robot Skill Abstractions through Rotation-Augmented Vector Quantization

提出STAR框架,通过旋转增强残差技能量化(RaRSQ)解决VQ-VAE的codebook坍塌问题,并通过因果技能Transformer(CST)建模技能间依赖关系,在LIBERO基准上整体成功率达93.6%,比此前SOTA QueST提升约12%。

Synthesizing Images on Perceptual Boundaries of ANNs for Uncovering and Manipulating Human Perceptual Variability

提出 BAM(Boundary Alignment & Manipulation)框架,通过在 ANN 感知决策边界上采样生成图像刺激,系统性地揭示、预测和操控人类个体间的感知差异。

Unable to Forget: Proactive Interference Reveals Working Memory Limits in LLMs Beyond Context Length

借鉴认知科学中的前摄干扰(Proactive Interference)范式,发现LLM的信息检索准确率随干扰信息量呈对数线性下降至零,揭示了一种独立于上下文长度的"工作记忆"容量瓶颈,且提示工程无法有效缓解。

X-Hacking: The Threat of Misguided AutoML

揭示了XAI(可解释AI)领域的新安全威胁"X-hacking":通过AutoML的管道搜索能力,对抗者可在Rashomon模型集中寻找支持预定结论的解释性结果,Bayesian优化比随机搜索快3倍。


🦾 LLM Agent

AdvAgent: Controllable Blackbox Red-teaming on Web Agents

提出 AdvAgent,一个基于强化学习(DPO)的黑盒红队测试框架,训练一个对抗 prompter 模型自动生成不可见的 HTML 对抗 prompt,注入网页后可误导 GPT-4V 驱动的 Web Agent 执行攻击者指定的目标动作(如将买微软股票改为买英伟达),在 440 个任务上达到 97.5% 攻击成功率,且对现有防御手段仍保持 88.8% 以上的有效性。

AGACCI: Affiliated Grading Agents for Criteria-Centric Interface in Educational Coding Contexts

AGACCI 提出一个由 9 个专门化 Agent 组成的多 Agent 评估框架,将教育编程作业的评估任务分解为 rubric 解析、代码执行验证、可视化评估、解释性推理评估等角色,通过协作实现比单模型 baseline 更准确、一致且可解释的 rubric 对齐反馈。

Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

提出 Aguvis,首个完全基于纯视觉的跨平台自主 GUI Agent 框架,通过统一视觉观察空间、标准化动作空间和内心独白(inner monologue)机制,在离线和在线基准上取得 SOTA,无需依赖闭源模型。

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

本文提出 AutoML-Agent,一个基于多智能体 LLM 协作的全流水线 AutoML 框架,通过检索增强规划策略(Retrieval-Augmented Planning)扩大搜索空间、将任务分解为并行执行的子任务由专业化 Agent 分别完成、并引入多阶段验证机制保障代码生成质量,在 7 类任务 14 个数据集上实现了更高的自动化成功率和模型性能。

Evaluating Retrieval-Augmented Generation Agents for Autonomous Scientific Discovery in Astrophysics

本文构建了宇宙学领域的 RAG 评测基准 CosmoPaperQA(105 个专家 QA 对),系统评估了 9 种 RAG agent 配置(涵盖商业 API、混合架构、学术工具),发现 OpenAI RAG 方案以 91.4% 准确率领先,并校准了可替代人工评审的 LLM-as-a-Judge 系统。

From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium

将多 LLM 协调建模为不完全信息博弈,提出 ECON 框架,通过贝叶斯纳什均衡(BNE)实现隐式信念驱动的多 Agent 协调推理,无需显式消息传递即可获得理论收敛保证,在六个推理基准上平均提升 11.2%。

From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information?

本文提出 AR-Bench,一个专门评估 LLM 主动推理能力的基准,包含侦探案件、情境谜题和猜数字三类任务,实验发现 GPT-4o 等最先进模型在需要主动提问获取缺失信息的场景中表现远逊于人类,揭示了被动推理与主动推理之间的巨大鸿沟。

GuardAgent: Safeguard LLM Agents via Knowledge-Enabled Reasoning

GuardAgent 是首个"用 Agent 守护 Agent"的框架,通过将安全规则动态转化为可执行的护栏代码来检查目标 Agent 的动作是否违规,在医疗访问控制和 Web 安全控制两个新基准上分别达到 98%+ 和 83%+ 的护栏准确率。

Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search

提出 LWM-Planner,从交互轨迹中提取"原子事实"增强 LLM 世界模型模拟,结合递归前瞻搜索实现纯 in-context 的 Agent 规划改进,在 ALFWorld 等任务上显著优于 ReAct 和 Reflexion。

Open Source Planning & Control System with Language Agents for Autonomous Scientific Discovery

本文提出 cmbagent,一个由约 30 个 LLM Agent 组成的多智能体系统,采用 Planning & Control 策略编排无人干预的科研工作流,各 Agent 分别负责论文检索、代码编写、结果解读、输出评审等专业任务,并可在本地执行代码;该系统成功完成了博士级别的宇宙学任务(用超新星数据测量宇宙学参数),在两个基准测试集上优于当前最先进的 LLM。

TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems

本文提出 TAMAS,首个系统评估多智能体 LLM 系统安全性的基准,覆盖 5 个高风险领域、6 种攻击类型、300 个对抗样本和 10 个骨干模型,揭示多智能体系统在协作场景中存在严重的对抗脆弱性,并引入 ERS 指标衡量安全-效用权衡。

Theorem-of-Thought: A Multi-Agent Framework for Abductive, Deductive, and Inductive Reasoning in Language Models

提出 Theorem-of-Thought (ToTh) 框架,通过三个分别模拟溯因、演绎和归纳推理的 Agent 独立生成推理轨迹,将其构建为形式化推理图 (FRG),再用 NLI 校准的贝叶斯置信传播进行一致性评分,选取最优图的终端节点作为最终答案,在符号和数值推理任务上一致超越 CoT、Self-Consistency 和 CoT-Decoding。

Towards LLM Agents for Earth Observation

本文提出 UnivEARTH——一个包含 140 个 yes/no 问题的地球观测基准,涵盖 13 个主题和 17 种卫星传感器,评估发现最佳 LLM Agent(使用 Google Earth Engine 生成代码)的准确率仅 33%,主要受限于 58% 的代码无法运行。

xChemAgents: Agentic AI for Explainable Quantum Chemistry

xChemAgents 提出了一个 Selector-Validator 双 Agent 协作框架,将物理感知的推理注入多模态分子性质预测中:Selector Agent 自适应选择稀疏加权描述符子集并给出自然语言解释,Validator Agent 通过量纲一致性和标度律检验迭代验证,在 QM9 基准上实现最高 22% 的 MAE 降低。


🧊 3D视觉

EvoMesh: Adaptive Physical Simulation with Hierarchical Graph Evolutions

EvoMesh 提出一种全可微的层次图演化框架,通过各向异性消息传递(AMP)和基于 Gumbel-Softmax 的可微节点选择(DiffSELECT),根据物理输入自适应构建随时间演化的多尺度图层次结构,在五个物理仿真基准上平均超越固定层次方法约 20%。

FlowDrag: 3D-aware Drag-based Image Editing with Mesh-guided Deformation Vector Flow Fields

提出 FlowDrag,从图像构建 3D 网格后利用渐进式 SR-ARAP 变形生成连续 2D 向量流场,将全局几何先验注入扩散模型的 motion supervision 过程,在 DragBench(MD=22.88)和新提出的 VFD-Bench(PSNR=18.55, 1-LPIPS=0.82, MD=28.23)上全面领先。

FreeMesh: Boosting Mesh Generation with Coordinates Merging

提出 Per-Token-Mesh-Entropy(PTME)度量来免训练评估网格tokenizer质量,并引入从NLP借鉴的 Rearrange & Merge Coordinates(RMC)坐标合并技术,在 MeshXL/MeshAnythingV2/EdgeRunner 三种tokenizer上实现最高21.2%的压缩率、显著增加可生成面片数和几何细节保留。

GAPrompt: Geometry-Aware Point Cloud Prompt for 3D Vision Model

提出 GAPrompt,针对预训练 3D 视觉模型的几何感知 PEFT 方法,通过可学习点云提示 (Point Prompt)、点偏移提示器 (Point Shift Prompter) 和提示传播 (Prompt Propagation) 三个模块协同利用点云几何信息,仅训练 2.19% 参数即可匹配甚至超越全量微调。

High Dynamic Range Novel View Synthesis with Single Exposure

首次提出仅使用单曝光LDR图像进行HDR新视角合成(HDR-NVS)的问题设定,并设计了一个基于相机成像原理的元算法框架Mono-HDR-3D,通过LDR→HDR颜色转换器(L2H-CC)和HDR→LDR闭环转换器(H2L-CC)实现无HDR监督下的HDR场景建模。

PhysicsNeRF: Physics-Guided 3D Reconstruction from Sparse Views

PhysicsNeRF 提出了一个基于物理先验的稀疏视角 NeRF 框架,通过深度排序、跨视角一致性、稀疏性正则和渐进训练四种互补约束,在仅 8 个视角下实现 21.4 dB 的 PSNR,并对稀疏视角下过拟合的本质进行了深入的理论分析。

Probabilistic Interactive 3D Segmentation with Hierarchical Neural Processes

NPISeg3D提出了首个基于层次化神经过程(Hierarchical Neural Processes)的概率交互式3D分割框架,通过场景级和物体级双层潜变量结构以及概率原型调制器,在少量点击下实现了优于AGILE3D的分割精度,同时提供可靠的不确定性估计。

ReferSplat: Referring Segmentation in 3D Gaussian Splatting

ReferSplat 提出了 Referring 3D Gaussian Splatting Segmentation(R3DGS)新任务,通过构建 3D Gaussian Referring Fields、位置感知跨模态交互模块和 Gaussian-Text 对比学习,实现了基于自然语言描述在 3DGS 场景中分割目标物体(包括遮挡/不可见物体),在新构建的 Ref-LERF 数据集和开放词汇分割基准上取得 SOTA。

SE(3)-Equivariant Diffusion Policy in Spherical Fourier Space

提出在球面 Fourier 空间中构建 SE(3) 等变扩散策略,利用球谐函数的等变性质使策略对输入场景的刚体变换保持等变,在机器人操作任务上实现更好的空间泛化。

LaGa: Tackling View-Dependent Semantics in 3D Language Gaussian Splatting

提出LaGa方法,通过3D场景分解建立跨视角语义连接、用自适应聚类+双因子重加权构建视角聚合语义表示,解决3D语言高斯中被忽视的视角依赖语义问题,在LERF-OVS上3D mIoU达64.0%(+18.7%)。

Thickness-aware E(3)-Equivariant 3D Mesh Neural Networks

提出 T-EMNN,通过引入厚度感知的消息传递机制和基于 PCA 的数据驱动坐标系,在保持表面网格计算效率的同时建模对立面之间的厚度交互,实现 E(3)-等变/不变的节点级 3D 形变预测。

VTGaussian-SLAM: RGBD SLAM for Large Scale Scenes with Splatting View-Tied 3D Gaussians

提出视图绑定3D高斯(View-Tied 3D Gaussians),将高斯绑定到深度像素上并简化为球形,大幅节省存储开销,配合仅优化最近视图相关高斯的tracking/mapping策略,实现面向大规模场景的可扩展RGBD SLAM系统。


🚗 自动驾驶

Don't be so Negative! Score-based Generative Modeling with Oracle-assisted Guidance

提出 Gen-neG 方法,通过迭代地在扩散模型的合成数据上训练贝叶斯最优分类器并用其引导采样,将生成分布从约束违规区域引导至正支撑域。关键创新在于正确处理类先验概率的重要性采样,交通场景生成中碰撞+越界率从 29.3% 降至 5.6%。

DriveGPT: Scaling Autoregressive Behavior Models for Driving

提出 DriveGPT,一个 1.4B 参数的自回归 Transformer 驾驶行为模型,在 1.2 亿真实驾驶片段上训练(比现有最大数据集多 50x),首次系统建立驾驶行为建模的数据/模型/计算缩放定律,验证数据是性能瓶颈,在规划和 WOMD 预测任务上超越 SOTA。

Geometry-to-Image Synthesis-Driven Generative Point Cloud Registration

提出 Generative Point Cloud Registration 新范式,设计 DepthMatch-ControlNet 和 LiDARMatch-ControlNet 两个配准专用可控 2D 生成模型,从纯几何点云对生成跨视图一致的 RGB 图像对,通过几何-颜色特征融合即插即用地提升现有 3D 配准方法,在 3DMatch/ScanNet/Dur360BEV 上验证有效。

GoIRL: Graph-Oriented Inverse Reinforcement Learning for Multimodal Trajectory Prediction

首次将最大熵逆强化学习框架与向量化场景表示相融合,提出 GoIRL 轨迹预测框架:通过可学习的 Feature Adaptor 将图特征聚合到网格空间以适配 IRL,再用层级参数化轨迹生成器(Bézier曲线+精细化模块)和 MCMC 概率融合机制实现多模态轨迹预测,在 Argoverse 和 nuScenes 上达到 SOTA 并展现出相比监督模型显著更强的泛化能力。

Hierarchical and Collaborative LLM-Based Control for Multi-UAV Motion and Communication in Integrated Terrestrial and Non-Terrestrial Networks

提出一种基于 LLM 的层次化协作控制框架,通过 HAPS 端部署的元控制器 LLM 和 UAV 端部署的边缘控制器 LLM 的双层协同,实现多 UAV 在 3D 空中高速公路场景下的运动规划与通信接入联合优化。

Hybrid Quantum-Classical Multi-Agent Pathfinding

提出首个最优混合量子-经典MAPF算法QP和QCP,将MAPF的路径选择问题转化为可在量子硬件上求解的QUBO子问题,通过冲突图+列生成框架实现理论最优性,在真实量子硬件上验证可行性。

InfoCons: Identifying Interpretable Critical Concepts in Point Clouds via Information Theory

提出 InfoCons 框架,将信息瓶颈(IB)原理应用于点云模型解释——通过学习一个注意力瓶颈网络来分解点云为不同重要性的 3D 概念,引入可学习的无偏先验替代固定先验,在保证对模型预测忠实(faithfulness)的同时生成概念连贯(conceptual cohesion)的解释。

R3DM: Enabling Role Discovery and Diversity Through Dynamics Models in Multi-agent Reinforcement Learning

提出 R3DM 框架,通过最大化智能体角色、历史轨迹与未来预期行为之间的互信息,利用动力学模型驱动的内在奖励实现角色多样性与协调性的平衡,在 SMAC/SMACv2 环境中将胜率提升最高 20%。

SafeMap: Robust HD Map Construction from Incomplete Observations

SafeMap 提出了一个即插即用的鲁棒高精地图构建框架,通过高斯采样视角重建(G-PVR)和蒸馏式 BEV 校正(D-BEVC)两个模块,在相机视角缺失的不完整观测条件下仍能准确构建矢量化高精地图。

SPHINX: Structural Prediction using Hypergraph Inference Network

提出SPHINX无监督超图推断模型——将超边发现建模为序列化软聚类问题,用k-subset可微采样产生离散稀疏超图结构,可插入任意超图神经网络,在合成数据上超图重建达90%重叠率、在NBA轨迹预测和3D物体分类上超越现有方法。

When Every Millisecond Counts: Real-Time Anomaly Detection via the Multimodal Asynchronous Hybrid Network

提出多模态异步混合网络,结合事件相机的高时间分辨率(异步 GNN 处理)和 RGB 相机的丰富空间特征(CNN 处理),在交通异常检测中实现 579 FPS 的推理速度和 1.17s 的平均响应时间,首次将事件流引入自动驾驶异常检测领域。


💻 代码智能

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

提出 AdaptiveStep,基于模型预测下一个 token 的置信度自动划分推理步骤,替代传统基于规则(如换行符)的粗粒度划分方式,训练出的 PRM (ASPRM) 在数学推理和代码生成任务上达到 SOTA 的 Best-of-N 性能,且数据构建成本降低超 30%。

DyCodeEval: Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination

基于蜕变测试思想,将编程问题分解为复杂度相关的算法抽象和复杂度无关的上下文描述,通过四个 LLM Agent 协作自动生成语义等价但文本不同的编程问题变体,有效规避数据污染并评估 Code LLM 的真实推理能力,在 18 个模型上验证了框架的有效性。

EffiCoder: Enhancing Code Generation in Large Language Models through Efficiency-Aware Fine-tuning

EffiCoder 通过构建“正确且高效”的指令微调数据集 EffiInstruct,让代码大模型在提升 pass@1 的同时显著降低执行时间和总内存开销,证明“效率可以通过数据配方学习出来”。

EpiCoder: Encompassing Diversity and Complexity in Code Generation

提出基于特征树(Feature Tree)的代码数据合成框架,通过从代码中提取层次化语义特征并迭代进化,实现对合成数据复杂度和多样性的精确控制,训练得到的 EpiCoder 系列模型在函数级和文件级代码生成基准上达到同规模 SOTA。

Function-to-Style Guidance of LLMs for Code Translation

提出 F2STrans,通过功能学习(正确性)和风格学习(可读性)两阶段渐进式微调 LLM,使 Qwen-1.5B 在 20 种代码翻译场景中平均超越 prompt 增强的 Qwen-32B 和 GPT-4。

Mind the Gap: A Practical Attack on GGUF Quantization

首次提出针对 GGUF 量化格式的攻击:利用量化误差作为"自由度"训练恶意量化模型,全精度下正常但量化后注入后门,在不安全代码生成(Δ=88.7%)、定向内容注入(Δ=85.0%)和良性拒绝(Δ=30.1%)上有效。

Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation

提出 ORPS(Outcome-Refining Process Supervision),通过将代码执行反馈与 LLM 自我批评结合,在树状搜索框架中统一过程奖励与结果奖励,无需训练 PRM 即可在代码生成中实现 26.9% 的正确率提升和 42.2% 的效率提升。

Robust Learning of Diverse Code Edits (NextCoder)

提出合成代码编辑数据生成流水线 + 鲁棒自适应算法 SeleKT(Selective Knowledge Transfer),通过在微调过程中周期性地对任务向量做 top-k 稀疏投影,使模型在获得强代码编辑能力的同时保留原始代码生成与通用推理能力,得到的 NextCoder 系列模型在五个代码编辑基准上超越同规模甚至更大模型。

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

提出 SparseLoRA,通过上下文稀疏性 (contextual sparsity) 动态选择权重子集进行前向/梯度计算,首次将推理时的稀疏加速思路迁移到 LLM 微调阶段,实现最高 2.2× FLOPs 降低和 1.6× 实测加速,同时保持精度。

Towards Practical Defect-Focused Automated Code Review

提出面向真实生产环境的端到端自动代码审查框架,通过AST代码切片提取上下文、多角色LLM协作审查、三层冗余评论过滤和内联行号定位四大模块,在近4亿日活公司的工业级C++代码库历史故障数据上实现KBI(关键缺陷包含率)2倍于标准LLM、10倍于先前基线的显著提升。

Training Software Engineering Agents and Verifiers with SWE-Gym

本文提出 SWE-Gym——首个用于训练软件工程 Agent 的环境,包含来自 11 个开源 Python 仓库的 2438 个真实任务实例,通过在 SWE-Gym 上进行拒绝采样微调训练 SWE Agent 和 Verifier,在 SWE-Bench Verified/Lite 上最终达到 32.0%/26.0% 的解决率,创造了开源权重 SWE Agent 的新 SOTA。


🎯 目标检测

BlueGlass: A Framework for Composite AI Safety

提出 BlueGlass 复合 AI 安全框架,通过统一基础设施整合分布式评估、近似探针和稀疏自编码器三种安全分析工具,对视觉语言模型(VLM)在目标检测任务上的能力边界、层级动态和内部概念表示进行系统性安全分析。

Discovering Global False Negatives On the Fly for Self-supervised Contrastive Learning

提出 GloFND,通过为每个锚点样本学习动态阈值,在训练过程中实时发现并过滤全局假阴性(false negatives),以低额外开销提升对比学习表示质量。

Few-Shot Learner Generalizes Across AI-Generated Image Detection

首次将 AI 生成图像检测重新定义为少样本分类任务,提出 FSD (Few-Shot Detector) 基于原型网络学习度量空间,仅用 10 个来自未见生成模型的样本,在 GenImage 数据集上平均准确率达 84.1%,超越此前 SOTA (LARE2) +11.6%。

FG-CLIP: Fine-Grained Visual and Textual Alignment

FG-CLIP 系统性地解决 CLIP 细粒度理解的三大瓶颈:用 1.6B 长描述-图像对捕获全局语义细节,12M 图像+40M 区域标注实现精细区域对齐,10M 硬负样本训练模型区分微妙语义差异,在细粒度理解、开放词汇检测、图文检索等多项任务上取得全面领先。

Global Context-aware Representation Learning for Spatially Resolved Transcriptomics

提出 Spotscape 框架,通过 Similarity Telescope 模块捕获 spot 间的全局相似关系(而非仅依赖空间局部邻居),并引入原型对比学习和相似度尺度匹配策略处理多切片批次效应,在空间域识别、轨迹推断、多切片整合与对齐等任务上全面超越现有方法。

Open-Det: An Efficient Learning Framework for Open-Ended Detection

Open-Det 提出了一个高效的开放端目标检测(OED)框架,通过重构目标检测器(解耦 one-to-many/one-to-one 匹配)、引入 VL-prompts 蒸馏模块桥接视觉-语言语义鸿沟、LoRa Head + Text Denoising 加速 LLM 训练、以及 Masked Alignment Loss 消除矛盾监督,仅用 GenerateU 1.5% 的训练数据和 20.8% 的训练 epoch 就取得了更高的检测性能(APr +1.0%)。

Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models

提出 Outlier Gradient Analysis (OGA),将影响函数中识别有害训练样本的问题转化为梯度空间上的异常点检测,绕开了 Hessian 矩阵求逆的高计算开销,同时在噪声标签校正、NLP 数据筛选和 LLM 影响力数据识别等任务上取得优于传统影响函数方法的效果。

Self-Organizing Visual Prototypes for Non-Parametric Representation Learning

提出 Self-Organizing Prototypes (SOP) 策略,用多个语义相似的支持嵌入(support embeddings)替代传统 SSL 中单一原型来表示特征空间的局部区域,并引入非参数化 MIM 任务,在检索、检测、分割等下游任务上取得 SOTA 表现。

UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction

提出 UI-Vision——首个面向桌面环境的综合离线评估基准,覆盖 83 个软件应用,提供密集的 bounding box、UI 标签和操作轨迹标注,定义从细粒度到粗粒度的三级评估任务(Element Grounding → Layout Grounding → Action Prediction),系统评估并揭示 SOTA 模型在专业软件理解、空间推理和复杂操作上的关键短板。

Understanding the Emergence of Multimodal Representation Alignment

系统研究多模态表征对齐的涌现机制,发现隐式对齐的出现及其与性能的关系取决于数据的冗余/唯一信息比例和模态异质性,挑战了"更大模型→更好对齐→更好性能"的普遍假设。


🛰️ 遥感

Causal Foundation Models: Disentangling Physics from Instrument Properties

提出因果驱动的基础模型,通过双编码器架构和结构化对比学习从天文时间序列中解耦物理信号和仪器效应,利用自然存在的观测三元组(同一目标不同仪器/同一仪器不同目标),在低数据场景下显著优于单一潜空间方法。

ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts

提出 ExPLoRA,通过解冻 1-2 个 ViT block 并对其余层施加 LoRA,以参数高效的方式在目标域上继续自监督预训练,在遥感等域偏移场景下以 <10% 参数量超越从头全量预训练的 SOTA。

High-Resolution Live Fuel Moisture Content (LFMC) Maps for Wildfire Risk from Multimodal Earth Observation Data

利用预训练多模态地球观测模型 Galileo 微调生成 10 米分辨率的活体燃料含水量(LFMC)地图,相比随机初始化模型 RMSE 降低 20%+,并通过 2025 年洛杉矶野火案例验证了管线的实用性。

LIGHTHOUSE: Fast and Precise Distance to Shoreline Calculations from Anywhere on Earth

提出了一个全球10米分辨率的海岸线数据集和毫秒级查询库 Lighthouse,通过融合 ESA WorldCover 与 OpenStreetMap 数据,结合分层 BallTree + 球面 Voronoi 索引实现仅需1 CPU/2GB RAM的实时海岸距离查询,精度比已有数据集提升100倍以上。

MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

提出 MapEval 基准,通过 700 道涵盖文本、API 和视觉三类任务的多选题,系统评估 30 个基础模型在地图场景下的地理空间推理能力,发现最强模型准确率不超过 67%,且所有模型落后人类表现 20% 以上。

Neural Augmented Kalman Filters for Road Network Assisted GNSS Positioning

提出用时序图神经网络(TGNN)将开源道路网络信息集成到 GNSS 卡尔曼滤波中——TGNN 在图结构上预测最可能的道路段并动态估计其不确定性,在真实城市数据中 P95 定位误差从 77.23m 降至 55.02m(降幅 29%)。

Resampling Augmentation for Time Series Contrastive Learning: Application to Remote Sensing

论文提出一种面向时间序列对比学习的重采样增强(resampling augmentation),通过“上采样 + 不相交子序列抽取 + 对齐回原时间轴”构造正样本对,在多项 SITS 农业分类任务上优于常见增强策略,并在 S2-Agri100 上取得领先结果。


🧮 科学计算

Causal-PIK: Causality-based Physical Reasoning with a Physics-Informed Kernel

提出 Causal-PIK,通过将物理因果相似性编码为贝叶斯优化的核函数(Physics-Informed Kernel),使智能体在物理推理任务中仅需极少次尝试即可找到最优动作,在 Virtual Tools 和 PHYRE 基准上超越 SOTA。

Closed-form Symbolic Solutions: A New Perspective on Solving Partial Differential Equations

本文提出 SymPDE 框架,利用深度强化学习直接搜索 PDE 的闭式符号解,绕过了 PINNs 数值解精度不足和可解释性差的问题,在 Poisson 方程和热方程上达到 90% 的恢复率。

Differentiable Stellar Atmospheres with Physics-Informed Neural Networks

提出 Kurucz-a1,一个物理约束神经网络(PINN),用于模拟一维恒星大气模型(LTE 假设),解决了可微恒星光谱学中大气结构求解器不可微的关键瓶颈,在流体静力平衡和太阳光谱一致性上甚至优于经典 ATLAS-12 代码。

Improving Memory Efficiency for Training KANs via Meta Learning

提出 MetaKANs,用一个小型元学习器(meta-learner)生成 KAN 中所有可学习激活函数的参数,将可训练参数量从 KAN 的 \((G+k+1)\) 倍压缩到接近 MLP 水平(约 1/3 到 1/9),同时保持甚至提升性能。

Maximal Update Parametrization and Zero-Shot Hyperparameter Transfer for Fourier Neural Operators

首次为 Fourier Neural Operator (FNO) 推导了 Maximal Update Parametrization (μP),使得在小模型上调优的超参数可以零样本迁移到十亿参数级 FNO,将 Navier-Stokes 问题的调参计算量降至 0.30×。

OmniArch: Building Foundation Model For Scientific Computing

OmniArch 是首个在 1D-2D-3D PDE 上进行统一预训练的科学计算基础模型,通过 Fourier 编解码器解决多尺度问题、Temporal Mask 机制处理多物理量耦合、PDE-Aligner 实现物理先验对齐,在 PDEBench 的 11 类 PDE 上达到了 SOTA 性能。

Universal Neural Optimal Transport

提出 UNOT(Universal Neural Optimal Transport),利用 Fourier Neural Operator 学习跨数据集、跨分辨率的熵正则化最优传输对偶势函数,实现对 Sinkhorn 算法最高 7.4× 的加速初始化。


👥 社会计算

DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts

提出 DEFAME,一个模块化零样本多模态 LLM 流水线,通过六阶段动态流程(规划→执行→摘要→推理→判决→解释)结合外部多模态工具检索证据,实现端到端的文本-图像联合事实核查,在 AVeriTeC、MOCHEG、VERITE 三个基准上均达到新 SOTA。

Dynamical Phases of Short-Term Memory Mechanisms in RNNs

本文发现了支持RNN短时记忆的两种不同潜在动力学机制——慢点流形(slow-point manifolds)和极限环(limit cycles),通过解析 toy 模型推导出各自最大可学习率的幂律缩放定律(SP: beta 约4-5 vs LC: beta 约2-3),并通过训练约80,000个RNN进行了大规模实证验证。

Is Your LLM-Based Multi-Agent a Reliable Real-World Planner? Exploring Fraud Detection in Travel Planning

提出 WandaPlan 评估环境,通过在旅行规划场景中注入三种递进式欺诈(单源误导、团队协调刷单、逐级升级),系统性评估 LLM 多智能体规划系统对虚假信息的脆弱性,并设计反欺诈 Agent 来缓解风险。

Learning Survival Distributions with the Asymmetric Laplace Distribution

提出基于非对称拉普拉斯分布 (ALD) 的参数化生存分析方法,通过神经网络学习 ALD 的三个参数(位置、尺度、不对称性),实现连续、闭式的生存分布估计,在判别性和校准性上全面优于现有参数化与非参数化方法。

OR-Bench: An Over-Refusal Benchmark for Large Language Models

提出首个大规模 LLM 过度拒绝(over-refusal)基准 OR-Bench,包含 80K 安全但易被拒绝的 prompt,揭示安全性与过度拒绝之间存在 Spearman 相关系数高达 0.89 的强权衡关系。

Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing

提出 GETA 框架,将心理测量学中的计算机自适应测试(CAT)与自动出题(AIG)结合,通过变分 IRT 和 LLM 驱动的题目生成器动态探测 LLM 的价值边界,解决静态基准因数据泄漏和难度饱和导致的"评估时效性效应"(evaluation chronoeffect)问题。

When Bad Data Leads to Good Models

本文提出"预训练-后训练协同设计"视角,通过受控实验证明在预训练数据中加入适量有毒数据(~10%)反而能降低毒性特征的纠缠度,使模型在后训练阶段(如 ITI 激活引导)更容易去毒,最终在 Toxigen 上将毒性从 41.40 降至 2.63,同时保持语言能力。


🎬 视频生成

AsymRnR: Video Diffusion Transformers Acceleration with Asymmetric Reduction and Restoration

提出 AsymRnR——一种免训练的视频 DiT 加速方法,基于注意力中不同组件(Q/K/V)、不同层、不同去噪步骤的冗余程度不同的观察,非对称地削减 token 以实现无损加速。

Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing

提出 Ca2-VDM,通过因果生成(Causal Generation)和缓存共享(Cache Sharing)两大设计,消除自回归视频扩散模型中条件帧的冗余计算,将计算复杂度从二次降至线性,生成 80 帧视频速度比基线快 2.5 倍,同时保持 SOTA 级生成质量。

Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development

提出 Data-Juicer Sandbox 沙箱套件,通过"探测-分析-精炼"(Probe-Analyze-Refine) 工作流,在低成本小规模实验中系统探索数据处理算子 (OP) 与模型性能的交互关系,将获得的数据配方迁移到大规模场景,在 VBench 排行榜取得第一名。

Diffusion Adversarial Post-Training for One-Step Video Generation

提出对抗式后训练(Adversarial Post-Training, APT)框架,通过在扩散模型预训练后引入对抗训练阶段,实现单步生成高质量视频(2秒、1280×720、24fps),模型名为Seaweed-APT。

How Far is Video Generation from World Model: A Physical Law Perspective

通过构建严格遵循经典力学定律的2D物理模拟视频数据集,系统性评估视频生成模型是否能从纯视觉数据中发现物理规律,揭示当前模型仅能记忆训练分布内的模式而无法泛化到新的物理条件。

MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance

基于 Stable Video Diffusion 构建姿态引导人体视频生成框架,通过将姿态估计置信度编码进引导信号、对高置信手部区域放大训练损失、以及位置感知的渐进式潜变量融合三项设计,在 TikTok 数据集上 FID-VID 达 9.3(前最优 12.4),同时支持任意长度平滑视频生成。

RIFLEx: A Free Lunch for Length Extrapolation in Video Diffusion Transformers

通过系统分析RoPE位置编码中各频率分量的角色,发现存在一个"固有频率"主导外推时的时间重复行为,提出仅降低该频率使其在外推后保持单周期的最小化方案RIFLEx,在CogVideoX-5B和HunyuanVideo上实现无训练2×高质量视频外推。


📹 视频理解

FastCAV: Efficient Computation of Concept Activation Vectors for Explaining Deep Neural Networks

提出 FastCAV,通过计算概念样本激活的归一化均值向量来替代 SVM 训练提取概念激活向量(CAV),在理论上等价于 Fisher 判别分析的简化形式,实测加速高达 63.6 倍(平均 46.4 倍),同时保持与 SVM-CAV 相当的分类精度和下游解释质量。

Fine-Grained Captioning of Long Videos through Scene Graph Consolidation

提出 SGVC 框架,通过将视频各段的文本描述解析为场景图、用 Hungarian 算法迭代合并为统一图表示、再用轻量图到文本解码器生成视频级描述,以极低计算开销实现了超越 LLM-based 方法的零样本长视频描述性能。

MoMa: Modulating Mamba for Adapting Image Foundation Models to Video Recognition

提出 MoMa 框架,通过序列调制操作 (SeqMod) 将 Mamba 的线性复杂度 SSM 以 scale-bias 方式注入冻结的 CLIP Transformer,实现高效全时空动态建模,在多个视频识别基准上以更少计算量达到 SOTA 水平。

Parity Requires Unified Input Dependence and Negative Eigenvalues in SSMs

从理论上证明了线性SSM(如S4/Mamba)无法计算奇偶校验(parity)函数——即使允许输入依赖参数化——除非状态转移矩阵包含负特征值,为SSM的表达力瓶颈提供了精确的数学刻画。

REVOLVE: Optimizing AI Systems by Tracking Response Evolution in Textual Optimization

REVOLVE 通过跟踪 LLM 系统中响应在迭代过程中的"演化"趋势来指导优化,比 TextGrad 等基于即时反馈的方法更稳定高效,在提示优化、方案改进和代码优化上分别提升 7.8%、20.72% 和 29.17%。

Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation

ViLaMP 提出差分蒸馏 (Differential Distillation) 原则,通过层次化的帧级差分关键帧选择 (DKS) 和 patch 级差分特征融合 (DFM) 两种机制实现"混合精度"视频处理——关键帧保留全部视觉 token,非关键帧压缩为单个 token,成功在单张 A100 GPU 上处理长达 10K 帧(约 2.7 小时)的超长视频。

Unifying Specialized Visual Encoders for Video Language Models

MERV 提出了多编码器视频表示方法,将四种专长不同的视觉编码器(DINOv2、ViViT、SigLIP、LanguageBind)通过时空对齐和跨注意力融合整合到单一 VideoLLM 中,在视频推理基准上比基线 Video-LLaVA 提升最高 4.62%,并验证了不同编码器的互补专长。


🎵 音频/语音

Bridging the Language Gap: Synthetic Voice Diversity via Latent Mixup for Equitable Speech Recognition

本文提出 LatentVoiceMix,在语音转换模型 Diff-HierVC 的说话人风格编码器潜在空间中进行 mixup 插值,生成具有新颖声音特征的合成语音数据用于增强 ASR 训练,在低资源语言 Wolof 上取得了优于波形增强、频谱增强和标准语音转换的 WER 改善效果。

FLAM: Frame-Wise Language-Audio Modeling

提出 FLAM,一个帧级音频-语言对比模型,通过文本依赖的 logit 偏置校正和百万级合成 SED 数据集,实现开放词汇声音事件的精确时间定位,同时保持全局检索和零样本分类性能。

OmniAudio: Generating Spatial Audio from 360-Degree Video

提出 OmniAudio 框架,首次实现从 360 度全景视频生成 First-order Ambisonics (FOA) 空间音频,通过 coarse-to-fine 自监督预训练和双分支视频编码架构,在自建的 Sphere360 数据集上取得 SOTA 性能。

One Wave To Explain Them All: A Unifying Perspective On Feature Attribution

提出 Wavelet Attribution Method (WAM),将特征归因从像素域迁移到小波域,利用小波系数的空间-尺度局部性为音频、图像、体数据提供统一且更具结构信息的模型解释。

Sortformer: A Novel Approach for Permutation-Resolved Speaker Supervision in Speech-to-Text Systems

提出 Sortformer——一个基于编码器的说话人日志模型,通过 Sort Loss 按说话人到达时间排序来解决排列问题,替代或辅助传统的排列不变损失(PIL),并设计正弦核函数将说话人标签注入 ASR 编码器,使多说话人 ASR 训练可直接使用标准交叉熵损失,在 LibriSpeechMix 上实现 2-mix/3-mix 相对误差降低 30%/25%。

Teaching Physical Awareness to LLMs through Sounds

提出 ACORN 框架,通过基于物理的声学通道仿真器生成大规模训练数据,配合同时捕获幅度和相位信息的音频编码器,教会 LLM 从声音中理解物理世界现象。


🔒 LLM安全

BECAME: BayEsian Continual Learning with Adaptive Model MErging

提出 BECAME——基于贝叶斯持续学习原则重新建模模型融合机制,利用 Laplace 近似推导出最优融合系数的闭式解,结合梯度投影(稳定性)和无约束训练(可塑性)的两阶段框架,在多个持续学习基准上显著超越 SOTA。

Cut out and Replay: A Simple yet Versatile Strategy for Multi-Label Online Continual Learning

提出 CUTER(CUT-out-and-Experience-Replay),通过裁剪图像中标签特定区域并存入记忆缓冲区进行回放,将多标签在线持续学习转化为多个单标签子图像分类任务,同时解决灾难性遗忘、缺失标签和类别不平衡三大挑战。

Improving Continual Learning Performance and Efficiency with Auxiliary Classifiers

本文首次探索了早退出网络(early-exit networks)在持续学习中的应用,发现早期分类器天然遭受更少的灾难性遗忘,并提出 Task-wise Logits Correction (TLC) 方法来均衡任务偏差,在阶段增量学习中以不到 70% 的计算量匹配标准方法的准确率。

NegMerge: Sign-Consensual Weight Merging for Machine Unlearning

提出 NegMerge,通过合并多个不同超参数微调模型的任务向量、仅保留符号一致的权重元素来构造更有效的遗忘向量,在零样本与标准分类场景中均取得 SOTA 遗忘效果。

System-Aware Unlearning Algorithms: Use Lesser, Forget Faster

提出系统感知遗忘 (system-aware unlearning) 新定义,将攻击者的能力限制为只能访问系统实际存储的内容而非全部剩余数据,并基于核心集 (core set) + 选择采样 (selective sampling) 设计了线性分类的精确遗忘算法,实现亚线性内存和极低删除时间。

Unlocking the Power of Rehearsal in Continual Learning: A Theoretical Perspective

从理论角度严格证明持续学习中排练策略的有效性机制——排练通过控制梯度方向偏差将多任务顺序学习近似为联合训练,遗忘界随缓冲区大小 \(m\)\(O(\sqrt{T/m})\) 次线性增长,为实际系统的缓冲区配置提供了 \(O(d/\epsilon^2)\) 的精确指导。


⚛️ 物理学

Compact Matrix Quantum Group Equivariant Neural Networks

本文将群等变神经网络扩展到紧致矩阵量子群的设定下,利用 Woronowicz 形式的 Tannaka-Krein 对偶理论刻画了该类网络的权重矩阵,为非交换几何上的数据学习提供了理论基础。

Finetuning Stellar Spectra Foundation Models with LoRA

首次将 LoRA 应用于恒星光谱基础模型 SpecCLIP,实现以约 100-200 个标注样本将预训练在 LAMOST/Gaia XP 上的模型高效适配到 DESI 巡天数据,证明 LoRA 是跨光谱巡天迁移的轻量而有效策略。

Gravity-Bench-v1: A Benchmark on Gravitational Physics Discovery for Agents

提出 Gravity-Bench-v1,一个基于引力动力学模拟的环境交互式基准测试,评估 AI Agent 在受限观测预算下进行科学发现(包括 OOD 物理场景)的能力,发现当前模型在观测规划和预算利用方面存在显著不足。

Mixture-of-Expert Variational Autoencoders for Cross-Modality Embedding of Type Ia Supernova Data

提出基于 Perceiver-IO 架构的多模态混合专家 VAE(MMVAE),对 Ia 型超新星的光变曲线和光谱进行联合嵌入,实现从光变曲线到光谱的跨模态概率生成,重建精度优于对比学习基线。

Rethink the Role of Deep Learning towards Large-scale Quantum Systems

在统一量子资源约束下系统性地对比 ML 与 DL 在量子系统学习 (QSL) 任务中的表现,发现传统 ML(Lasso/Ridge/核方法)往往匹配甚至超越 DL,挑战了"大规模量子系统必须用深度学习"的直觉。

Teaching LLMs to Speak Spectroscopy

仅使用 16 GPU 小时和 0.04% 的参数适配,通过 LoRA 将 LLaMA-3.1-8B 改造为可从光谱数据预测星系红移的模型,同时保留 85%+ 的语言能力,证明通用 LLM 可高效适配非文本科学模态。


🖼️ 图像恢复

Adaptive Estimation and Learning under Temporal Distribution Shift

提出基于小波软阈值的估计算法,在无需先验知识的情况下实现时间分布偏移下的最优逐点估计误差界,将序列非平稳性与小波域稀疏性建立联系,并应用于分布偏移下的二分类和全变分去噪问题。

ε-VAE: Denoising as Visual Decoding

提出 ε-VAE,将传统自编码器中的单步确定性解码器替换为扩散/去噪过程,实现"去噪即解码"(Denoising as Decoding),在相同压缩率下重建质量提升 40%、下游生成质量提升 22%,或在保持生成质量的同时通过提高压缩率实现 2.3 倍推理加速。

Evaluating Deepfake Detectors in the Wild

构建包含50万+高质量deepfake图像的新数据集,通过引入JPEG压缩、降分辨率、图像增强等真实场景增强,系统评估6种开源deepfake检测器,揭示不到一半检测器AUC>60%,最低仅约50%(随机水平)。

HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration

提出 HarmoniCa 框架,通过 Step-Wise Denoising Training (SDT) 和 Image Error Proxy-Guided Objective (IEPO) 两大设计解决现有学习型特征缓存方法中训练与推理不对齐的问题,在 PixArt-α 等 8 种模型上实现超 40% 延迟降低(2.07× 理论加速)且不损失生成质量。

TimeDART: A Diffusion Autoregressive Transformer for Self-Supervised Time Series Representation

提出 TimeDART,将自回归建模与去噪扩散过程统一在一个自监督预训练框架中,通过因果 Transformer 编码器捕获长期动态演化、patch 级扩散去噪捕获细粒度局部模式,在预测和分类任务上均超越现有方法。


🔍 信息检索/RAG

Don't Lag, RAG: Training-Free Adversarial Detection Using RAG

本文提出 VRAG 框架,通过构建对抗补丁数据库 + 视觉检索增强生成(VRAG)+ VLM 推理的免训练 pipeline,实现对多种对抗补丁攻击的高效检测,Gemini-2.0 达到 98% 准确率,开源模型 UI-TARS-72B-DPO 达 95%。

POQD: Performance-Oriented Query Decomposer for Multi-Vector Retrieval

提出 POQD,一个面向性能的查询分解框架,利用 LLM-based Prompt Optimizer 迭代优化查询分解 prompt,并通过交替训练算法联合优化 prompt 和下游 RAG 模型参数,在检索和端到端 QA 任务上大幅超越现有方法。

RAPID: Long-Context Inference with Retrieval-Augmented Speculative Decoding

提出 RAPID,将 RAG 与 Speculative Decoding 结合:用 RAG drafter(在短检索上下文上运行的 LLM)为长上下文目标 LLM 生成候选 token,并通过推理时知识迁移增强目标分布,在长上下文推理中同时实现 >2× 加速和生成质量提升。

Rethinking Addressing in Language Models via Contextualized Equivariant Positional Encoding

本文提出 TAPE(contexTualized equivariAnt Position Encoding),通过在各层动态地根据序列内容更新位置编码来取代传统的固定位置模式,同时强制排列和正交等变性以保证稳定性,在语言建模、算术推理和长上下文检索任务上显著超越现有位置编码方法。

Understanding Synthetic Context Extension via Retrieval Heads

本文通过系统实验揭示了合成上下文扩展(synthetic context extension)为何有效的机制:合成数据训练出的"检索头"(retrieval heads)与真实数据训练出的检索头高度重叠,检索头的召回率可以预测下游长上下文任务的性能,并通过注意力剔除(attention knockout)和激活修补(activation patching)从机制层面证明了检索头的必要性。


📡 信号/通信

Eigenspectrum Analysis of Neural Networks without Aspect Ratio Bias

论文提出 FARMS(Fixed-Aspect-Ratio Matrix Subsampling),通过固定长宽比子矩阵采样来消除权重特征谱分析中的长宽比偏差,从而显著提升基于 HT-SR 的分层学习率分配与模型剪枝效果。

Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization

通过将 RoPE 中每个维度从单一频率扩展为傅里叶级数表示,并裁剪欠训练的低频分量,实现注意力机制的可靠周期性扩展,从而大幅提升 LLM 的长度泛化能力。

Large Language Model (LLM)-enabled In-context Learning for Wireless Network Optimization

提出基于 LLM 上下文学习(In-context Learning)的基站功率控制算法,通过自然语言任务描述和经验池驱动的示例选择,在不更新模型参数的条件下达到接近传统深度强化学习的性能。

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

提出一种奖励增强的数据重标注方法,通过将偏好对条件化于奖励分数构建扩增数据集,使DPO能感知回复质量全谱,缓解高质量rejected回复被遗忘和低质量chosen回复被盲目学习的问题,在多个基准上一致性大幅提升DPO性能。

SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

提出 SepLLM,利用分隔符 token(标点符号等)天然压缩文本段落信息的特性,仅保留 Initial + Separator + Neighboring 三类 token 的 KV 缓存,在保持性能的同时大幅减少注意力计算和内存占用。


🗣️ 对话系统

Agent WARPP: Workflow Adherence via Runtime Parallel Personalization

提出 WARPP,一个无需训练的多智能体框架,在运行时根据用户属性动态剪枝条件分支工作流,并通过并行化的 Personalizer 智能体与模块化域特定智能体协同执行,在提升工具调用精度和参数保真度的同时减少 token 消耗。

Investigating Non-Transitivity in LLM-as-a-Judge

揭示了 LLM-as-a-Judge 框架中评判偏好的非传递性问题(A>B, B>C 不能推出 A>C),证明固定基线模型的排名方式不可靠,提出基于循环赛 + Bradley-Terry 模型的排名方法及高效的 Swim 锦标赛策略。

Position: Uncertainty Quantification Needs Reassessment for Large-language Model Agents

本文是一篇 Position Paper,通过梳理文献中 aleatoric 和 epistemic 不确定性的多种相互矛盾的定义,论证传统二分法在 LLM 交互场景中根本性失效,并提出 underspecification uncertainty(任务/上下文欠规范)、interactive learning(通过追问减少不确定性)和 output uncertainty(用自然语言而非标量表达不确定性)三个新研究方向。


✏️ 知识编辑

Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing

通过在环形结构知识图谱上训练Transformer的合成实验,发现知识编辑(KE)会"粉碎"模型内部学到的几何表示流形,且粉碎程度与编辑距离正相关(\(r^2=0.905\)),从而提出"表示粉碎"(representation shattering)作为KE损害模型能力的机制性假说,并在Llama 3和Mamba上验证了该现象的普遍性。

WikiBigEdit: Understanding the Limits of Lifelong Knowledge Editing in LLMs

本文提出 WikiBigEdit,一个包含 50 万+ 真实 Wikidata 知识编辑的大规模终身知识编辑基准,揭示了现有知识编辑方法在实际规模下的严重局限性——检索增强和持续微调+模型合并等通用方法反而表现更优。


📂 其他

Adversarial Combinatorial Semi-bandits with Graph Feedback

本文将图反馈(graph feedback)引入对抗组合半臂赌博机(combinatorial semi-bandits)框架,提出 OSMD-G 算法,建立了最优遗憾(regret)界 \(\widetilde{\Theta}(S\sqrt{T} + \sqrt{\alpha S T})\),其中 \(S\) 是组合决策大小,\(\alpha\) 是反馈图的独立数,关键技术在于利用随机化轮换舍入(randomized swap rounding)实现负相关采样。

AutoAL: Automated Active Learning with Differentiable Query Strategy Search

提出首个可微的主动学习策略搜索框架 AutoAL,通过 SearchNet 和 FitNet 两个网络在双层优化框架下协同训练,自动从多个候选 AL 策略中为给定任务选出最优策略,在自然图像和医学图像数据集上一致超越所有候选策略及其他 SOTA 方法。

Avoiding Catastrophe in Online Learning by Asking for Help

提出一个全新的在线学习理论框架来处理灾难性(不可逆)错误:将回报定义为避灾概率、目标函数为回报之积(总体避灾概率),引入导师求助机制和Local Generalization假设,证明不可能结果(不求助则必灾难)和可能结果(策略类可学则后悔和求助率同时趋零),将标准在线学习的子线性后悔提升为子常数后悔。

Beyond Entropy: Region Confidence Proxy for Wild Test-Time Adaptation

揭示熵最小化在野外测试时适应(WTTA)中的根本局限——局部区域内语义相似样本的预测不一致导致冲突优化动态,提出 ReCAP 框架用概率区域建模和有限到无穷渐近近似将不可处理的区域置信度转化为高效可优化的代理目标,在 ImageNet-C 上一致超越 SOTA。

Bipartite Ranking From Multiple Labels: On Loss Versus Label Aggregation

本文从理论上分析了多标签二部排序(bipartite ranking)中两种聚合策略——损失聚合(loss aggregation)与标签聚合(label aggregation)——的Bayes最优解,揭示了损失聚合会产生"标签独裁"(label dictatorship)现象(某一标签因边际偏斜度而主导排序),而标签聚合能更均衡地对待所有标签。

Constrained Hamiltonian Systems on Observation-Induced Fiber Bundles: Theory of Symmetry and Integrability

提出"观测诱导纤维丛"几何框架,将部分可观测系统中的观测不确定性从外部扰动内化为纤维坐标的内禀变化,在此结构上统一处理状态约束与观测约束,建立了完整的辛几何、可积性、对称性与守恒律理论。

Continuous-Time Analysis of Heavy Ball Momentum in Min-Max Games

通过连续时间ODE建模,系统揭示了Heavy Ball动量在min-max博弈中与极小化问题截然不同的行为:更小的动量(包括负动量)能扩大收敛步长范围并引导轨迹走向更浅梯度区域,而交替更新比同步更新收敛更快且放大了这一正则化效应。

Cover Learning for Large-Scale Topology Representation

提出 Cover Learning 作为一种统一的无监督学习问题,基于优化的视角设计三项损失函数(测度、几何、拓扑)学习数据集的拓扑忠实覆盖,所得单纯复形在拓扑推断中比标准几何复形更紧凑,在大规模拓扑可视化中比 Mapper 图能表示更高维信息。

DRO-BAS: Decision Making under the Exponential Family DRO with Bayesian Ambiguity Sets

提出 DRO-BAS 框架,利用贝叶斯后验信念构建两种后验知情的不确定集(BASPP 和 BASPE),在指数族共轭模型下可化为高效单阶段随机规划,在 Newsvendor 和 Portfolio 问题上 Pareto 支配现有 Bayesian DRO 方法。

Democratic AI is Possible. The Democracy Levels Framework Shows How It Might Work

提出"Democracy Levels"(民主等级)框架,将 AI 决策权从单方面权威向民主系统的转移划分为 L0–L5 六个等级,并配套维度评估体系和实操工具,为 AI 治理的民主化提供了系统性路线图。

Discrepancy Minimization in Input-Sparsity Time

提出首个实值矩阵差异最小化的输入稀疏时间算法,组合版 \(\widetilde{O}(\mathrm{nnz}(A)+n^3)\)、快速矩阵乘法版 \(\widetilde{O}(\mathrm{nnz}(A)+n^{2.53})\),逼近 herdisc 的对数因子保证不变,几乎弥合了实值矩阵与二值矩阵之间的计算鸿沟。

Discrete Neural Algorithmic Reasoning

提出离散神经算法推理器(DNAR),通过特征离散化、硬注意力和连续/离散数据流分离三大组件,迫使神经网络沿有限预定义状态执行算法轨迹,在 BFS/DFS/Dijkstra/Prim/MIS 等任务上实现100%完美测试得分,并可形式化证明所学算法的正确性。

Diverse Prototypical Ensembles Improve Robustness to Subpopulation Shift

提出 Diversified Prototypical Ensemble (DPE),用多个多样化的原型分类器替换标准线性分类头,通过显式(inter-prototype similarity loss)和隐式(bootstrap 采样)两种多样化策略,在不需要子群标注的情况下自适应发现子群决策边界,显著提升 worst-group accuracy。

Diversity By Design: Leveraging Distribution Matching for Offline Model-Based Optimization

提出 DynAMO,通过将设计多样性显式建模为分布匹配问题,在离线模型基础优化(MBO)中同时发现高质量和高多样性的候选设计方案。

DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers

针对多维 Transformer(如视频生成中的时空注意力模型)中现有序列并行方法只能沿单一维度分片导致大量冗余通信的问题,提出 Dynamic Sequence Parallelism (DSP),通过在计算阶段之间动态切换并行维度(而非在模块内部通信),利用高效 all-to-all 操作实现 resharding,端到端吞吐提升 32.2%~10×,通信量减少至少 50%。

Efficient Network Automatic Relevance Determination

将自动相关性确定(ARD)从单输出扩展到多输出回归场景,提出 NARD 框架联合估计稀疏回归系数和输出精度矩阵,并设计 Sequential/Surrogate/Hybrid 三种加速算法将复杂度从 \(\mathcal{O}(d^3)\) 降至 \(\mathcal{O}(p^2)\)

Efficient Optimization with Orthogonality Constraint: a Randomized Riemannian Submanifold Method

提出随机黎曼子流形下降方法 (RSDM),通过将每步更新限制在随机低维子流形上,将正交约束优化中 retraction 操作的复杂度从 \(O(np^2)\) 降至 \(O(r^3)\),同时保持与全空间黎曼梯度下降相匹配的总计算复杂度。

Enhancing Certified Robustness via Block Reflector Orthogonal Layers and Logit Annealing Loss

本文提出了一种高效的低秩正交层参数化方法(BRO Layer)和一种退火机制的损失函数(Logit Annealing Loss),用于构建具有更强认证鲁棒性的 Lipschitz 神经网络 BRONet,在 CIFAR-10/100、Tiny-ImageNet 和 ImageNet 上达到 SOTA。

Exploiting Similarity for Computation and Communication-Efficient Decentralized Optimization

提出 Stabilized Proximal Decentralized Optimization (SPDO) 方法及其加速版本,在近端去中心化优化框架下同时实现最优的通信和计算复杂度——通过稳定化投影技术放松子问题精度要求(从随迭代递增变为恒定),并用平均函数相似性 \(\delta\) 替代最大相似性 \(\delta_{\max}\) 来降低通信开销。

Feature Learning beyond the Lazy-Rich Dichotomy: Insights from Representational Geometry

提出用流形容量 (manifold capacity) 及其关联的几何度量 (GLUE) 来刻画特征学习的丰富程度,超越传统的 lazy vs rich 二分法,揭示了不同学习阶段、学习策略以及在神经科学和 OOD 泛化问题中的新洞察。

Fishers for Free? Approximating the Fisher Information Matrix by Recycling the Squared Gradient Accumulator

本文系统分析了 Adam 优化器的平方梯度累积器(Squisher)与 Fisher 信息矩阵对角线之间的理论联系,证明 Squisher 可以作为 Fisher 对角线的免费近似,在模型合并、持续学习、稀疏化等五大应用中表现与 Fisher 相当。

Fixed-Confidence Multiple Change Point Identification under Bandit Feedback

提出了固定置信度下分段常数 bandit 中多变点识别问题,给出实例相关的采样复杂度下界,并设计了简单高效且渐近最优的 MCPI(Multiple Change Point Identification)算法。

Fixing the Loose Brake: Exponential-Tailed Stopping Time in Best Arm Identification

揭示了经典固定置信度最佳臂识别算法(Successive Elimination、KL-LUCB)存在永不停止的正概率事件,并提出 FC-DSH 和元算法 BrakeBooster 两种方案,首次实现了停止时间的指数尾衰减保证,且不损失实例依赖复杂度(仅差对数因子)。

Fully Dynamic Euclidean Bi-Chromatic Matching in Sublinear Update Time

本文首次提出了欧氏双色匹配问题的全动态亚线性更新算法,对于任意固定 \(\varepsilon > 0\),实现 \(O(1/\varepsilon)\) 近似比和 \(O(n^{\varepsilon})\) 更新时间,可用于高效监控分布漂移(Wasserstein距离)。

General Agents Contain World Models

本文从理论上证明:任何能在多步目标导向任务上泛化的智能体,必然隐式学到了一个其环境的预测模型(世界模型),且该模型可以从智能体的策略中提取出来——智能体越强、目标越复杂,其隐含的世界模型越准确。

Generation from Noisy Examples

将 Kleinberg & Mullainathan (2024) 的"极限语言生成"理论框架扩展至噪声样本流场景,提出 Noisy Closure 维度,完整刻画了均匀噪声依赖可生成性的充要条件,并证明所有可数假设类在有限噪声下仍可非均匀生成。

GLGENN: 基于Clifford几何代数的轻参数等变神经网络架构

提出广义Lipschitz群等变神经网络(GLGENN),利用几何代数中grade involution和reversion定义的四个基本子空间实现权重共享,在保持伪正交群等变性的同时大幅减少可训练参数(约为CGENN的1/2至1/3),在多个基准任务上匹配或超越CGENN。

GPU-friendly and Linearly Convergent First-order Methods for Certifying Optimal \(k\)-sparse GLMs

提出GPU友好的线性收敛一阶方法,通过复合重构+对偶间隙重启策略,将透视松弛求解加速1-2个数量级,实现大规模稀疏GLM的最优性认证。

Heavy-Tailed Linear Bandits: Huber Regression with One-Pass Update

提出基于 Online Mirror Descent 的单遍 Huber 回归算法 Hvt-UCB,用于重尾噪声线性 bandit,将每轮计算复杂度从 \(\mathcal{O}(t\log T)\) 降至 \(\mathcal{O}(1)\),同时保持最优且依赖实例的 regret 界。

Hierarchical Refinement: Optimal Transport to Infinity and Beyond

提出 Hierarchical Refinement (HiRef) 算法,通过递归求解低秩最优传输子问题来动态构建多尺度数据分区,以对数线性时间和线性空间复杂度获得完整的双射 Monge 映射,将最优传输扩展到百万级数据集。

How Do Transformers Learn Variable Binding in Symbolic Programs?

通过训练Transformer在合成程序上做变量解引用(dereference),揭示了三阶段发展轨迹:(1)随机预测→(2)浅层启发式→(3)系统性解引用机制,因果干预证明模型学会将残差流用作可寻址内存空间。

Improved Generalization Bounds for Transductive Learning by Transductive Local Complexity and Its Applications

提出转导局部复杂度(TLC)框架,将经典的局部 Rademacher 复杂度扩展到转导学习设定,获得了与归纳学习几乎一致的超额风险界(仅差对数因子),并解决了十年未决的开放问题。

Improved Learning via k-DTW: A Novel Dissimilarity Measure for Curves

提出 \(k\)-DTW——一种对多边形曲线的新型不相似度量,仅关注遍历中最大的 \(k\) 个距离之和,兼具 DTW 的鲁棒性与 Fréchet 距离的度量性质,并首次证明了曲线聚类的无维度依赖学习界。

K²IE: Kernel Method-based Kernel Intensity Estimators for Inhomogeneous Poisson Processes

提出 K²IE——基于 RKHS 最小二乘正则化的核强度估计器,证明其 representer theorem 的对偶系数恒为 1,从而将经典核强度估计 (KIE) 与现代核方法在理论上统一,同时兼顾 KIE 的高效性与核方法的边缘校正优势。

LapSum -- One Method to Differentiate Them All: Ranking, Sorting and Top-k Selection

提出 LapSum,基于 Laplace 分布累积密度函数之和的闭式可逆公式,统一解决可微 ranking、sorting、top-k 选择和置换矩阵四大排序问题,时间复杂度仅 \(O(n\log n)\)、空间 \(O(n)\),在大规模场景下显著优于现有方法。

Latent Variable Estimation in Bayesian Black-Litterman Models

将经典 Black-Litterman 组合优化模型中的主观投资者观点 \((q, \Omega)\) 视为隐变量,通过贝叶斯网络从市场特征数据中自动推断,消除对人工主观输入的依赖,在 30 年道琼斯和 20 年 ETF 数据上 Sharpe 比率提升约 50%、换手率降低约 55%。

Learning-Augmented Algorithms for MTS with Bandit Access to Multiple Predictors

在度量任务系统(MTS)中,当算法仅能以 bandit 方式(每步只查询一个启发式且需连续查询 \(m\) 步才能观测状态)访问 \(\ell\) 个启发式时,本文给出了 regret 为 \(O(\text{OPT}^{2/3})\) 的算法,并证明该界是紧的。

Learning-Augmented Hierarchical Clustering

本文研究借助分裂预言机(splitting oracle)的辅助信息来突破层次聚类的近似硬度障碍,获得 Dasgupta 目标的 \(O(1)\) 常数近似和 Moseley-Wang 目标的 \((1-o(1))\) 近似,并推广到流式和并行计算场景。

Learning Distances from Data with Normalizing Flows and Score Matching

本文提出利用 normalizing flows 和 score matching 学习密度函数与得分函数,从而高效计算基于密度的 Fermat 距离,解决了传统图方法在高维空间中收敛慢、路径粗糙的问题。

Lightspeed Geometric Dataset Distance via Sliced Optimal Transport

提出 s-OTDD(sliced optimal transport dataset distance),通过 Moment Transform Projection(MTP)将标签分布映射为标量,实现近线性复杂度的数据集距离计算,速度远超 OTDD 且性能相当。

Maximum Coverage in Turnstile Streams with Applications to Fingerprinting Measures

首次在 turnstile 流模型(支持任意插入/删除)下给出最大覆盖问题的单遍流算法,空间 \(\tilde{O}(d/\varepsilon^3)\)、更新时间 \(\tilde{O}(1)\),并将其推广到隐私指纹识别(fingerprinting)场景,实验比先前方法快 210×。

Modified K-means Algorithm with Local Optimality Guarantees

首次指出经典K-means算法并不总是收敛到局部最优解这一长期误解,并提出LO-K-means修改方案,在不增加单步计算复杂度的前提下保证收敛到连续或离散意义下的局部最优解。

Multiple-Policy Evaluation via Density Estimation

提出 CAESAR 算法,通过两阶段方法(粗估计访问分布 + 最优采样分布下的密度比估计)同时评估 K 个策略,实现非渐近、实例依赖的样本复杂度,核心技术是"粗估计"——仅需 \(O(1/\epsilon)\) 样本即可获得常数倍精度的分布近似。

Near-Optimal Consistency-Robustness Trade-Offs for Learning-Augmented Online Knapsack Problems

提出一族基于简洁预测(临界值的点预测或区间预测)的在线背包算法,在consistency与robustness之间实现近Pareto最优的权衡,并给出分数解到整数解的通用转换方法。

Near Optimal Best Arm Identification for Clustered Bandits

在多智能体聚类多臂赌博机设置下,提出 Cl-BAI 和 BAI-Cl 两种算法,利用聚类结构大幅降低最优臂识别的样本复杂度,并证明 BAI-Cl++ 在 \(M\) 为常数时达到 minimax 最优。

NeuronTune: Towards Self-Guided Spurious Bias Mitigation

NeuronTune 提出一种无需组标签的自引导去偏方法:通过对比模型隐空间中正确/错误预测样本的神经元激活差异,识别受虚假偏差影响的维度并将其置零,再重训最后一层分类器,从而显著提升 worst-group accuracy。

Nonparametric Modern Hopfield Models

本文提出现代 Hopfield 模型的非参数框架,将记忆存储与检索过程建模为非参数回归问题,由此推导出首个具有亚二次复杂度的高效稀疏结构现代 Hopfield 模型,并提供了完备的理论分析(检索误差界、噪声鲁棒性、指数记忆容量)。

On Fine-Grained Distinct Element Estimation

提出以成对碰撞数 \(C\)(pairwise collisions)作为分布式去重计数问题的细粒度复杂度参数,设计了通信量随 \(C\) 减小而显著降低的协议,打破了此前 \(\Omega(\alpha/\varepsilon^2)\) 的最坏情况下界,并给出了所有参数区间的匹配下界。

On the Importance of Gaussianizing Representations

基于信息论动机(正态分布同时是最优信号与最差噪声分布),提出 Normality Normalization 层:在常规归一化之后用 Power Transform 高斯化激活值,并注入缩放高斯噪声进行正则化,在 ViT/ResNet 上普遍提升泛化与鲁棒性,且不引入额外可学习参数。

OOD-Chameleon: Is Algorithm Selection for OOD Generalization Learnable?

将 OOD 泛化的训练算法选择形式化为可学习的多标签分类问题,在"数据集的数据集"上训练选择器,仅凭数据集统计特征(偏移程度、数据规模等)即可先验地预测最佳训练算法(ERM / GroupDRO / 重采样 / Logits 调整),在合成、视觉、语言 7 个应用上验证了选择器学到了可迁移的非平凡决策规则。

Optimal Auction Design in the Joint Advertising

本文针对联合广告场景(零售商与供应商共同竞标广告位)提出最优拍卖机制:单槽位下给出Myerson式闭式最优解,多槽位下设计BundleNet神经网络以bundle为单位构建IC约束,在保证近似激励兼容的同时最大化平台收入。

Optimal Sensor Scheduling and Selection for Continuous-Discrete Kalman Filtering with Auxiliary Dynamics

提出一种面向连续-离散卡尔曼滤波 (CD-KF) 的最优传感器调度框架:将多传感器观测建模为独立 Poisson 过程,推导后验协方差矩阵的可微上界,利用梯度优化方法联合优化观测频率与辅助动力学输入,并通过 Wasserstein-2 最优量化确定性地选取观测时刻。

PAC Learning with Improvements

提出"带改进的 PAC 学习"框架:当 agent 能真正提升自身特征至多 \(r\) 时,保守分类器可实现零误差(将标准 PAC 中不可能的目标变为可能),有限 VC 维既非充分也非必要条件,改进学习与标准 PAC 和策略性分类存在本质分离。

Permutation Equivariant Neural Networks for Symmetric Tensors

本文首次研究了以对称张量为输入的置换等变神经网络,给出了对称幂空间之间所有线性置换等变函数的两种完整刻画,实验证明该方法在数据效率和泛化能力上显著优于标准 MLP。

Position: Solve Layerwise Linear Models First to Understand Neural Dynamical Phenomena

提出动态反馈原则 (Dynamical Feedback Principle),论证逐层线性模型(layerwise linear models)足以统一解释 neural collapse、emergence、lazy/rich regime 和 grokking 四大深度学习动力学现象,呼吁优先研究逐层结构而非非线性激活。

Positional Attention: Expressivity and Learnability of Algorithmic Computation

提出 Positional Transformer——注意力权重仅由位置编码决定、与输入数据无关的 Transformer 变体,证明其保持了与 MPC 并行计算模型等价的表达力(仅增加 \(O(\log n)\) 深度代价),并在算法任务上展现出显著更优的分布外泛化能力。

Practical Principles for AI Cost and Compute Accounting

针对 AI 监管中计算量/成本阈值的核算标准模糊问题,提出七项原则来封堵蒸馏漏洞等规避手段、避免抑制安全措施、并实现跨企业一致实施,为 EU AI Act 等法规的落地提供理论框架。

Prediction-Powered Adaptive Shrinkage Estimation

将Prediction-Powered Inference (PPI)与经验贝叶斯收缩有机结合,提出PAS两阶段估计方法——先在每个问题内利用ML预测做方差缩减,再跨问题利用ML预测作为收缩目标做自适应收缩,通过CURE无偏风险估计自动调优收缩参数,理论证明渐近最优。

Prediction via Shapley Value Regression (ViaSHAP)

提出 ViaSHAP,将 Shapley 值的计算融入模型训练过程,使得推理时通过对 Shapley 值求和直接得到预测,无需后验解释器,在表格数据上达到 XGBoost 级别的预测精度,同时 Shapley 值近似质量显著优于 FastSHAP。

Principled Algorithms for Optimizing Generalized Metrics in Binary Classification

本文提出了优化广义分类指标(如 \(F_\beta\)、Jaccard、加权准确率等)的有原则算法 METRO,基于 \(H\)-一致性界和代理损失理论,将指标优化重新表述为广义代价敏感学习问题,具有有限样本泛化保证。

Probably Approximately Global Robustness Certification

提出基于 ε-net 采样的概率近似全局鲁棒性(PAG)认证框架,所需样本量与输入维度、类别数和模型架构无关,可高效认证大规模神经网络的全局鲁棒性。

Provably Efficient Algorithm for Best Scoring Rule Identification in Online Principal-Agent Information Acquisition

本文在委托-代理(principal-agent)在线信息获取框架下研究最佳评分规则识别(Best Scoring Rule Identification, BSRI)问题,提出 OIAFC(固定置信度)和 OIAFB(固定预算)两种算法,首次建立了实例依赖的样本复杂度上界 \(\widetilde{O}(MH_\Delta)\),并将实例无关的样本复杂度从已有工作的 \(\widetilde{O}(C_O^3 K^6 \epsilon^{-3})\) 大幅改进至 \(\widetilde{O}(MK\epsilon^{-2})\)

Randomized Dimensionality Reduction for Euclidean Maximization and Diversity Measures

证明了对一大类欧氏最大化问题(最大匹配、最大TSP、最大生成树、子图多样性等),使用数据无关的高斯 JL 变换将维度降至 \(O(\lambda)\)\(\lambda\) 为数据集倍增维度)即可近似保持所有候选解的值,并证明该依赖是紧的。

Regression for the Mean: Auto-Evaluation and Inference with Few Labels through Post-hoc Regression

将 PPI++ 中调参 \(\lambda\) 的过程重新解释为事后回归(post-hoc regression),提出 Ridge-PPI 和 Sigmoid-PPI 两种改进方法,在少标签(\(n < 50\))场景下显著降低均值估计方差,优于经典估计和 PPI++。

Residual Matrix Transformers: Scaling the Size of the Residual Stream

用外积记忆矩阵替换 Transformer 的残差流向量,使残差流大小可独立于模型参数量和 FLOPS 扩展,在相同 loss 下节省 58% FLOPS、25% 参数和 41% 训练 token。

Rethinking Aleatoric and Epistemic Uncertainty

本文指出机器学习中 aleatoric/epistemic 不确定性二分法存在根本性概念混淆,提出基于决策理论的替代框架,将预测不确定性、可约/不可约分解、预测性能和数据分散度统一在一个连贯的理论体系中,并揭示了 BALD 作为 epistemic uncertainty 估计器的局限性。

Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model

针对标签随机块模型 (LSBM),提出 IAC (Instance-Adaptive Clustering) 算法,通过一次谱聚类 + 迭代似然改进两阶段策略,首次以 \(\mathcal{O}(n(\log n)^3)\) 复杂度实现匹配实例特定信息论下界的社区恢复,同时提供期望和高概率双重保证。

Revisiting the Predictability of Performative, Social Events

本文用现代学习理论工具(performative prediction + outcome indistinguishability)重新回答了20世纪社会科学中的经典问题:在预测会主动影响结果的情况下,社会事件是否仍可被准确预测?答案是肯定的——但这种"准确"的预测可能毫无用处。

Sampling from Binary Quadratic Distributions via Stochastic Localization

首次将随机局部化 (Stochastic Localization, SL) 框架应用于一般二元二次分布 (BQD) 采样,证明经过足够SL迭代后后验分布几乎处处满足 Poincaré 不等式,从而保证离散 MCMC 采样器多项式时间混合,并在 QUBO 组合优化问题上验证了一致的采样效率提升。

Sassha: Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation

提出 Sassha 优化器,将 sharpness-aware minimization(SAM)引入二阶优化框架,通过稳定 Hessian 近似和 lazy 更新策略,使二阶方法首次在泛化性能上全面超越 SGD、AdamW 和 SAM 等一阶方法。

Scalable Equilibrium Sampling with Sequential Boltzmann Generators

SBG通过Transformer架构规范化流(TarFlow)和退火Langevin动力学的序列蒙特卡洛,首次在笛卡尔坐标系中实现六肽(66原子)系统的高效平衡采样。

Score Matching with Missing Data

本文将 score matching 及其主要扩展适配到缺失数据场景,提出两种变体——重要性加权(IW)方法和变分方法,在图模型估计等任务上展示了不同场景下各自的优势。

Softmax is not Enough (for Sharp Size Generalisation)

本文从理论上证明了 softmax 注意力在输入规模增大时必然发生系数分散(dispersion),无法保持对少量关键元素的尖锐聚焦,并提出自适应温度(adaptive temperature)作为缓解手段。

Sparse-Pivot: Dynamic Correlation Clustering for Node Insertions

提出 Sparse-Pivot 算法,在节点动态插入的 Correlation Clustering 问题中以摊销 \(O_\varepsilon(\log^{O(1)} n)\) 的数据库操作实现 \((20+\varepsilon)\)-近似,大幅改善了 Cohen-Addad et al. (ICML 2024) 的近似因子,并在实验中全面优于基线。

Sparse Training from Random Initialization: Aligning Lottery Ticket Masks using Weight Symmetry

从权重对称性角度解释彩票假说(LTH)掩码不能迁移到新初始化的原因,并提出通过置换匹配对齐LTH掩码与新初始化的优化盆地来实现稀疏训练。

SUICA: Learning Super-high Dimensional Sparse Implicit Neural Representations for Spatial Transcriptomics

提出 SUICA,通过图增强自编码器将超高维稀疏空间转录组数据压缩到紧凑嵌入空间,再用隐式神经表示(INR)建模坐标到嵌入的连续映射,实现跨多种 ST 平台的空间填补、基因填补和去噪。

Suitability Filter: A Statistical Framework for Classifier Evaluation in Real-World Settings

本文提出 Suitability Filter 框架,利用模型输出的"适用性信号"(suitability signals)在无标签的用户数据上检测分类器性能退化,通过统计假设检验判断准确率是否相比测试集显著下降。

Symmetry-Aware GFlowNets

揭示 GFlowNets 在图生成中因等价动作(不同动作产出同构图)导致的系统性采样偏差——节点生成偏向低对称图、片段生成偏向高对称组件,提出通过终态自同构群大小缩放奖励的简单修正方法 SA-GFN,仅需一次自同构群计算即可实现无偏采样。

Symmetry-Robust 3D Orientation Estimation

提出一种对旋转对称性鲁棒的两阶段3D朝向估计流水线:第一阶段通过商回归(quotient regression)将朝向恢复到八面体对称群的等价类内,第二阶段通过分类器预测24个八面体翻转之一以完成精确复原,在ShapeNet上取得SOTA。

SynDaCaTE: A Synthetic Dataset for Evaluating Part-Whole Hierarchical Inference

提出SynDaCaTE合成数据集和Mereological Inference框架,将部分-整体层次推断分解为Image-to-Parts和Parts-to-Wholes两个可独立评估的子任务,通过精心设计的控制实验证明CapsNet的瓶颈在于从图像提取部件而非从部件推断整体,同时发现置换等变的SetTransformer在部件到整体推断中显著优于所有基线(超过10倍精度优势)。

TANGO: Clustering with Typicality-Aware Nonlocal Mode-Seeking and Graph-Cut Optimization

提出"典型性(typicality)"概念,从全局视角量化数据点作为模式(聚类中心)的置信度,结合改进的路径相似度与图割优化,实现无需人工阈值设定的自动模式检测与聚类。

The Price of Freedom: Exploring Expressivity and Runtime Tradeoffs in Equivariant Networks

本文系统分析了 \(E(3)\)-等变神经网络中多种张量积操作的表达力与运行时间权衡,发现理论复杂度与实际性能差距悬殊,并提出基于球面网格的简化 Gaunt 张量积实现,在 MACE 原子间势能训练中加速 30%。

Theoretical Performance Guarantees for Partial Domain Adaptation via Partial Optimal Transport

本文基于部分最优传输理论推导了部分领域自适应(PDA)的泛化界,证明了部分 Wasserstein 距离作为领域对齐项和提出的理论驱动权重方案的合理性,并据此开发了实用算法 WARMPOT。

Time-Aware World Model for Adaptive Prediction and Control

提出时间感知世界模型 TAWM,通过将时间步长 \(\Delta t\) 作为显式输入条件并在训练中混合多种 \(\Delta t\) 采样,使模型能以单步预测适应任意时间分辨率的推理,且不增加训练样本量。

To Each Metric Its Decoding: Post-Hoc Optimal Decision Rules of Probabilistic Hierarchical Classifiers

本文提出了针对概率层次分类器的后处理最优解码框架,为不同评价指标(如层次 \(F_\beta\))推导了最优决策规则,在候选集限于节点集时给出通用算法,对子集预测推导了专门的层次 \(hF_\beta\) 最优策略。

Understanding Mode Connectivity via Parameter Space Symmetry

通过参数空间的连续对称性(如 \(GL_h(\mathbb{R})\))分析神经网络损失函数最小值集合的拓扑连通性,推导出线性网络最小值的连通分量数为 \(2^{l-1}\),并证明 skip connection 可减少该数目,同时给出对称性诱导的显式低损失连接曲线及线性模式连通性近似成立的充分条件。

UnHiPPO: Uncertainty-Aware Initialization for State Space Models

本文扩展了 HiPPO 理论以处理带噪声的测量数据,将 SSM 的初始化问题重新表述为线性随机控制问题,推导出不确定性感知的动力学初始化方案,在不增加运行时间的前提下显著提升 SSM 的噪声鲁棒性。

WGFormer: An SE(3)-Transformer Driven by Wasserstein Gradient Flows for Molecular Generation

本文提出 WGFormer,一种由 Wasserstein 梯度流驱动的 SE(3)-Transformer,在自编码器框架内通过最小化原子潜在混合模型上的能量函数来优化分子构象,在基态构象预测任务上一致超越 SOTA。