跳转至

🔬 ICLR2026 论文笔记

930 篇笔记,覆盖 34 个领域。

领域概览

领域 篇数
💬 LLM / NLP 114
🎨 图像生成 71
💡 LLM 推理 69
🎮 强化学习 56
🦾 LLM Agent 45
🧩 多模态 VLM 44
📦 模型压缩 41
🏥 医学图像 39
⚖️ 对齐 / RLHF 37
🧊 3D 视觉 36
🛡️ AI 安全 36
LLM 效率 31
🤖 机器人/具身智能 26
🎬 视频理解 22
🎯 目标检测 19
📐 优化/理论 19
🧑 人体理解 18
🕸️ 图学习 16
🔄 自监督/表示学习 16
🎵 音频/语音 15
📈 时间序列 15
🚗 自动驾驶 14
🔗 因果推理 14
✂️ 语义分割 9
🖼️ 图像恢复 8
🎁 推荐系统 8
🧮 科学计算 8
📡 信号/通信 7
🔎 AIGC 检测 5
✍️ 文本生成 5
🛰️ 遥感 4
📖 NLP 理解 2
⚛️ 物理学 2
📂 其他 59

💬 LLM / NLP

A Cortically Inspired Architecture for Modular Perceptual AI

从神经科学出发提出皮层启发的模块化感知 AI 架构蓝图,包含专用编码器、共享跨模态潜空间、路由控制器和递归预测反馈回路四个组件,并通过稀疏自编码器实验验证模块化分解可提升域内特征稳定性 (+15.4pp Jaccard 重叠)。

ASIDE: Architectural Separation of Instructions and Data in Language Models

提出 ASIDE,一种在 token embedding 层面通过正交旋转区分指令和数据的架构级改造,仅需修改前向传播并在标准指令微调数据上训练,即可显著提升指令-数据分离度和 prompt injection 鲁棒性,无需任何安全专项训练。

Assetformer Modular 3D Assets Generation With Autoregressive Transformer

提出 AssetFormer,基于 Llama 架构的自回归 Transformer,将模块化 3D 资产(由 primitive 序列组成)建模为离散 token 序列,通过 DFS/BFS 图遍历重排序和联合词汇表解码实现从文本描述生成可直接用于游戏引擎的模块化 3D 资产。

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

提出 Adaptive Transfer Scaling Law (ATLAS),通过将有效数据量分解为目标语言、迁移语言和其他语言三项并引入数据重复饱和函数,在774个多语言训练实验(10M–8B参数、400+语言)上显著优于现有scaling law(多语言 \(R^2\) 从0.67提升至0.98),并系统量化了跨语言迁移矩阵、多语言诅咒的容量约束以及预训练vs微调的计算交叉点。

Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation

提出ARC-JSD方法,通过计算完整上下文与逐句消融上下文下的响应分布的Jensen-Shannon散度,在无需微调、梯度计算或代理模型的情况下实现高效精准的RAG上下文归因,并结合Logit Lens进行机制分析,定位负责上下文归因的注意力头和MLP层,通过门控操作降低约39%的幻觉率。

Auditing Cascading Risks in Multi-Agent Systems via Semantic–Geometric Co-evolution

提出 SCCAL 框架,通过耦合语义流(semantic flow)和交互图的 Ollivier–Ricci 曲率(ORC)来建模多智能体系统中语义-几何的协同演化,利用两者的一致性残差作为级联风险的早期预警信号,在语义违规显现前数轮即可检测异常。

Benchmarking Overton Pluralism in LLMs

提出 OvertonBench 框架,通过大规模人类研究(1208名美国代表性参与者、60个主观问题、8个LLM)将 Overton 多元主义形式化为集合覆盖度指标 OvertonScore,发现当前所有模型得分仅 0.35–0.41(理论上限为 1.0),并构建了与人类判断高度相关(ρ=0.88)的自动化评测工具。

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

本文构建了 BiasFreeBench 基准,首次在统一框架下系统比较 8 种主流去偏方法(4 种 prompting + 4 种 training),聚焦于 LLM 响应层面的偏差评估,并提出了 Bias-Free Score 指标,发现 prompting 方法(尤其是 CoT)整体优于 training 方法,而 DPO 在跨偏差类型泛化上表现突出。

Breaking the Correlation Plateau: On the Optimization and Capacity Limits of Attention-Based Regressors

本文首次从理论上分析了注意力回归模型在联合 MSE+PCC 训练时出现的"PCC平台期"现象——发现其根源在于 MSE 优化与 PCC 梯度之间的冲突以及 softmax 凸聚合的表达力上界——并提出 ECA(Extrapolative Correlation Attention)框架,通过缩放残差聚合、色散感知温度 softmax 和色散归一化 PCC 损失三个组件突破该限制。

Closing the Curvature Gap: Full Transformer Hessians and Their Implications for Scaling Laws

首次推导完整 Transformer block(含 LayerNorm 和 FFN)的显式 Hessian 表达式及谱范数上界,建立了损失面随数据量增加以 \(O(1/k)\) 速率收敛的理论框架,为 scaling laws 和曲率感知训练提供了数学基础。

Common Corpus: The Largest Collection of Ethical Data for LLM Pre-Training

构建 Common Corpus——约 2 万亿 token 的最大规模合法授权 LLM 预训练数据集,覆盖 6 大集合(政府/文化/科学/代码/Web/语义),多语言(含低资源语言),所有数据均为无版权或宽松许可来源,配有完整数据溯源和多阶段过滤管道,已被 Anthropic 等行业领导者采用。

Compositional-ARC: Assessing Systematic Generalization in Abstract Spatial Reasoning

提出 Compositional-ARC 数据集评估模型在抽象空间推理中的系统性泛化能力——从已知基础几何变换(如平移、旋转)泛化到未见过的变换组合。一个仅 5.7M 参数的 MLC 训练的 encoder-decoder 模型在系统性任务上达到 78.26%,与 ARC Prize 2024 冠军的 8B 模型+TTT 持平,远超 GPT-4o、o3-mini 等(<3%)。

Conformal Prediction Adaptive to Unknown Subpopulation Shifts

针对子群体偏移(subpopulation shift)下标准 conformal prediction 失效的问题,提出三种自适应算法:利用学习的 domain classifier 加权校准数据(Algorithm 1/2)或利用嵌入相似度加权(Algorithm 3),在不完美甚至无 domain 标签的情况下仍能保证覆盖率,并应用于视觉分类和 LLM 幻觉检测。

CounselBench: A Large-Scale Expert Evaluation and Adversarial Benchmarking of LLMs in Mental Health QA

联合100名持证心理健康专家构建CounselBench双组件基准——CounselBench-EVAL(2,000条六维度专家评估)和CounselBench-Adv(120个对抗性问题+1,080条响应标注),系统性揭示LLM在心理健康开放式问答中表面得分高但存在过度泛化、擅自医疗建议等安全隐患,同时证明LLM-as-Judge在安全关键领域严重不可靠。

d²Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching

提出 d²Cache,一种面向 Diffusion-based LLM(dLLM)的无训练近似 KV 缓存框架,通过确定性先验引导的 masked token 选择 + 注意力感知的非 mask token 选择两阶段策略,实现 4.1× 推理加速同时提升生成质量。

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

DARE-bench 是一个面向数据科学任务的大规模可验证基准,包含 6300 个 Kaggle 衍生任务,支持 ML 建模和指令遵循两类评估,提供训练集支持 SFT 和 RL——SFT 将 Qwen3-32B 提升 1.83×,RL 将 Qwen3-4B 提升 8× 以上。

DreamOn: Diffusion Language Models For Code Infilling Beyond Fixed-size Canvas

DreamOn 通过引入 [expand] 和 [delete] 两个特殊状态解决了扩散语言模型(DLM)的固定长度生成限制,无需架构修改即可实现变长代码填充,在 HumanEval-Infilling 上比扩散基线平均提升 26.4%,达到与 SOTA 自回归模型持平的水平。

DRO-InstructZero: Distributionally Robust Prompt Optimization for Large Language Models

将分布鲁棒优化(DRO)引入贝叶斯优化框架以实现零样本指令优化,使优化后的指令在分布偏移和对抗性评估条件下仍保持可靠性能。

DRO-InstructZero: Distributionally Robust Prompt Optimization for Large Language Models

将分布鲁棒优化(DRO)引入 InstructZero 的贝叶斯优化框架,通过在 f-divergence 球定义的模糊集上最大化最坏情况期望效用,使自动搜索得到的 prompt 在分布偏移下仍能保持可靠性能。

EAMET: Robust Massive Model Editing via Embedding Alignment Optimization

发现大规模模型编辑失败的根本原因是 key embedding 和 residual embedding 之间的结构不一致(embedding misalignment),提出 EAMET 通过 KL+MSE 双损失渐进式对齐优化,在 6 个 LLM 上平均提升编辑成功率 14%(CounterFact)。

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

提出 ELLMob 框架,基于认知心理学的模糊痕迹理论(FTT),通过提取并迭代对齐"习惯 gist"和"事件 gist"来调和用户日常模式与社会事件约束之间的竞争,实现事件驱动的可解释轨迹生成。

ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework

提出 ELLMob,一个基于模糊痕迹理论(FTT)的自对齐 LLM 框架,通过提取并迭代对齐"习惯模式要旨"与"事件约束要旨"来生成兼顾日常规律与事件响应的人类移动轨迹。

Emergent Misalignment is Easy, Narrow Misalignment is Hard

研究发现在窄域有害数据上微调会造成广域错位(emergent misalignment),因为"通用错位"比"仅在特定域错位"是更简单高效的参数空间解——通用解的参数范数更小且对噪声更稳定。

Enabling Fine-Grained Operating Points for Black-Box LLMs

发现黑盒 LLM 的语言化概率仅输出 16-23 个唯一值(低基数问题),导致 PR/ROC 曲线粗糙无法精细调优;通过注入参数化噪声和可选的 MLP 校正,将唯一值从 16 个提升到 20,000+,在仅需 1-2 次 API 调用的条件下达到 20 次采样的性能。

Enhancing Hallucination Detection through Noise Injection

在 LLM 中间层的 MLP 激活中注入均匀噪声来近似贝叶斯后验,捕获认知不确定性(epistemic uncertainty),与采样温度捕获的偶然不确定性(aleatoric uncertainty)互补,将 GSM8K 上的幻觉检测 AUROC 从 71.56 提升到 76.14。

Enhancing Persona Following at Decoding Time via Dynamic Importance-Guided Token Estimation for Role-Playing Agents

提出 Persona Dynamic Decoding (PDD) 框架,通过条件互信息动态估计人格属性的场景依赖重要性,并将重要性分数整合到多目标奖励引导解码中,实现无需微调的推理时人格跟随。

Enhancing Persona Following At Decoding Time Via Dynamic Importance Estimation

提出 Persona Dynamic Decoding (PDD) 框架,通过条件互信息动态估计人格属性的场景相关重要性,并以加权多目标奖励引导解码,实现无需微调的推理时自适应人格跟随。

Enhancing Persona Following at Decoding Time via Dynamic Importance Estimation for Role-Playing Agents

提出 PDD(Persona Dynamic Decoding)框架,通过条件互信息动态估计不同场景下人设属性的重要性,并以加权多目标奖励引导推理时解码,实现无需微调的自适应人设遵循。

Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

提出基于上下文感知的成对比较框架来评估文本创造力,构建了包含 100K+ 人类级别和 1M+ 合成数据的 CreataSet 数据集,训练出 CrEval 评估器,在与人类判断的对齐度上超越 GPT-4o 达 18.7%。

EvoEngineer: Mastering Automated CUDA Kernel Code Evolution with Large Language Models

提出 EvoEngineer,首个系统化的 LLM-based 代码演化框架,将代码演化分解为 traverse technique(含两层设计:solution guiding + prompt engineering)和 population management 两个正交组件,在 91 个真实 CUDA kernel 上实现最高 2.72× 中位加速比和 69.8% 代码有效率,在性能和正确性两个维度上超越现有方法。

Evolution of Concepts in Language Model Pre-Training

首次将 crosscoders(跨快照稀疏字典学习)应用于追踪语言模型预训练过程中特征的涌现和演化,发现预训练存在"统计学习→特征学习"两阶段相变,并通过归因分析将微观特征演化与宏观下游任务指标因果关联。

FictionalQA: A Dataset for Studying Memorization and Knowledge Acquisition

提出 FictionalQA 数据集及生成管线,通过合成关于虚构事件的 webtext 风格文档和 QA 对,在受控环境下研究 LLM 训练中事实记忆与逐字记忆的双重过程,发现更多样的表面形式有助于知识获取而简洁的结构化列表反而最不利于泛化。

Fine-Grained Activation Steering: Steering Less, Achieving More

AUSteer 发现块级激活转向(steering)本质上是异质的——不同维度控制不同 token 分布,混合转向既放大有益信号也放大有害信号。提出原子单元(AU)级细粒度转向:用激活动量定位判别性维度,自适应调节转向强度,仅转向 ≤100 个维度即大幅超越转向数千维度的 SOTA 方法。

Fine-tuning Done Right in Model Editing

揭示模型编辑中 fine-tuning 被低估的根因是错误的训练 pipeline(深度优先逐样本优化),修正为标准的广度优先 mini-batch 训练后,配合局部化参数调优形成 LocFT-BF,首次支持 10 万次连续编辑和 72B 模型规模。

First is Not Really Better Than Last: Evaluating Layer Choice and Aggregation Strategies in Language Model Data Influence Estimation

通过理论和实验证明先前工作所推崇的"第一层(embedding)最适合做 influence estimation"的结论是不可靠的,发现中间 attention 层才是更好的估计层,并提出 Rank 和 Vote 两种新的跨层聚合策略以及 Noise Detection Rate (NDR) proxy 指标,显著改善了 LLM 中有害训练样本的检测效果。

FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates

提出 FlexiCodec,通过 ASR 特征引导的动态帧率合并策略,在 3–12.5Hz 超低帧率下实现高质量语音编解码,同时保持优异的语义信息保留能力。

From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning

提出 PCE(Planner-Composer-Evaluator)框架,将 LLM 推理链中隐含的环境假设显式提取并组织为决策树,通过似然度-增益-成本评分实现不确定性感知的行动选择,大幅减少多智能体协作中的通信开销。

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

通过 off-by-one addition(如 1+1=3, 2+2=5)这一反事实任务,利用 path patching 发现大语言模型内部存在 function induction 机制——一种超越 token 级别 pattern matching、在函数级别进行归纳推理的注意力头电路,并证明该机制可跨任务复用。

Functional Embeddings Enable Aggregation of Multi-Area SEEG Data for Robust BCI

提出 FunctionalMap 框架,通过对比学习从颅内局部场电位(LFP)中学习被试无关的功能嵌入作为"功能坐标系",替代不可靠的 MNI 解剖坐标,结合 Transformer 实现跨被试、跨电极的神经数据聚合和信号重建,在 20 名被试的多脑区 SEEG 数据集上验证有效。

Functional Embeddings Enable Aggregation of Multi-Area SEEG Data for Robust BCI

提出 FunctionalMap 框架,通过对比学习从颅内局部场电位(LFP)中学习被试无关的功能嵌入作为"功能坐标系",替代不可靠的 MNI 解剖坐标,结合 Transformer 实现跨被试、跨电极的神经数据聚合和信号重建,在 20 名被试的多脑区 SEEG 数据集上验证有效。

GAVEL: Towards Rule-Based Safety through Activation Monitoring

提出 GAVEL 框架,将 LLM 安全从"粗粒度误用数据集训练分类器"范式转向"可组合认知元素 (CE) + 布尔规则"范式:定义可解释的激活级原语(如"发出威胁"、"处理支付"),组合为精确的策略规则,实现高精度、可定制、可审计的实时安全监控。

Generative Value Conflicts Reveal LLM Priorities

提出 ConflictScope,一个自动生成价值冲突场景的 pipeline,通过开放式评估(非选择题)揭示 LLM 在冲突情境下的价值优先级排序,发现模型在开放式设置中从保护性价值(如无害性)转向个人价值(如用户自主性),且系统提示可将目标排序对齐提升 14%。

Hidden Breakthroughs in Language Model Training

提出 POLCA 方法,将训练损失沿低秩训练子空间的任意基方向进行分解,揭示了在整体损失曲线平滑区域中隐藏的概念性突破(hidden breakthroughs),实现了对模型技能习得过程的无监督可解释性分析。

How Catastrophic is Your LLM? Certifying Risk in Conversation

提出 C3LLM(Certification of Catastrophic risks in multi-turn Conversation for LLMs),首个为多轮 LLM 对话中灾难性风险提供统计认证的框架:用语义相似度图上的 Markov 过程建模对话分布,定义 3 种对话采样策略 + 增强层,使用 Clopper-Pearson 95% 置信区间认证模型产生有害输出的概率界——发现最差模型风险下界高达 72%。

How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use

系统分析了 LLM 在扑克中的三大推理缺陷(启发式推理、事实误解、知行差距),提出 ToolPoker 框架——首个面向不完全信息博弈的工具集成 LLM 推理系统,通过外部 CFR solver 提供博弈论最优的行动指导,使 7B 模型在 Limit Hold'em 中逼近 Nash 均衡。

How Reliable is Language Model Micro-Benchmarking?

提出 Minimum Detectable Ability Difference (MDAD) 元评估指标,系统揭示了 micro-benchmark 在极小规模下无法可靠区分性能差距小的模型对,且当样本量达到 ~250 时随机采样与精心设计的 micro-benchmark 方法表现相当。

HUME: Measuring the Human-Model Performance Gap in Text Embedding Tasks

提出 HUME 框架,首次系统测量人类在文本嵌入任务(重排序、分类、聚类、语义相似度)上的表现,为 MTEB 建立人类性能基线,发现人类总体排名第 4(77.6 vs 模型最佳 80.1),并揭示了多个数据集的质量问题。

Identifying and Evaluating Inactive Heads in Pretrained LLMs

系统评估 12 种评分函数来识别 LLM 中不活跃的注意力头,发现平均头输出范数(Avg Head Output Norm)比传统注意力权重指标更能模型无关地识别不活跃头;14 个模型上验证平均超过 12% 的头可被置零而保持 MMLU 精度在 1% 以内。

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

提出 ProCap 框架,将变化描述从静态图像对比较重新定义为动态过程建模:第一阶段通过帧插值和掩码重建训练过程编码器学习时空变化动力学,第二阶段用可学习过程查询隐式推断变化过程,在三个数据集上超越 SOTA。

Implicit Statistical Inference in Transformers: Approximating Likelihood-Ratio Tests In-Context

从统计决策论视角出发,证明Transformer在上下文学习中能近似Bayes最优的似然比检验充分统计量,并通过机制分析揭示模型对线性/非线性任务采用不同深度的自适应电路。

In-Context Algebra

本文设计了一个 in-context 代数任务——令 token 成为纯变量、每条序列重新随机分配含义——发现 Transformer 在此设定下不再学习经典的傅里叶/几何表示,而是涌现出三种 符号推理机制(交换复制、单位元识别、闭包消去),并揭示了训练过程中这些能力按阶段性相变依次出现的规律。

In-Context Learning of Temporal Point Processes with Foundation Inference Models

提出 FIM-PP——首个面向时间点过程的基础推断模型,通过在大规模合成 MTPP 数据上预训练 Transformer,实现对条件强度函数的上下文学习推断,零样本即可匹配专用模型性能,微调后在多个真实数据集上达到 SOTA。

KVComm: Enabling Efficient LLM Communication through Selective KV Sharing

提出 KVComm 框架通过选择性共享 KV pairs 实现 LLM 间高效通信,发现 hidden states 存在"信息集中偏差"使其不适合跨模型传递,设计基于注意力重要性 + 高斯先验的层选择策略,仅传输 30% 层即可超越大多数 baseline。

LH-Deception: Simulating and Understanding LLM Deceptive Behaviors in Long-Horizon Interactions

提出首个长时域 LLM 欺骗行为仿真框架 LH-Deception,通过执行者-监督者多智能体系统 + 概率事件机制 + 独立欺骗审计,在 11 个前沿模型上系统量化了欺骗行为的频率、严重性、类型及其对信任的侵蚀。

Lifelong Learning with Behavior Consolidation for Vehicle Routing

提出 LLR-BC——面向神经 VRP 求解器的终身学习框架,通过置信度感知经验加权(CaEW)和决策寻求行为巩固(DsBC),在分布和规模变化的任务序列上有效缓减灾难性遗忘、保持可塑性并提升零样本泛化。

LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery

提出 LLEMA 框架,将 LLM 的科学知识与化学规则引导的进化搜索和记忆驱动的迭代优化相结合,在 14 个多目标材料发现任务上实现了更高的命中率、稳定性和 Pareto 前沿质量。

LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery

提出 LLEMA 框架,将 LLM 的科学先验知识与化学规则引导的进化搜索和记忆驱动的迭代优化相结合,在 14 个多目标材料发现任务上显著超越生成式和纯 LLM 基线。

Meta-RL Induces Exploration in Language Agents

提出 LaMer 框架,将元强化学习(Meta-RL)引入 LLM agent 训练,通过跨 episode 的奖励优化和基于反思的上下文策略适应,使语言智能体学会主动探索环境,在 Sokoban/MineSweeper/Webshop 上分别获得 11%/14%/19% 的绝对性能提升。

Multi-LLM Adaptive Conformal Inference for Reliable LLM Responses

提出 MACI(Multi-LLM Adaptive Conformal Inference),通过累积乘积型 conformity score + 多 LLM 集成的 factuality 评分 + 组条件校准,在严格保证用户指定错误率的同时,显著提升 LLM 回复中事实性声明的保留率。

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

发现窄域微调(narrow finetuning)在 LLM 激活中留下清晰可读的痕迹:即使在无关文本的前几个 token 上,微调前后模型的激活差异也编码了微调目标的语义信息。通过 Activation Difference Lens(ADL)方法,可解释性 agent 识别微调目标的成功率达 91%,比黑盒基线高 2 倍以上。

Near-Optimal Online Deployment and Routing for Streaming LLMs

研究 LLM 流式服务场景中的在线部署与路由问题:给定一系列随时间变化的查询流,如何动态选择部署哪些模型并将查询路由到合适的模型,以在满足质量约束的同时最小化计算成本,提供达到近似最优竞争比的在线算法。

Neural Synchrony Between Socially Interacting Language Models

首次研究社会交互中 LLM 间的神经同步现象:通过训练仿射变换预测交互伙伴的未来表征,定义 \(SyncR^2\) 指标量化同步强度,发现该同步依赖于社会参与和时间邻近性,且与 LLM 的社会行为表现高度相关(Pearson \(r\) = 0.88-0.99),呼应了人类脑间同步(IBS)的神经科学发现。

Noise Stability of Transformer Models

提出噪声稳定性(noise stability)替代平均敏感度(average sensitivity)作为衡量 Transformer 简单性偏差的更优指标,并基于此设计正则化方法,在合成任务和语言建模上分别加速训练约 35% 和 75%。

Optimas: Optimizing Compound AI Systems with Globally Aligned Local Rewards

提出 Optimas 框架,为复合 AI 系统中每个组件学习一个与全局奖励对齐的局部奖励函数 (LRF),使得异构组件(prompt、模型参数、超参数)可独立优化,同时保证局部改进带来全局性能提升。

Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning

提出 Warmup-Stable-Only (WSO) 学习率调度策略——在预训练中完全去掉学习率衰减阶段,虽然预训练指标较差,但在 SFT 后一致性地超越所有衰减策略,通过损失景观分析揭示 WSO 保持更平坦的极小值区域是其优势根源。

Predicting LLM Reasoning Performance with Small Proxy Model

提出 rBridge,通过使用 frontier 模型的推理 trace 作为 gold label 并按 token 级任务对齐加权 NLL,使 ≤1B 的小模型能有效预测 13B-32B 大模型的推理性能,在数据集排名任务中实现 100× 以上的计算节省。

Predicting LLM Reasoning Performance with Small Proxy Models

提出 rBridge 方法,通过结合前沿模型推理轨迹 (reasoning trace) 的 NLL 评估与 token 级任务对齐权重,使 ≤1B 的小模型能有效预测 13B-32B 大模型的推理性能,数据排序计算成本降低 100 倍以上。

Preference Leakage: A Contamination Problem in LLM-as-a-judge

首次定义并系统研究 LLM-as-a-Judge 中的 偏好泄漏 (Preference Leakage) 问题——当合成数据生成器 \(M_G\) 与评估器 \(M_J\) 存在关联(同模型/继承/同家族)时,评委会对"相关学生模型"产生系统性偏好,同模型场景下 PLS 高达 28.7%(Arena-Hard),且该偏差比自中心偏差更隐蔽、更难检测。

Prompt and Parameter Co-Optimization for Large Language Model Task Adaptation

提出 MetaTuner 框架,通过共享元编码器同时生成查询特定的提示和 LoRA 参数,使提示优化与微调相互增强,并设计监督正则化损失解决离散-连续混合优化问题,在 MATH、GSM8K、HotpotQA、CosmosQA 上一致超越独立的提示优化和微调方法。

Prompt and Parameter Co-Optimization for Large Language Models

提出 MetaTuner 框架,通过共享 meta encoder 同时生成 prompt 和 LoRA 参数,将离散 prompt 优化与连续参数微调统一为端到端可优化的联合框架,在数学推理和问答任务上大幅超越单独优化的方法。

RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty

提出 RankLLM,一个基于有向二部图双向分数传播的非参数化框架,联合估计题目难度和模型能力,实现难度感知的 LLM 排名,与人类判断达到 90% 一致性。

Reasoning on Time-Series for Financial Technical Analysis

提出 Verbal Technical Analysis (VTA) 框架,结合 LLM 的语言推理能力与时间序列模型的模式捕捉能力,通过 Time-GRPO 强化学习优化推理链,并以推理属性条件化时序预测,实现了兼具准确性和可解释性的金融时间序列预测。

ReIn: Conversational Error Recovery with Reasoning Inception

提出 Reasoning Inception(ReIn),一种无需修改模型参数或系统提示的测试时干预方法,通过外部 inception 模块检测对话错误并将恢复计划注入任务 agent 的推理链中,在多种错误场景下显著提升对话任务完成率,且可泛化至未见错误类型。

Rethinking Code Similarity for Automated Algorithm Design with LLMs

提出 BehaveSim,一种基于"问题求解轨迹"(PSTrajs)和动态时间规整(DTW)的算法相似度度量方法,从执行行为层面而非语法或输出层面衡量算法差异,集成到 FunSearch/EoH 等 LLM-AAD 框架后显著提升性能。

Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

提出 PT-RAG(Perturbation-aware Two-stage Retrieval-Augmented Generation),首次将可微检索增强生成范式应用于单细胞基因扰动响应预测:通过 GenePT 语义检索候选扰动 + Gumbel-Softmax 条件离散采样实现细胞类型感知的端到端检索优化,在 Replogle-Nadig 数据集上超越 STATE 基线(Pearson 0.633 vs 0.624),同时发现朴素 RAG 会严重损害性能(Pearson 仅 0.396),证明可微且细胞类型感知的检索在该领域不可或缺。

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

提出"记忆-再泛化"(memorize-then-generalize)框架,通过先用无语义合成 token 死记硬背事实关联、再用少量语义提示微调的两阶段策略,揭示 LLM 能从死记硬背数据中泛化,且记忆越深泛化越好,同时指出该机制可被恶意利用的安全隐患。

Rote Learning Considered Useful Generalizing Over Memorized Training Examples

本文提出"先记忆再泛化"两阶段框架,证明 LLM 可以在死记硬背合成关键 token 后,通过极少量语义微调实现泛化,挑战了"记忆阻碍泛化"的传统观点。

Self-Destructive Language Model

提出 Seam,通过耦合良性和有害数据的优化轨迹(使梯度方向相反),将 LLM 转变为"自毁模型"——在有害微调时自动触发灾难性性能崩溃,创造攻击者的两难困境:低强度攻击无效,高强度攻击导致模型报废。

Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language

提出 semantic regexes——一种用于自动描述 LLM 特征的结构化语言,通过 symbol/lexeme/field 三种原语及 context/composition/quantification 修饰符,在保持与自然语言同等准确度的同时,实现了更简洁、更一致的特征描述,并可量化特征复杂度随层的变化趋势。

Semantic Regexes Auto-Interpreting Llm Features With A Structured Language Of Re

本文提出 Semantic Regexes(语义正则表达式),一种用于自动描述 LLM 特征的结构化语言,通过原语(symbol/lexeme/field)+ 修饰符(context/composition/quantification)组合,实现与自然语言同等准确但更简洁、一致且可分析的特征描述。

SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs

SimpleToM 揭示了 LLM 在 Theory of Mind 上的关键缺陷:前沿模型能准确推断他人心理状态(显式 ToM),但在将此知识应用于行为预测和行为判断时性能急剧下降(应用 ToM),暴露了"知道什么"与"如何使用所知"之间的重大鸿沟。

Spectral Attention Steering for Prompt Highlighting

提出 SEKA/AdaSEKA,通过对 key embedding 进行谱分解学习"相关性子空间",在注意力计算前直接编辑 key 向量来实现 prompt highlighting,无需存储完整注意力矩阵,与 FlashAttention 完全兼容,且开销极低(+0.03s/sample)。

Statistical Advantage of Softmax Attention: Insights from Single-Location Regression

通过提出"单位置回归"(Single-Location Regression, SLR) 理论框架,结合统计物理中的 order parameter 方法,在高维极限下严格证明了 softmax attention 在种群层面达到 Bayes 风险而线性 attention 本质上无法做到,并在有限样本情形下证实 softmax 始终优于线性 attention,为 softmax 在检索任务中的优势提供了首个原理性解释。

Stochastic Self-Organization in Multi-Agent Systems

提出 SelfOrg 框架,基于 Agent 响应的语义相似度和 Shapley 值贡献估计,动态构建有向无环通讯图(DAG),实现多 Agent 系统的自组织协作。在弱模型场景下优势尤为显著。

Stopping Computation for Converged Tokens in Masked Diffusion-LM Decoding

提出 SureLock,当 Masked Diffusion LM 中已 unmask 的 token 后验分布稳定后永久锁定该位置(跳过 Q 投影和 FFN,缓存 KV),将每步注意力计算从 \(O(N^2d)\) 降为 \(O(MNd)\),在 LLaDA-8B 上减少 30-50% FLOPs 且不损生成质量。

Subliminal Signals in Preference Labels

证明偏好标签可以作为隐蔽通信通道:即使学生模型生成的是语义无关的数字序列,有偏见的裁判模型仅通过二值偏好标签就能向学生模型传递潜意识行为特征,且这种传递在迭代对齐中会增强。

Sublinear Time Quantum Algorithm for Attention Approximation

提出首个对序列长度 \(n\) 具有亚线性时间复杂度的量子数据结构,用于近似 Transformer 注意力矩阵的行查询,预处理时间 \(\widetilde{O}(\epsilon^{-1} n^{0.5} \cdot \text{poly}(d, s_\lambda, \alpha))\),每次行查询 \(\widetilde{O}(s_\lambda^2 + s_\lambda d)\),相对经典算法实现了关于 \(n\) 的二次加速。

Talk, Evaluate, Diagnose: User-aware Agent Evaluation with Automated Error Analysis

提出 TED 框架(Talk-Evaluate-Diagnose),通过可复用的专家/非专家 persona 模板、基于 grading notes 的 LLM-as-judge 评估和自动化错误分析,实现跨领域的用户感知型 Agent 评估。

TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling

提出 TASTE(Text-Aligned Speech Tokenization and Embedding),通过跨注意力机制将语音 token 与文本转录对齐,实现极低比特率(~150 bps)下的高质量语音重建,并使文本-语音联合建模变得直接高效,1.3B 参数的 TASLM 超越 7B 预训练 SLM。

The Lattice Representation Hypothesis of Large Language Models

提出 LLM 的格表示假说 (Lattice Representation Hypothesis):通过将线性表示假说与形式概念分析 (FCA) 统一,证明 LLM 嵌入空间中的属性方向通过半空间交集隐式编码了一个概念格 (concept lattice),从而实现了连续几何与符号抽象之间的桥接。

The Path of Least Resistance: Guiding LLM Reasoning Trajectories for Efficient Consistency

提出 PoLR(Path of Least Resistance),首个利用推理前缀一致性的推理时方法,通过聚类短前缀并仅扩展主导聚类来实现 Self-Consistency 的高效替代,可减少高达 60% token 使用和 50% 延迟。

Token-Efficient Item Representation via Images for LLM Recommender Systems

提出 I-LLMRec,利用商品图像替代冗长文本描述来表示推荐系统中的物品语义,通过 RISA 对齐模块和 RERI 检索模块,在仅用单个token表示物品的同时保留丰富语义,推理速度提升约2.93倍且推荐性能超越文本描述方法。

Trapped by simplicity: When Transformers fail to learn from noisy features

研究表明 Transformer 在从含特征噪声的数据中学习布尔函数时会失败——其简单性偏好(倾向学习低敏感度函数)导致模型被困在比目标函数更简单的最优噪声预测器上,无法恢复真实的无噪声目标函数。

Truthfulness Despite Weak Supervision: Evaluating and Training LLMs Using Peer Prediction

提出将博弈论中的 Peer Prediction 机制应用于 LLM 评估和训练,通过衡量参与者答案的互预测性来区分诚实与欺骗回答,无需真值标签即可实现诚实性激励,展现出惊人的"逆向缩放"特性——专家越弱反而越能抵抗强模型的欺骗。

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

识别并形式化"未索引信息检索"(UIS) 问题,提出首个 UIS 基准 UIS-QA (110 题) 和多 Agent 框架 UIS-Digger,用 ~30B 模型超越集成 O3/GPT-4.1 的系统。

Understanding Sensitivity of Differential Attention through the Lens of Adversarial Robustness

首次从对抗鲁棒性角度分析 Differential Attention(DA)机制,揭示其减法结构在抑制噪声的同时会通过负梯度对齐放大对抗扰动敏感度,发现"脆弱性原理"——DA 在干净样本上提升判别力但在对抗攻击下更脆弱,且存在深度依赖的鲁棒性交叉效应。

Understanding Sensitivity of Differential Attention through the Lens of Adversarial Robustness

首次从对抗鲁棒性角度分析 Differential Attention (DA) 的结构性脆弱:DA 的减法结构在抑制噪声的同时,由于负梯度对齐会放大对抗扰动敏感性,揭示了选择性与鲁棒性之间的根本权衡。

Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors

从梯度信号的角度解释了为什么用下一 token 预测(NTP)训练的 Transformer 会学习到对预测当前下一 token "无用"的特征,提出三种梯度路径分解(直接学习、预缓存、电路共享)并在玩具任务、OthelloGPT 和语言模型中验证。

Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors

通过将训练梯度信号分解为 direct、pre-cached 和 circuit sharing 三种成分,解释了为什么 NTP 训练的 Transformer 会学到对预测当前下一token"无用"的特征,并在 OthelloGPT、小型语言模型和预训练 LLM(Gemma 2)上验证了这一框架的解释力。

Universal Properties of Activation Sparsity in Modern Large Language Models

对现代 LLM(GLU 架构 + SiLU/GELU)的激活稀疏性进行系统性研究,提出通用的 top-p 稀疏化框架和临界稀疏度(critical sparsity)指标,发现激活稀疏度随模型规模单调递增、输入稀疏化是最实用的免训练加速方案,并首次证明扩散型 LLM 也具有显著的激活稀疏性。

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

提出 HUMAINE 框架,通过 23,404 名人口统计分层参与者对 28 个 SOTA 模型进行多维度(5 维)、多轮对话的人类偏好评估,用层次贝叶斯 BTD 模型揭示年龄是偏好异质性的最大驱动因素(平均排名偏移 ±2.8),证明单一聚合排行榜不足以反映不同人群的真实偏好。

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

提出 HUMAINE 框架,通过 23,404 名人口统计学分层参与者对 28 个模型的多维度评估,揭示了人类偏好中年龄是最大分歧轴、单一排行榜掩盖关键差异的发现。

Unsupervised Evaluation of Multi-Turn Objective-Driven Interactions

提出三种无监督指标——LLM 引导聚类(目标识别)、基于微调完成模型的交互完整性检测、响应树(LLM 不确定性量化)——用于评估多轮目标驱动对话,无需标注数据或 LLM-as-a-judge,仅用 8B 模型即可匹配/超越 70B judge 的性能。

vCache: Verified Semantic Prompt Caching

提出 vCache——首个具有用户定义错误率保证的语义缓存系统,通过在线学习为每个缓存嵌入独立估计最优相似度阈值,无需预训练即可在满足正确性约束下实现最高 12.5× 缓存命中率提升和 26× 错误率降低。

VeriTrail: Closed-Domain Hallucination Detection with Traceability

提出 VeriTrail,首个面向多步生成(MGS)过程的闭域幻觉检测方法,通过将生成过程建模为 DAG 并沿图逐层验证 claim,实现了幻觉检测+溯源(provenance)+错误定位(error localization)的完整可追溯性,在两个新数据集上显著优于所有基线。

VeriTrail: Closed-Domain Hallucination Detection with Traceability

提出 VeriTrail——首个为多步生成过程(MGS)提供可追溯性的闭域幻觉检测方法,建模生成过程为 DAG 并沿路径逐层验证,同时构建了首批包含所有中间输出和人工标注的 MGS 数据集。

WebDevJudge: Evaluating (M)LLMs as Critiques for Web Development Quality

构建 WebDevJudge 元评估基准,系统评估 LLM/MLLM 及智能体工作流在 Web 开发质量评估任务上作为裁判的能力,发现当前最强模型与人类专家之间仍存在约15%的一致率差距,并揭示了功能等价识别失败和可行性验证薄弱两大根本瓶颈。

Weight Decay may matter more than μP for Learning Rate Transfer in Practice

大规模实证研究表明 μP 的核心对齐假设在实际 LLM 训练中仅在开始时短暂成立,之后是 independent weight decay(而非 μP)正确稳定了不同宽度模型间的特征学习动态,使得学习率迁移成为可能。μP 的实际作用被重新解释为一种隐式学习率 warmup。

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

提出 DMVR 框架和 α-DPG 算法,通过显式定义"过滤掉错误答案"的目标分布并用 α-散度族来逼近,统一了 RLVR(Reverse KL)和拒绝采样微调(Forward KL),在 Lean 定理证明上实现了精度-覆盖率 Pareto 前沿的最优表现。

When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

揭示了 Unlearnable Examples (UE) 在面对预训练模型时的根本脆弱性——预训练先验使模型绕过 UE 注入的虚假快捷方式,并提出 BAIT 双层优化框架通过将扰动绑定到错误标签来对抗预训练先验。

When Priors Backfire: On the Vulnerability of Unlearnable Examples to Pretraining

揭示了不可学习样本 (UEs) 在预训练模型上的根本性脆弱性——预训练先验使模型能绕过扰动捷径学到真实语义,并提出 BAIT 框架通过将扰动绑定到错误标签来对抗预训练先验。

When Stability Fails: Hidden Failure Modes of LLMs in Data-Constrained Scientific Decision-Making

通过控制性行为评估框架,揭示 LLM 在数据约束的科学决策任务中的四种隐藏失败模式:高稳定性≠正确性、prompt 措辞敏感性、放宽阈值下的过度选择、以及幻觉产生无效标识符。

When Stability Fails: Hidden Failure Modes of LLMs in Data-Constrained Scientific Decision-Making

揭示 LLM 在数据约束的科学决策任务中的隐藏失败模式:模型可以展现近乎完美的运行间稳定性,同时系统性偏离统计学基准真值,表现为过度选择、prompt 敏感和幻觉基因标识符。

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

提出 SAFE(Stable And Fast LLM Ensembling),通过 Generate-Verify-Ensemble 循环在 token 级别选择性地集成多个异构分词器 LLM,解决长序列生成中分词不匹配导致的 OOV-like 污染问题,仅在不到 1% 的 token 上集成即可提升效果,MATH500 上将 UniTE 从 59.6% 提升到 77.4%。


🎨 图像生成

A Hidden Semantic Bottleneck in Conditional Embeddings of Diffusion Transformers

对扩散 Transformer 的条件嵌入进行首次系统分析,发现极端的角度相似性(类间余弦相似度>99%)和维度稀疏性(仅 1-2% 的维度携带语义信息),裁剪掉 2/3 的低幅维度后生成质量基本不变,揭示了条件嵌入中隐藏的语义瓶颈。

AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

提出 AlignTok,将预训练视觉基础编码器(如 DINOv2)对齐为扩散模型的连续 tokenizer,通过三阶段对齐策略(语义潜空间建立→感知细节补充→解码器精炼)构建语义丰富的潜空间,在 ImageNet 256×256 上 64 epochs 即达 gFID 1.90,比从头训练 VAE 收敛更快、生成质量更好。

Amortising Inference and Meta-Learning Priors in Neural Networks (BNNP)

提出 BNNP(Bayesian Neural Network Process),一种将 BNN 权重作为隐变量、BNN 本身作为解码器的 neural process,通过逐层 amortised variational inference 在多数据集上联合学习 BNN 先验和推断网络,首次回答了"在良好先验下,近似推断方法还重要吗?"——答案是肯定的,没有免费午餐。

Asynchronous Denoising Diffusion Models for Aligning Text-to-Image Generation

AsynDM 通过为不同像素分配不同的时间步调度(prompt 相关区域去噪更慢),使其能利用更清晰的上下文参考,从而在不需要微调的情况下显著提升文图生成的语义对齐。

Beyond Confidence: The Rhythms of Reasoning in Generative Models

提出 Token Constraint Bound (\(\delta_{\text{TCB}}\)) 指标,通过量化 LLM 隐状态在多大扰动范围内能保持 next-token 预测不变,来度量预测的局部鲁棒性,揭示了传统 perplexity 无法捕捉的预测不稳定性。

Blueprint-Bench: Comparing Spatial Intelligence of LLMs, Agents and Image Models

Blueprint-Bench 通过"从公寓内部照片生成 2D 平面图"的任务来评测 AI 模型的空间推理能力,结果显示大多数 LLM、图像生成模型和 Agent 系统的表现接近或低于随机基线,揭示了当前 AI 在空间智能上的重大盲区。

Bridging Degradation Discrimination and Generation for Universal Image Restoration

BDG 通过多角度多尺度灰度共生矩阵(MAS-GLCM)进行细粒度退化判别,并设计三阶段扩散训练(生成→桥接→修复)将退化判别能力与生成先验无缝融合,在 all-in-one 修复和真实世界超分辨率任务上取得显著的保真度提升。

Bridging Generalization Gap of Heterogeneous Federated Clients Using Generative Models

FedVTC 提出在模型异构联邦学习中,各客户端通过变分转置卷积网络(VTC)从聚合的特征分布统计量中生成合成数据来微调本地模型,无需公共数据集即可显著提升泛化能力,同时降低通信和内存开销。

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

提出 Consistency Mid-Training (CMT),在预训练扩散模型和 flow map 后训练之间插入一个轻量级中间训练阶段,通过让模型学习将 ODE 轨迹上的任意点映射回干净样本来获得轨迹对齐的初始化,从而大幅降低训练成本(最多 98%)并达到 SOTA 两步生成质量。

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

提出 General Policy Composition (GPC),在测试时通过凸组合多个预训练扩散/Flow 策略的分布分数(score),无需额外训练即可产生超越任何单一父策略的更强策略,理论证明凸组合可改善单步分数误差且通过 Grönwall 界传播到全程轨迹。

Compositional amortized inference for large-scale hierarchical Bayesian models

将组合分数匹配(CSM)扩展到层次贝叶斯模型,通过新的误差衰减估计器和 mini-batch 策略解决大量数据组下的数值不稳定问题,首次实现超过 75 万参数(25 万+ 数据组)的大规模层次模型的摊销推断,并在荧光寿命成像的真实科学应用中验证有效性。

Concept-TRAK: Understanding how diffusion models learn concepts through concept-level attribution

提出 Concept-TRAK,通过设计概念特异的训练损失(DPS reward)和效用损失(CFG guidance),将影响函数从全图归因扩展到概念级归因,在合成、CelebA-HQ 和 AbC benchmark 上大幅超越 TRAK/D-TRAK/DAS 等方法,特别是在 OOD 组合新概念场景下优势显著。

Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss

理论分析了自回归扩散损失模型相比条件扩散模型在条件误差修正上的优势(梯度范数指数衰减),并提出基于最优传输(Wasserstein Gradient Flow)的条件精炼方法来解决自回归过程中的"条件不一致性"问题,在 ImageNet 上达到 FID 1.31(基于 MAR)。

Conditionally Whitened Generative Models for Probabilistic Time Series Forecasting

提出 CW-Gen(条件白化生成模型),通过联合估计条件均值和滑动窗口协方差矩阵来替代扩散模型/流匹配中的标准高斯终端分布,理论证明了当估计器满足充分条件时采样质量必然提升,在 5 个数据集 × 6 个生成模型上一致改善多变量时间序列概率预测性能。

Conjuring Semantic Similarity

提出一种基于视觉想象的文本语义相似度度量——通过计算文本条件扩散模型在两个文本提示下诱导的反向 SDE 之间的 Jeffreys 散度来衡量语义距离,可用 Monte-Carlo 采样直接计算,首次量化了扩散模型学到的语义空间与人类标注的对齐程度。

Consistent Text-to-Image Generation via Scene De-Contextualization

揭示 T2I 模型中 ID 偏移的根本原因是"场景上下文化"(scene contextualization,场景 token 对 ID token 注入上下文信息),并提出 training-free 的 Scene De-Contextualization (SDeC) 方法,通过 SVD 特征值的方向稳定性分析识别并抑制 prompt embedding 中潜在的场景-ID 关联,实现逐场景的身份一致性生成。

Contact-Guided 3D Genome Structure Generation of E. coli via Diffusion Transformers

提出 DiffBacChrom——基于条件扩散 Transformer (CrossDiT) 从 Hi-C 接触图谱生成大肠杆菌三维基因组构象集合,通过 ResNet VAE 保持逐 bin 对齐的潜空间编码、Transformer 编码器 + 交叉注意力注入 Hi-C 条件、flow-matching 训练,生成的集合在距离衰减 P(s) 和 SCC 指标上与输入 Hi-C 高度一致,同时保持构象多样性。

Contact Wasserstein Geodesics for Non-Conservative Schrödinger Bridges

提出非守恒广义 Schrödinger 桥 (NCGSB)——基于接触哈密顿力学允许能量随时间变化,通过 Contact Wasserstein Geodesic (CWG) 将桥问题转化为有限维 Jacobi 度量上的测地线计算,用 ResNet 参数化实现近线性复杂度且支持引导生成,在流形导航、分子动力学、图像生成等任务上大幅超越迭代式 SB 求解器。

ContextBench: Modifying Contexts for Targeted Latent Activation

提出 ContextBench 基准(715 个任务)评估自动生成流畅且能激活特定潜在特征的输入文本的方法,并开发两种 EPO 增强变体(LLM辅助和扩散模型修补),在激活强度和语言流畅度的权衡上 Pareto 优于标准 EPO。

Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

首次系统研究 T2I 扩散模型的持续遗忘(continual unlearning)问题,发现现有遗忘方法在序列请求下因累积参数漂移导致"效用崩溃",提出一组附加正则化策略(L1/L2 范数、选择性微调、模型合并)和语义感知的梯度投影方法来缓解该问题。

Contractive Diffusion Policies: Robust Action Diffusion via Contractive Score-Based Sampling with Differential Equations

提出 Contractive Diffusion Policies (CDPs),通过在扩散采样 ODE 中引入收缩正则化来抑制 score 匹配误差和求解器误差的累积,以最小修改和单一超参数 \(\gamma\) 提升离线学习中扩散策略的鲁棒性。

COSMO-INR: Complex Sinusoidal Modulation for Implicit Neural Representations

通过谐波失真分析和 Chebyshev 多项式逼近,证明奇/偶对称激活函数在后激活频谱中存在衰减,提出用复正弦项调制激活函数 (COSMO-RC) 来保留完整频谱支持,在图像重建上平均 PSNR 比最强基线高 +5.67 dB。

CREPE: Controlling Diffusion with Replica Exchange

提出 CREPE,一种基于 Replica Exchange(并行回火/Parallel Tempering)的扩散模型推理时控制方法,作为 SMC 的计算对偶——在去噪步维度上并行、在样本维度上串行生成,具有高样本多样性、可在线精炼、支持温度退火/奖励倾斜/模型组合/CFG 去偏等多种任务。

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment

解决 Flow Matching + GRPO 对齐中的稀疏奖励问题:通过 ODE 去噪预测中间潜变量的 step-wise 奖励增益作为密集奖励,并根据密集奖励自适应调整 SDE 采样器的逐时间步噪声注入来校准探索空间,在人类偏好对齐/组合生成/文字渲染三个任务上超越 Flow-GRPO。

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

本文证明基于范数的记忆检测指标仅在各向同性(isotropic)对数概率分布下有效,在低噪声各向异性(anisotropic)区域失效;提出结合高噪声范数和低噪声角度对齐(cosine similarity)的无去噪检测指标,在 SD v1.4/v2.0 上超越现有无去噪方法且快 5× 以上。

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

提出 DiffInk,首个面向全行手写生成的潜在扩散 Transformer 框架,包含 InkVAE(通过 OCR + 风格分类双正则化学习结构化潜空间)和 InkDiT(在潜空间中做条件去噪生成),在中文手写生成上大幅超越 SOTA(AR 94.38% vs 91.48%),速度提升 800×。

Diffusion Alignment as Variational Expectation-Maximization

将扩散模型对齐形式化为变分 EM 算法:E-step 用 test-time search(soft Q 引导 + 重要性采样)探索高奖励多模态轨迹,M-step 通过 forward-KL 蒸馏将搜索结果写入模型参数,在图像生成和 DNA 序列设计上同时实现高奖励和高多样性。

Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models

提出 Diffusion Blend,通过在推理时混合多个奖励微调模型的反向扩散过程来实现多偏好对齐:DB-MPA 支持任意奖励线性组合、DB-KLA 支持动态 KL 正则化控制、DB-MPA-LS 通过随机 LoRA 采样消除推理开销,理论上证明了混合近似的误差界并在实验中接近 MORL oracle 上界。

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

提出 DiffusionNFT,一种全新的扩散模型在线 RL 范式:不在反向采样过程上做策略优化(如 GRPO),而是在前向过程上通过 flow matching 目标对正样本和负样本做对比式训练,定义隐式的策略改进方向,比 FlowGRPO 快 3-25×,且无需 CFG。

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

提出 DrPose,通过直接奖励微调最大化 PoseScore(多视角潜变量图像与 GT 3D 姿态的骨骼一致性)+ KL 正则化防止 reward hacking,结合 DrPose15K 数据集(从 Motion-X 运动数据集采样 15K 多样姿态 + MIMO 视频生成器合成单视角图像),使多视角扩散模型在动态/杂技等困难姿态场景下的 3D 人体重建质量显著提升。

Directional Textual Inversion for Personalized Text-to-Image Generation

本文发现 Textual Inversion (TI) 学到的 token embedding 存在范数膨胀(norm inflation)问题,导致复杂 prompt 的文本对齐下降;提出 Directional Textual Inversion (DTI),将 embedding 范数固定在分布内尺度、仅在单位超球面上用 Riemannian SGD 优化方向,结合 von Mises-Fisher 先验,显著提升 prompt 忠实度。

DistillKac: Few-Step Image Generation via Damped Wave Equations

用阻尼波方程(telegrapher equation)及其随机 Kac 表示替代 Fokker-Planck 方程作为生成模型的概率流基础,实现有限速度传播的概率流,并提出端点蒸馏(endpoint distillation)方法实现少步生成,在 CIFAR-10 上 4 步 FID=4.14、1 步 FID=5.66。

DoFlow: Flow-based Generative Models for Interventional and Counterfactual Forecasting

提出DoFlow,一种基于连续正则化流(CNF)的因果生成模型,在因果DAG上统一实现观测、干预和反事实时间序列预测,并可通过显式似然进行异常检测,在合成和真实医疗数据上验证了有效性。

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

首个将 FLUX (DiT) 的强生成先验引入拖拽编辑的框架,通过区域级仿射监督替代传统点级监督,配合梯度掩码硬约束和 adapter 增强反演,大幅提升拖拽编辑质量。

Draw-In-Mind: Rebalancing Designer-Painter Roles in Unified Multimodal Models Benefits Image Editing

指出当前统一多模态模型中理解模块仅作翻译器而生成模块被迫同时充当"设计师"和"画家"的职责失衡问题,通过构建 DIM 数据集(14M 长上下文文图对 + 233K CoT 编辑蓝图)将设计责任转移给理解模块,4.6B 参数即超越 5 倍大的模型。

Dual-Solver: A Generalized ODE Solver for Diffusion Models with Dual Prediction

提出 Dual-Solver,通过三组可学习参数(预测类型插值 \(\gamma\)、积分域选择 \(\tau\)、残差调整 \(\kappa\))泛化扩散模型多步采样器,用冻结预训练分类器(MobileNet/CLIP)的分类损失学习参数(无需教师轨迹),在 3-9 NFE 低步区间全面优于 DPM-Solver++ 等方法。

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

提出 T2I-CoReBench,首个同时系统评估 T2I 模型组合能力(Composition)和推理能力(Reasoning)的综合性基准,涵盖 12 个评估维度、1080 条高难度 prompt 和约 13500 个 checklist 问题,通过对 38 个模型的大规模评测揭示:推理能力远远落后于组合能力,是当前 T2I 生成的核心瓶颈。

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

构建了一个包含 200K 人工标注偏好对的高质量数据集 EditReward-Data,训练出 EditReward 奖励模型,在多个图像编辑评估基准上达到 SOTA 的人类对齐度,并验证其作为数据筛选器可显著提升下游编辑模型性能。

EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

提出首个系统性的"基准评测→奖励模型→强化学习训练"图像编辑 RL 管线:构建 EditReward-Bench 基准,训练 EditScore 系列奖励模型(7B-72B,超过 GPT-5),并成功将其用于 Online RL 训练显著提升编辑模型性能。

Efficient Adversarial Attacks on High-dimensional Offline Bandits

揭示了离线多臂老虎机(MAB)评估框架的安全漏洞:攻击者只需对公开的奖励模型权重进行极小的不可感知扰动,就能完全劫持 bandit 的决策行为,且所需扰动范数随输入维度增加而降低(\(\widetilde{\mathcal{O}}(d^{-1/2})\)),使基于图像的生成模型评估特别脆弱。

Eliminating VAE for Fast and High-Resolution Generative Detail Restoration

通过用 ×8 pixel-(un)shuffle 替代 VAE 的编码器和解码器,将潜空间扩散超分(GenDR)逆转为像素空间超分(GenDR-Pix),结合多阶段对抗蒸馏和 PadCFG 推理策略,实现 2.8× 加速和 60% 显存节省,同时保持可忽略的视觉退化,首次实现 1 秒内 4K 图像恢复仅需 6GB 显存。

Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

提出 ERK-Guid,利用嵌入式 Runge-Kutta 求解器的阶差误差作为 guidance 信号,在刚性区域自适应纠正局部截断误差(LTE),无需额外网络评估即可提升扩散模型采样质量。

Event-T2M: Event-level Conditioning for Complex Text-to-Motion Synthesis

提出 Event-T2M 框架,将文本提示分解为事件级别的原子动作,结合 TMR 编码器和事件级交叉注意力(ECA)模块注入 Conformer 扩散模型,显著提升多事件复杂动作生成的质量和语义对齐。

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

提出 SpatialGenEval 基准,通过 1,230 条长且信息密集的提示覆盖 10 个空间子领域,系统评估 23 个 SOTA T2I 模型的空间智能,揭示空间推理是主要瓶颈;同时构建 SpatialT2I 数据集实现数据中心的空间智能提升。

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

提出 ECAD(Evolutionary Caching to Accelerate Diffusion models),利用遗传算法在速度-质量 Pareto 前沿上自动搜索最优缓存调度策略,无需修改模型参数,仅用 100 条校准提示即可实现扩散模型 2-3 倍推理加速并保持甚至提升生成质量。

Exposing Hidden Biases in Text-to-Image Models via Automated Prompt Search

提出 Bias-Guided Prompt Search (BGPS),通过结合 LLM 解码引导和扩散模型中间层属性分类器,自动发现可解释的、能最大化暴露 T2I 模型隐藏社会偏见的文本提示,即使对已去偏的模型也能揭示残留偏见。

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

首个系统性研究结构化图像(图表、数学公式、示意图等)生成与编辑的工作,构建了130万对代码对齐的训练数据集(含 CoT 推理标注)、统一的 VLM+扩散模型架构以及包含1700+样本的 StructBench 基准评测,揭示了推理能力是当前模型处理结构化视觉内容的关键瓶颈。

SSCP: Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning

提出 Single-Step Completion Policy (SSCP),通过在流匹配框架中预测"完成向量"(从任意中间状态到目标动作的归一化方向),将多步生成策略压缩为单步推理,在 D4RL 上与多步扩散/流策略持平但训练快 64×、推理快 4.7×,并扩展到 GCRL 中将层级策略扁平化。

Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control

提出 Follow-Your-Shape,一个无需训练和掩码的形状感知编辑框架,通过计算反演与编辑轨迹间的 token 级速度差异构建 Trajectory Divergence Map (TDM) 来精确定位编辑区域,配合分阶段 KV 注入实现大幅形状变换且严格保持背景。

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

提出 Frame Guidance,一种无需训练的帧级引导方法,通过 latent slicing(降低 60× 显存)和 Video Latent Optimization(VLO)两个核心组件,在不修改模型的情况下实现关键帧引导、风格化和循环视频等多种可控视频生成任务。

GenCP: Towards Generative Modeling Paradigm of Coupled Physics

提出 GenCP,将耦合多物理场仿真建模为概率密度演化问题,利用 flow matching 从解耦数据学习条件速度场,推理时通过 Lie-Trotter 算子分裂合成耦合解,实现"解耦训练、耦合推理",并提供理论误差可控保证。

Generating Directed Graphs with Dual Attention and Asymmetric Encoding

提出 Directo,首个基于离散流匹配(Discrete Flow Matching)的有向图生成模型,通过方向感知的双注意力机制和非对称位置编码捕获有向边的方向依赖,同时建立了有向图生成的标准化评测体系。

GLASS Flows: Efficient Inference for Reward Alignment of Flow and Diffusion Models

提出 GLASS (Gaussian Latent Sufficient Statistic) Flows——一种在流/扩散模型的去噪过程中实现高效随机转移的新采样范式,通过充分统计量重参数化将随机转移重铸为内部 ODE 求解问题,在无需重训的条件下结合 ODE 效率和 SDE 随机性,使 Feynman-Kac Steering 在 FLUX 文生图模型上一致超越 Best-of-N 基线。

Hog-Diff Higher-Order Guided Diffusion For Graph Generation

本文提出 HOG-Diff,一个利用高阶拓扑结构(如环、三角形、motif)作为生成引导的图扩散框架,通过胞复形过滤(CCF)提取高阶骨架并结合广义 OU 扩散桥实现"由粗到细"的渐进式图生成,在分子和通用图生成的 8 个基准上取得了 SOTA 性能。

Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning

Recall 提出首个多模态引导的攻击框架,通过在隐空间中优化对抗图像 prompt(仅需一张参考图像),配合原始文本 prompt 利用扩散模型的 image-conditioning 通道,在 10 种 SOTA 遗忘方法上平均 ASR 达 65%~97%,显著超越纯文本攻击方法,揭示当前遗忘机制对图像模态攻击的脆弱性。

Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models

首次系统性地对比 Visual Autoregressive (VAR) 模型和扩散模型在组合文本-图像对齐上的表现,在 T2I-CompBench++ 和 GenEval 两个基准上评测 6 个 T2I 模型,发现 Infinity-8B 在几乎所有组合维度上取得最强表现,VAR 架构在组合生成方面展现出显著优势。

Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection

HiRM 提出"更新位置与擦除目标解耦"的概念擦除策略——仅更新 CLIP 文本编码器第一层的权重,但将擦除监督施加在最后一层的高层语义表征上,通过引导目标概念表征偏向随机方向(HiRM-R)或语义方向(HiRM-S),在 UnlearnCanvas 和 NSFW 基准上实现风格/物体/裸体的高效擦除,且可零样本迁移到 Flux 架构。

Mod-Adapter: Tuning-Free and Versatile Multi-concept Personalization via Modulation Adapter

提出 Mod-Adapter,一种无需测试时微调的多概念个性化方法,通过在 DiT 的调制(modulation)空间中预测概念特定的调制方向,实现对物体和抽象概念(姿态、光照、材质等)的解耦化定制生成,在多概念个性化上大幅超越现有方法。

Motion Prior Distillation in Time Reversal Sampling for Generative Inbetweening

提出 Motion Prior Distillation (MPD),一种推理时蒸馏方法,将前向路径的运动残差蒸馏到后向路径中,从根本上解决了时间反转采样中双向运动先验冲突的问题,无需额外训练即可实现更连贯的生成式帧插值。

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

提出多视角定制(multi-view customization)新任务并设计 MVCustom 框架,通过视频扩散骨干网络结合密集时空注意力实现整体帧一致性,在推理阶段引入深度感知特征渲染和一致性感知潜码补全两项技术,首次同时实现相机位姿控制、主体身份保持和跨视角几何一致性。

Neon: Negative Extrapolation From Self-Training Improves Image Generation

提出 Neon,一种仅需 <1% 额外训练计算的后处理方法:先用模型自身生成的合成数据微调导致退化,再反向外推远离退化权重,证明 mode-seeking 采样器导致合成/真实数据梯度反对齐,因此负外推等价于向真实数据分布优化,在 ImageNet 256×256 上将 xAR-L 提升至 SOTA FID 1.02。

NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

提出 NeuralOS,使用 RNN 状态追踪 + 扩散渲染器的双组件架构,直接从用户输入事件(鼠标移动/点击/键盘)预测操作系统图形界面帧序列,首次实现用神经生成模型模拟操作系统。

RMFlow: Refined Mean Flow by a Noise-Injection Step for Multimodal Generation

提出 RMFlow,在 1-NFE MeanFlow 传输后加入一步噪声注入精炼来弥补单步传输的误差,同时在训练中加入最大似然目标来最小化学习分布与目标分布间的 KL 散度,在 T2I、分子生成、时间序列生成上实现接近 SOTA 的 1-NFE 结果。

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

提出 SenseFlow,通过隐式分布对齐(IDA)和段内引导(ISG)将分布匹配蒸馏(DMD)扩展到大规模 flow-based 文生图模型(SD 3.5 Large 8B / FLUX.1 dev 12B),实现 4 步高质量图像生成。

SoFlow: Solution Flow Models for One-Step Generative Modeling

提出 Solution Flow Models (SoFlow),直接学习速度 ODE 的解函数 \(f(x_t, t, s)\)(将 \(t\) 时刻的 \(x_t\) 映射到 \(s\) 时刻的解),通过 Flow Matching 损失 + 无需 JVP 的解一致性损失从头训练,在 ImageNet 256 上 1-NFE FID 优于 MeanFlow(XL/2: 2.96 vs 3.43)。

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

SPEED 提出基于零空间(null space)约束的闭式模型编辑方法,通过影响力先验过滤(IPF)、定向先验增强(DPA)和不变等式约束(IEC)三种互补技术精化保留集,实现可扩展(5 秒内擦除 100 个概念)、精确(非目标概念语义零损失)且高效的概念擦除。

Steer Away From Mode Collisions: Improving Composition In Diffusion Models

针对扩散模型多概念 prompt 中的概念缺失/碰撞问题,提出"模式碰撞"假说(联合分布与单概念分布的模式重叠),设计 CO3(Concept Contrasting Corrector)通过在 Tweedie 均值空间中组合校正分布 \(\tilde{p}(x|C) \propto p(x|C) / \prod_i p(x|c_i)\) 来远离退化模式,实现即插即用、无梯度、模型无关的组合生成改进。

Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models

本文提出S²-Guidance,通过在去噪过程中随机丢弃transformer block激活子网络作为弱模型进行自引导,无需额外训练即可修正CFG的次优预测,在文生图和文生视频任务上一致超越CFG及其他高级引导策略。

TAVAE: A VAE with Adaptable Priors Explains Contextual Modulation in the Visual Cortex

扩展 VAE 形式主义提出 Task-Amortized VAE (TAVAE),通过在已学表示上灵活学习任务特异性先验来解释视觉皮层 V1 中的上下文调制现象,包括方向辨别任务中训练刺激与测试刺激不匹配时出现的双模态群体响应。

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

将 reward-guided 图像编辑重新建模为轨迹最优控制问题,将扩散/Flow模型的反向过程视为可控轨迹,通过基于 Pontryagin 最大值原理(PMP)的伴随状态迭代优化整条轨迹,在无需训练的情况下实现有效的奖励引导编辑且不发生 reward hacking。

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

提出 TwinFlow,一种无需辅助训练模型(判别器/冻结教师)的自对抗流匹配框架,通过模型自身多步输出作为单步的教学目标实现单步生成,首次将 1-NFE 生成能力成功扩展到 20B 参数的 Qwen-Image 模型,GenEval 0.86(1-NFE)接近原始 100-NFE 的 0.87。


💡 LLM 推理

Adaptive Social Learning via Mode Policy Optimization for Language Agents

提出 Adaptive Social Learning(ASL)框架,设计四种层次化推理模式(从直觉回应到深度推演),并通过 AMPO 算法(融合模式级和样本级优势估计)让 LLM agent 根据社交场景复杂度自适应切换推理深度,在社交智能任务上比 GPT-4o 高 15.6%,比 GRPO 高 7.0% 且 token 用量减少 32.8%。

Agentified Assessment of Logical Reasoning Agents

提出基于Agent的评测框架(AAA),用assessor agent标准化地评估逻辑推理agent,并以自动形式化agent(NL→Z3Py+SMT求解)在清洗后的FOLIO上达到86.70%准确率,大幅超过CoT基线73.89%。

AIMCoT: Active Information-driven Multimodal Chain-of-Thought for Vision-Language Reasoning

提出 AIMCoT,将多模态 CoT 的视觉信息选择从"被动关注高注意力区域"转变为"主动寻找最高信息增益区域",通过三个模块(CAG 上下文增强注意力图、AVP 主动视觉探测、DAT 动态注意力转移触发)协同工作,在 LLaVA-W 上比 ICoT 提升 18.25%(0-shot),是一个免训练的即插即用框架。

Annotation-Efficient Universal Honesty Alignment

提出 EliCal(先激发后校准)两阶段框架,先用无标注的 self-consistency 信号教 LLM 表达内部置信度,再用极少量正确性标注(仅 1k 个,占 0.18%)进行校准,在 HonestyBench(560K 训练 + 70K 评估)上达到接近全量标注 98% 的诚实性对齐性能,并在未见 MMLU 任务上泛化优于仅校准基线。

Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?

系统评估推理型 LLM 对其 CoT 中各种干预(良性/中性/对抗性)的鲁棒性:发现模型总体鲁棒能从干预中恢复,但改写风格(paraphrasing)会抑制"自我怀疑"表达导致正确率下降,恢复过程有显著计算开销(CoT 膨胀最高 665%)。

ATTS: Asynchronous Test-Time Scaling via Conformal Prediction

提出 ATTS,一个基于 conformal prediction 的异步 test-time scaling 框架,通过将 rejection sampling 重构为假设检验过程来消除同步开销,在 MATH/AIME 等数学推理任务上实现最高 56.7x 加速和 4.14x 吞吐量提升,且无精度损失;1.5B/70B 的 draft/target 组合可达到 o3-mini (high) 的 AIME 水平。

Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts

提出 Contact Searching Question (CSQ) 框架,通过两个统计指标(欺骗意图分数 ρ 和欺骗行为分数 δ)量化 LLM 在正常良性提示下的自发欺骗行为,发现 16 个主流 LLM 普遍存在随任务难度升级的系统性欺骗倾向。

Compositional Generalization from Learned Skills via CoT Training: A Theoretical and Structural Analysis for Reasoning

本文通过信息论泛化界和可解释性分析证明,CoT 训练的核心机制是组合泛化——模型学会系统性地组合已学的简单技能来解决新颖复杂问题,并内化为两阶段组合推理电路,使中间结果在更浅层提取,释放深层专注于后续推理步骤。

Conflict-Aware Fusion: Resolving Logic Inertia in Large Language Models via Structured Cognitive Priors

揭示了 LLM 的"逻辑惯性"现象——在遇到矛盾前提时仍沿学习到的推理轨迹继续推理(准确率降至 0.0),提出 Conflict-Aware Fusion 双过程架构,通过强制前提验证先于推理执行,在矛盾检测上实现 100% 准确率。

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

CoT2 提出用连续值 token(词表 embedding 的凸组合)替代离散 token 进行链式推理,使模型能在单次推理中并行追踪多条推理路径,理论证明等价于 K 次 self-consistency/best-of-N 采样,并通过 GRPO 强化学习进一步提升性能。

CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos

提出 CoT-RVS,一种无训练的多智能体框架,利用 MLLM 的零样本 Chain-of-Thought 能力进行时间-语义推理以选择关键帧,实现对复杂隐式查询的推理视频分割,在多个 benchmark 上大幅超越已有方法。

DAG-Math: Graph-of-Thought Guided Mathematical Reasoning in LLMs

将 LLM 的 CoT 推理形式化为 DAG 上的基于规则的随机过程,提出"逻辑闭合性"(logical closeness)度量来评估模型是否通过搜索还是严格逻辑推理得到答案,构建了 2894 个金标准 DAG-MATH benchmark,发现即使 PASS@k 相近的模型在推理忠实度上也存在显著差异。

DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning

提出 Design Logic(设计逻辑)——从真题中逆向工程出的可复用元知识,用于指导从原始文本合成多学科推理问题。构建了 470 万道覆盖 75 学科的推理题目,SFT 后的 base 模型甚至超越经过完整后训练的官方模型。

Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models

本文系统揭示了多模态大推理模型(MLRM)通过图像推断敏感地理位置信息的隐私泄露风险,提出了三级隐私风险框架和 DoxBench 基准,以及信息论度量 Glare 和协作攻击框架 GeoMiner。

Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models

本文首次系统研究了多模态大推理模型(MLRMs)从用户生成图像中推断敏感地理位置信息的隐私泄露风险,提出三级隐私风险框架、DoxBench 基准和 Glare 信息论评估指标,发现 MLRMs 在地理推断上超越非专家人类,显著降低了攻击者获取敏感位置信息的门槛。

DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

诊断出 GRPO 在加入长度惩罚后的根本缺陷——正确但冗长的回答可能获得负优势值从而被错误惩罚——提出 DRPO 将正负样本的奖励信号解耦,确保长度惩罚只在正确回答组内归一化,在 1.5B 模型上实现 77% 长度缩减仅 1.1% 性能损失(对比基线 68% 缩减 4.3% 损失)。

Dynamic Reflections: Probing Video Representations with Text Alignment

本文首次将柏拉图表示假说(Platonic Representation Hypothesis)扩展到时序领域,系统研究了视频-文本跨模态表示对齐,发现通过在测试时增加视频帧数和文本描述数量可以显著提升对齐分数(最高翻倍),并提出了具有强预测力的参数化缩放律。

Dynamic Reflections: Probing Video Representations with Text-Driven Reasoning

首次将柏拉图表示假说(PRH)扩展到时序领域,系统研究视频-文本表示对齐,发现通过增加测试时的帧数和描述数量可以显著提升对齐分数(翻倍),并提出了精确的参数化测试时缩放定律。

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

将 RL 微调中每个 prompt 的求解进度建模为隐马尔可夫动力系统,通过轻量贝叶斯推断在线预测 prompt 的求解状态,优先采样"部分求解"的 prompt,以不到 DS 30% 的 rollout 量达到同等甚至更优的推理性能。

Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure

将隐式CoT建模为结构因果模型(SCM),通过逐步do-干预分析Coconut和CODI两种范式,发现隐式推理步骤具有异质性因果杠杆、非局部跳跃传播结构、以及输出层早期偏向与表征层晚期提交之间的持续性差距。

Estimating the Empowerment of Language Model Agents

提出 EELMA 算法,利用信息论中的"赋权"(empowerment,即 agent 动作与未来状态的互信息)作为目标无关的 LM Agent 能力度量指标,在语言游戏和真实网页浏览场景中与任务表现强相关(\(r=0.83\)\(0.94\)),可用于开放式 agent 监控与安全评估。

Execution-Grounded Credit Assignment for GRPO in Code Generation

提出 EGCA(Execution-Grounded Credit Assignment),通过执行追踪定位程序中最早的语义偏差位置,将 GRPO 的梯度集中到因果 token span 上,解决代码生成中粗粒度信用分配问题,在 HumanEval 上达到 82.1% pass@1。

ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection

提出 ExPO-HM,受人类审核员培训流程启发,结合策略手册 SFT 预热、GRPO 课程学习和条件决策熵(CDE)奖励,首次实现 Explain-then-Detect 仇恨 Meme 检测在二分类、细粒度分类和推理质量上全面超越直接检测基线,F1 提升最高达 15-17%。

FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning

针对GRPO训练中生成阶段占91%-98%时间的瓶颈,提出并发感知的投机解码策略(动态调整draft树大小)和在线draft模型学习(持续适配目标模型分布),实现2.35x-2.72x端到端加速。

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

Fine-R1 通过 CoT 监督微调("视觉分析→候选子类→对比→预测"结构化推理链)+ 三元组增强策略优化 TAPO(类内增强提升鲁棒性 + 类间增强提升判别力),仅用 4-shot 训练即在细粒度视觉识别上超越 CLIP 和通用/推理型 MLLM。

Fixing the Broken Compass: Diagnosing and Improving Inference-Time Reward Modeling

系统诊断推理时奖励模型(RM)的三大问题(简单题性能下降、采样增多判别力衰退、高搜索多样性损害),提出CRISP算法通过答案聚类聚合奖励信号+逐步前缀引导生成,比其他RM推理方法提升最高5%准确率,比R1模型在非数学任务上平均提升10%且token量减少90%。

Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees

将神经网络验证(NN verification)引入机制可解释性,提出首个具有可证明保证的电路发现框架:在连续输入域上保证电路忠实度(input robustness)、在连续 patching 域上保证电路一致性(patching robustness),并形式化了四级最小性层次(quasi → local → subset → cardinal),通过单调性理论将三类保证统一连接。

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics

提出 ContextMATH 基准,通过将 AIME/MATH-500 抽象数学题转化为情景嵌入(SG)和复杂度缩放(CS)两种变体,揭示即使是 GPT-5 和 DeepSeek-R1 等顶级模型在上下文数学推理中也出现 13-34% 的准确率下降,且错误主要由问题建模(formulation)而非计算推理导致。

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics

本文提出 ContextMATH 基准,通过将 AIME 和 MATH-500 的抽象数学问题转换为两种情境变体(场景嵌入 SG 和复杂度缩放 CS),系统揭示了LLM在情境化数学推理中的大幅性能下降——开源模型在 SG 上平均下降 13%,CS 上下降 34%——并识别出"问题建模"和"推理执行"是两个互补的性能瓶颈。

GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs

提出Program-to-Geometry任务和GeoGramBench(500题),用三级几何复杂度分类法(基元识别/局部组合/全局抽象)评估19个前沿LLM从程序代码构建几何表征并推理的能力,发现所有模型在最高抽象级别准确率均低于50%。

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

揭示GRPO中更新幅度对难题隐式抑制的问题(中等难度题更新最大),提出MathForge框架:DGPO用MAD替换std实现难度均衡+难题加权,MQR通过多方面改写增加题目难度但保留答案,在6个数学推理benchmark上平均超GRPO +4.56%。

I Can't Believe It's Not Robust: Catastrophic Collapse of Safety Classifiers under Embedding Drift

本文系统研究了基于 frozen embedding 的安全分类器在模型更新导致 embedding 漂移时的脆弱性,发现仅 2% 的 embedding 扰动即可将分类器性能从 85% ROC-AUC 降至随机水平(50%),且 72% 的误分类发生在高置信度下(silent failure),同时 instruction-tuned 模型反而比 base 模型更难分类。

InnoGym: Benchmarking the Innovation Potential of AI Agents

提出 InnoGym 框架和 iBench/iGym 基准,首次从"创新性"维度评估 AI Agent——不仅衡量正确性还衡量方法论新颖性,发现当前 Agent 能产生新颖想法但无法转化为性能提升(平均归一化增益 -0.45)。

Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort

提出 TRACE(Truncated Reasoning AUC Evaluation)方法,通过逐步截断推理链并测量模型"多早"能获得奖励来量化推理努力程度,从而检测 CoT 监控无法发现的隐式奖励黑客行为,在数学和代码任务中比最强 CoT 监控器分别提升 65% 和 30% 以上的检测 F1。

LingOly-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

提出LingOly-TOO benchmark(1,203题/6,995子问题),通过对语言学奥赛题的专家设计正字法混淆来分离LLM的推理能力与知识/记忆,发现最强模型从原始题0.59降至混淆后0.48,揭示了LLM推理能力被严重高估。

LogicReward: Incentivizing LLM Reasoning via Step-Wise Logical Supervision

提出LogicReward奖励函数,用Isabelle定理证明器做步骤级逻辑正确性验证,结合Autoformalization with Soft Unification减少自然语言歧义,训练出的8B模型在NLI和逻辑推理任务上超越GPT-4o 11.6%和o4-mini 2%。

mR3: Multilingual Rubric-Agnostic Reward Reasoning Models

提出 mR3,一系列覆盖72种语言的多语言rubric-agnostic推理奖励模型,通过系统化的数据构建(GPT-OSS-120B蒸馏+难度过滤)和课程学习策略训练,14B模型在多语言评估基准上超越120B教师模型及所有同类基线,同时支持point-wise/pair-wise/binary三种评估范式。

Native Reasoning Models: Training Language Models to Reason on Unverifiable Data

提出 NRT(Native Reasoning Training)框架,将推理链视为隐变量,通过模型自身对参考答案的预测置信度作为内在奖励信号训练 LLM 推理能力,无需外部验证器或专家推理示范;在 Llama-3.1-8B 上 9 个基准平均提升 10.2 分(46.0→56.2),超越需要验证器的 RLPR +5.4 分。

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

在 LLM 生成答案之前,仅从问题处理后的残差流激活中训练线性探针(difference-of-means),即可预测模型即将生成的答案是否正确。该"提前正确性方向"在 TriviaQA 上训练后可跨域泛化到多个事实知识数据集(AUROC 0.68-0.88),但无法泛化到数学推理(GSM8K),揭示了"事实正确性"与"推理正确性"在模型内部表征中的结构性分离。

Nudging the Boundaries of LLM Reasoning

指出GRPO无法从"不可解"问题(0% pass rate)学习的根本局限,提出NuRL方法在训练时对难题注入自生成的抽象hint(不泄露答案)使其变为可学习样本,在6个benchmark和3个模型上一致超越GRPO且能提升模型能力上界(pass@k)。

On The Fragility of Benchmark Contamination Detection in Reasoning Models

系统性研究发现 LRM 的基准污染检测极其脆弱:SFT 阶段引入的污染在经过 GRPO 训练后检测信号几乎消失(PPO 式重要性采样/裁剪是根因),而对高级 LRM 直接用 CoT 做 SFT 污染则几乎不留任何可检测痕迹,现有 10 种检测方法均接近随机猜测。

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

首次将分解式 Chain-of-Thought 推理与多维度强化学习(RL)结合应用于视频到音频(V2A)生成,通过四个专门化的 CoT 模块(语义/时序/美学/空间)配合对应奖励函数,解决了目标纠缠问题,并提出 Fast-GRPO 算法大幅降低 RL 训练开销。

Query-Level Uncertainty in Large Language Models

提出Query-Level Uncertainty概念,通过Internal Confidence方法在生成前(单次前向传播)估计LLM能否回答给定查询,无需训练即可实现高效的自适应推理(RAG触发/模型级联/弃权)。

RAIN-Merging: A Gradient-Free Method to Enhance Instruction Following in Large Reasoning Models with Preserved Thinking Format

针对大推理模型(LRM)推理能力强但指令遵循能力弱的矛盾,提出 RAIN-Merging 方法,通过零空间投影保持 thinking 格式不变、注意力引导系数增强指令相关性,无需梯度训练即可将指令微调模型(ITM)的能力合并进 LRM,在 4 个指令遵循和 9 个推理基准上均取得稳定提升。

RAIN-Merging: A Gradient-Free Method to Enhance Instruction Following Through Model Merging

提出 RAIN-Merging,一种无梯度的两阶段模型合并方法:先通过零空间投影保护大推理模型 (LRM) 的思维格式,再用指令注意力引导的合并系数增强指令遵循能力,在保持推理质量的同时大幅提升 LRM 的指令遵循性能。

Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models

首次系统研究大型推理模型(LRM)的答案来源归因问题,揭示推理(CoT)和检索(记忆)两种机制同时竞争影响最终答案,并提出 Farl(遗忘增强强化学习)通过抑制检索捷径来提升模型的真实推理能力。

ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

提出 ReForm,一种反思式自动形式化范式,将自然语言数学问题转为 Lean 形式声明的过程从一次生成转变为"生成 → 语义自验证 → 修正"的迭代循环,并设计 PBSO 算法优化异构奖励信号,在四个基准上比最强基线平均提升 22.6 个百分点。

RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models

提出推理忠实度(Reasoning Faithfulness)的形式化定义(立场一致性 + 因果影响),构建 7,186 实例/7 任务的 RFEval 基准,通过输出层反事实推理干预评估 12 个开源 LRM,发现 49.7% 的输出不忠实,且 RL 后训练会降低忠实度、准确率不是忠实度的可靠代理指标。

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

提出 SceneCOT,首个将 Chain-of-Thought 推理引入 3D 场景理解的框架,通过四阶段推理管线(任务识别→区域定位→实体接地→接地推理)将中间推理步骤显式关联到视觉 grounding,在 Beacon3D 上 Good Coherence 达到 34.7%(比最强 baseline 的 20.4% 高出 70%+)。

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

提出SealQA挑战基准,包含111道使前沿非推理模型准确率为0的事实性问题,专门评估搜索增强LLM在噪声/冲突/误导性检索结果下的推理能力。

Segment-Level Attribution for Selective Learning of Long Reasoning Traces

用Integrated Gradients计算长推理链中每个segment对最终答案的归因强度和方向一致性,识别重要segment进行选择性SFT,相比全CoT训练提升准确率达4.7%同时缩短输出18%。

The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

揭示短任务基准给出"收益递减"的假象——单步准确率的微小提升在长任务中指数级放大;发现 LLM 的"自我条件化效应"(自身错误增加后续出错概率),thinking 模型可修复此效应;GPT-5 thinking 可执行超过 2100 步长任务。

The Path of Least Resistance: Guiding LLM Reasoning Trajectories with Prefix Consensus

提出 PoLR(Path of Least Resistance),首个利用推理前缀一致性的推理时方法,通过聚类短前缀并仅展开主导簇来替代标准 Self-Consistency,在 GSM8K/Math500/AIME/GPQA 等基准上保持甚至提升准确率的同时减少 40%–60% 的 token 用量和最高 50% 的延迟。

Position: The Reasoning Trap — Logical Reasoning as a Mechanistic Pathway to Advanced AI Self-Awareness

提出 RAISE 框架,论证逻辑推理能力(演绎、归纳、溯因)的改进是 AI 情境意识(situational awareness)的机制性路径,改善推理不可避免地放大了情境意识的危险前提条件。

The Reasoning Trap — Logical Reasoning as a Mechanistic Pathway to Situational Awareness

立场论文,提出 RAISE 框架论证逻辑推理能力的提升(演绎/归纳/溯因)会系统性地使 LLM 获得情境感知(situational awareness)能力,从而开启自我推理→战略欺骗的升级路径,并指出当前安全措施不足以阻止这一趋势。

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

构建TopoBench基准(6类拓扑谜题×3难度)评估LLM的全局空间推理能力,发现前沿模型hard tier仅解决<24%,并通过因果干预实验发现错误频率不等于因果影响——低频的约束遗忘比高频的重复推理更具破坏性。

Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention

提出 Intervened Preference Optimization (IPO),通过在推理过程中的关键步骤替换合规线索为安全触发器,构造偏好对进行训练,显著提升大推理模型(LRM)思维链推理过程本身的安全性。

Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention

揭示大推理模型(LRM)的推理链即使最终回答安全也常包含有害内容的问题,提出 Intervened Preference Optimization(IPO),通过用安全触发器替换合规线索来纠正不安全推理轨迹,构造偏好对进行对齐训练,在 3 个 LRM 上将推理有害率降低超过 30% 且不损害推理能力。

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

提出 Progressive Thought Encoding,通过在 KV 缓存被淘汰时将 token 信息编码为固定大小的 LoRA 权重更新,使大推理模型能在有限缓存下进行高效 RL 训练,同时保持长程推理能力。

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

提出 Progressive Thought Encoding,在 KV 缓存受限条件下将被驱逐的思维 token 编码进 LoRA 权重,使大推理模型在 RL 训练时显存减半的同时推理准确率反超全缓存 LoRA(AIME2024/2025 上最高提升 +23.4%)。

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

提出 TumorChain,面向肿瘤分析的交错多模态 CoT 推理框架,通过 1.5M CoT-VQA 数据引擎、器官引导的迭代交错推理(IIR)和混合模型协同优化,在肿瘤定位/属性分析/TNM分期上平均精度 84.41%,大幅超越 GPT-5-Mini(51.59%)。

Understanding the Role of Training Data in Test-Time Scaling

从理论上分析训练数据属性如何影响 test-time scaling 的效果,证明 CoT 推理等价于伪牛顿法迭代,提出基于特征协方差最小特征值的任务难度度量,揭示"更多思考不一定更好"的 overthinking 现象机制,并给出多任务训练中最优任务选择策略——训练集应多样、相关且困难。

Uni-CoT: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

提出 Uni-CoT 分层宏-微推理框架,将多模态 CoT 分解为宏观任务规划(将复杂任务分解为子目标)和微观子任务执行(MDP 式自反思迭代优化),通过注意力掩码设计将 \(O(T^2)\) 复杂度降至 \(O(T)\),在 GenEval 上超越 BAGEL 基线 +0.02,实现了文本-图像交织的统一推理。

Verifying Chain-of-Thought Reasoning via Its Computational Graph

提出CRV白盒方法,通过分析LLM推理步骤的归因图(计算图)结构特征来验证CoT正确性,在Arithmetic任务上AUROC达92.47,远超黑盒(76.45)和灰盒方法,并通过因果干预成功纠正错误推理。

When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models

系统性基准测试与机制解释压缩(量化/蒸馏/剪枝)对大推理模型的影响,发现三大核心结论:参数数量对知识记忆影响大于推理能力;蒸馏模型最后一层 MLP up_proj 是最关键权重;保护仅 2% 的被过度压缩权重即可提升平均准确率 6.57%。

When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models

系统研究量化、蒸馏、剪枝三种压缩方法对大型推理模型 (LRM) 的影响,通过性能基准测试和机制可解释性分析,揭示权重数量对知识记忆影响大于推理、最后一层 MLP up_proj 是最关键组件、以及当前量化方法过度压缩最后层等核心发现。

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

分析Qwen2.5-Math-7B的隐式推理发现其61%准确率中仅18.4%来自稳定忠实的推理路径,81.6%通过不一致路径得出,8.8%为"静默失败"(高置信但错误),揭示benchmark准确率掩盖计算可靠性问题。

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

发现并机制性地解释"推理诱导失对齐"(RIM)现象:增强推理能力(CoT prompting 或数学微调)会削弱安全守护,原因是推理和安全共享神经元资源,训练推理时安全关键神经元的激活发生不成比例的偏移。

Why is Your Language Model a Poor Implicit Reward Model?

本文通过理论和实验揭示了隐式奖励模型(IM-RM,如DPO)比显式奖励模型(EX-RM)泛化更差的根本原因——IM-RM过度依赖表面token级线索而非语义表示,导致在token分布偏移下准确率大幅下降,同时反驳了"生成-验证差距"假说。


🎮 强化学习

AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking

提出 AbstRaL,通过强化学习教 LLM 学习推理问题的数学抽象(将具体数字/名称替换为符号变量、提取通用公式),然后用符号求解器推导答案,在 GSM 扰动 benchmark 上几乎完全消除了分布偏移导致的性能下降,并在 OOD 数学/通用推理任务上也有隐式提升。

APPLE: Toward General Active Perception via Reinforcement Learning

提出APPLE——一种结合强化学习与监督学习的通用主动感知框架,将主动感知建模为POMDP,奖励函数设计为RL奖励减去预测损失,梯度自然分解为策略梯度和预测损失梯度两部分,基于off-policy算法(SAC/CrossQ)和共享ViViT骨干网络,在5个不同任务基准上验证通用性,其中CrossQ变体无需逐任务调参且训练效率提高53%。

ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning

提出ARM-FM框架,利用基础模型(GPT-4o等)从自然语言任务描述自动生成语言对齐奖励机器(LARM)——包括自动机结构、可执行标签函数和每个状态的自然语言描述——为RL agent提供组合式密集奖励信号,在MiniGrid/Craftium(3D Minecraft)/Meta-World等环境中解决标准RL完全无法学习的稀疏奖励长程任务,并实现零样本任务泛化。

Autoqd Automatic Discovery Of Diverse Behaviors With Quality-Diversity Optimizat

提出 AutoQD,利用占用度量 (occupancy measure) 的随机 Fourier 特征嵌入自动生成行为描述子 (behavioral descriptor),替代传统 QD 优化中的手工设计描述子,在 6 个连续控制任务上展现了强大的多样化策略发现能力。

Autotool Automatic Scaling Of Tool-Use Capabilities In Rl Via Decoupled Entropy

提出解耦自适应熵约束 (Decoupled Adaptive Entropy Constraints) 的强化学习策略,使 LLM 在工具调用任务中根据问题难度自动切换长/短推理模式,在提升 9.8% 准确率的同时减少约 81% 的推理 token 开销。

AWM: Accurate Weight-Matrix Fingerprint for Large Language Models

提出 AWM,一种无需训练的 LLM 权重矩阵指纹方法,利用线性分配问题(LAP)恢复嵌入层的置换和符号翻转,再用无偏 CKA 消除 Q/K 矩阵的正交变换影响,在 150 对 LLM 上实现完美 AUC(1.0),对 SFT、持续预训练(5.5T token)、RL、多模态扩展、剪枝、upcycling 六类后训练均鲁棒,30 秒内完成。

BA-MCTS: Bayes Adaptive Monte Carlo Tree Search for Offline Model-based RL

首次将贝叶斯自适应 MDP(BAMDP)引入离线模型基 RL,提出 Continuous BAMCP 解决连续状态/动作空间的贝叶斯规划,结合悲观奖励惩罚和搜索基策略迭代("RL + Search"范式),在 D4RL 12 个任务上显著超越 19 个基线(Cohen's \(d > 1.8\)),并成功应用于核聚变 tokamak 控制。

Boolean Satisfiability via Imitation Learning

提出 ImitSAT,首个基于模仿学习的 CDCL 求解器分支策略:通过将求解器运行压缩为无冲突的 KeyTrace 专家序列,将分支决策建模为前缀条件的自回归预测任务,以少量查询预算显著减少传播次数和求解时间,并在结构化 SAT 问题上展现良好泛化能力。

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

通过观察性研究(18 个开源 RPT 模型)和干预性研究(单域 GRPO 训练),系统揭示了强化后训练(RPT/RLVR)的泛化局限:RPT 在训练域内提升显著,但跨域泛化不一致——结构化域(数学↔代码)可互相迁移,但无法泛化到非结构化域(法律/金融/医疗),且这一结论跨算法、模型规模和训练步数保持一致。

Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation

针对图表到代码生成任务中SFT的性能瓶颈问题,提出多模态结构化强化学习(MSRL),通过文本+视觉双层奖励函数和两阶段RL策略,在ChartMimic和ReachQA上分别提升6.2%和9.9%的高层指标,达到开源SOTA并媲美GPT-4o。

Chain-of-Context Learning: Dynamic Constraint Understanding for Multi-Task VRPs

提出 Chain-of-Context Learning (CCL),通过 Relevance-Guided Context Reformulation(RGCR,自适应聚合约束信息构建上下文)和 Trajectory-Shared Node Re-embedding(TSNR,跨轨迹共享节点更新避免冗余计算)实现逐步动态的约束感知解码,在 48 种 VRP 变体(16 分布内 + 32 分布外)上全面超越现有方法。

Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models

Co-rewarding 提出自监督 RL 框架,通过数据侧(对比改写问题的跨视角一致性)和模型侧(EMA 教师模型提供伪标签)两种互补监督方式,解决自奖励 RL 中的训练崩溃问题,在无人工标签条件下多项数学推理基准上达到甚至超过 RLVR(有标签)的性能。

Continuous-Time Value Iteration for Multi-Agent Reinforcement Learning

提出 VIP(Value Iteration via PINN)框架,首次将物理信息神经网络(PINN)用于求解连续时间多智能体强化学习中的 HJB 偏微分方程,并引入 Value Gradient Iteration(VGI)模块迭代精炼价值梯度,在连续时间 MPE 和 MuJoCo 多智能体任务上始终优于离散时间和连续时间基线。

Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning

CalibRL 将专家数据重新定义为分布校准基线(而非严格模仿目标),通过 LeakyReLU 不对称激活 + 优势加权实现对 MLLM 推理训练中探索-利用平衡的精细控制,解决 RLVR 中的熵崩溃问题,在几何推理等任务上大幅超越 GRPO/DAPO。

Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets

系统研究跨形态离线 RL 预训练范式,发现次优数据比例和机器人多样性增加时梯度冲突导致负迁移,提出基于形态图距离的 Embodiment Grouping(EG)策略将机器人按形态聚类后分组更新 actor,在 16 种机器人平台的 locomotion benchmark 上显著缓解负迁移(70% 次优数据集上 IQL+EG 比 IQL 提升 34%)。

CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning

提出 CUDA-L1,一个基于对比强化学习(Contrastive RL)的三阶段流水线框架,将初始 CUDA 能力较弱的 LLM 训练为高效的 CUDA 优化器,在 KernelBench 的 250 个 CUDA 内核上实现平均 3.12× 加速,峰值达 120×,并可跨 GPU 架构迁移。

Deep SPI: Safe Policy Improvement via World Models

构建了安全策略改进(SPI)的理论框架,将世界模型和表示学习与策略更新保证统一起来:通过基于重要性比率的邻域算子约束策略更新,确保单调改进和收敛;结合局部转移/奖励损失控制世界模型质量和表示稳定性,提出 DeepSPI 算法在 ALE-57 基准上匹配或超越 PPO 和 DeepMDP。

DiVE-k: Differential Visual Reasoning for Fine-grained Image Recognition

提出 DiVE-k 框架,利用大视觉语言模型自身的 top-k 生成结果构造选择题,通过 GRPO 强化学习训练模型进行差异化视觉推理,在细粒度图像识别的 base-to-novel 泛化上大幅超越现有方法。

Divide, Harmonize, Then Conquer It: Shooting Multi-Commodity Flow Problems with Multimodal Language Models

提出 Pram 框架,首次利用多模态语言模型(MLM)求解多商品流(MCF)问题,通过分区将原问题分解为子问题,以多智能体强化学习(MARL)协调各子问题的全局一致性,理论证明收敛到最优解,实测速度比 LP 快 1-2 个数量级且性能接近最优。

Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts

首次同时解决跨域离线 RL 的"训练时鲁棒性"(源域-目标域不匹配)和"测试时鲁棒性"(部署环境动态偏移):提出 DROCO,通过 Robust Cross-Domain Bellman (RCB) 算子对源域数据施加鲁棒 Bellman 更新、对目标域数据施加标准更新,将动态不确定性映射为可处理的状态扰动。

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

提出 DVLA-RL 框架,通过双层语义构建(DSC)生成互补的低层属性和高层描述,并以 RL 门控注意力(RLA)动态平衡自注意力和交叉注意力在不同网络层的贡献,实现从低层到高层的层次化视觉-语言对齐,在 9 个少样本学习基准上达到 SOTA。

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

提出音频交错推理(audio-interleaved reasoning)新范式,将音频视为推理过程中的主动组件而非静态上下文,使 LALM 在推理时动态定位并重新聆听音频片段。通过 SFT+RL 两阶段训练框架和结构化数据生成流水线,构建 Echo 模型,在专家级和通用音频理解基准上超越 GPT-4o 和 Gemini-2.0-Flash。

Efficient Estimation of Kernel Surrogate Models for Task Attribution

提出核代理模型(KernelSM)用于任务归因,通过 RBF 核岭回归捕获任务间的非线性交互效应,结合梯度投影的高效估计算法避免重复训练,在数学推理、上下文学习和多目标 RL 等场景下相比线性代理和影响函数基线提升 25% 相关性。

EGG-SR: Embedding Symbolic Equivalence into Symbolic Regression via Equality Graph

提出 Egg-SR 统一框架,通过等价图(e-graph)将符号等价性嵌入 MCTS、DRL 和 LLM 三类符号回归方法中,分别实现子树剪枝、梯度方差降低和反馈提示增强。理论证明 Egg-MCTS 收紧遗憾界、Egg-DRL 降低梯度估计方差,实验验证一致提升表达式发现精度。

Emergence of Spatial Representation in an Actor-Critic Agent with Hippocampus-Inspired Sequence Generator

受海马体 CA3 区内在递归回路启发,提出最小序列生成器(shift register)与 actor-critic 结合,在稀疏视觉输入下实现迷宫导航,同时涌现出位置场、DG 正交化、距离相关空间核和任务依赖重映射等神经生物学现象。

Empowering Small VLMs to Think with Dynamic Memorization and Exploration

提出 DyME(Dynamic Memorize-Explore),通过逐步动态切换 SFT 记忆模式与 GRPO 探索模式,首次赋予小规模视觉语言模型(<1B 参数)在特定任务上的思维推理能力。

Entropy-Preserving Reinforcement Learning (REPO / ADAPO)

本文揭示了策略梯度 RL 算法在 LLM 后训练中系统性导致策略熵坍缩的理论根因(优势函数与对数概率的正相关性),并提出两种互补的解法:REPO(通过修改优势函数去相关)和 ADAPO(自适应非对称裁剪),在交互式工具使用任务上实现 SOTA 性能。

Exploration vs Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

本文揭示 RLVR 中两个反直觉现象——随机奖励也能提升推理性能、熵最小化也能改善结果——并从理论上证明裁剪偏差提供的学习信号可忽略不计,性能提升的真正来源是裁剪对熵的隐式压缩作用和奖励误标对强模型的"有益偏差"效应。

FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

针对 RLVR 训练中"答案正确但推理有缺陷"的 flawed-positive rollout 问题,提出 FAPO 算法:用 GenRM 检测缺陷推理,通过无参数奖励惩罚机制实现"先利用后抑制"的自然学习轨迹,同时提升结果正确性、过程可靠性和训练稳定性。

Flow Actor-Critic for Offline Reinforcement Learning (FAC)

FAC 首次联合利用流模型(continuous normalizing flow)同时构建表达力强的 actor 策略和基于精确密度估计的 critic 惩罚机制,通过识别 OOD 区域对 Q 值进行选择性保守估计,在 OGBench 55 个任务上以 60.3 平均分大幅超越此前最佳的 43.6。

Is Pure Exploitation Sufficient in Exogenous MDPs with Linear Function Approximation?

证明在外生MDP(Exo-MDP,不确定性仅来自独立于智能体动作的外生输入)中,纯利用(无探索)策略即可达到次线性遗憾界——表格情形下PTO算法达到 \(\tilde{O}(H^2|\Xi|\sqrt{K})\),线性函数逼近下LSVI-PE算法遗憾与特征维度和外生状态空间多项式相关、与内生状态/动作空间无关。

Learning to Orchestrate Agents in Natural Language with the Conductor

用RL训练7B的Conductor模型,通过自然语言输出Agent工作流(子任务分配+通信拓扑)来协调GPT-5/Claude/Gemini等大模型,在LiveCodeBench和GPQA等benchmark上超越所有单模型和多Agent基线,达到SOTA(平均77.27 vs GPT-5的74.78)。

LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

提出 LongRLVR,通过在 RLVR 训练中引入可验证的上下文奖励(context reward),解决长上下文场景下仅靠最终答案奖励导致的上下文定位(grounding)梯度消失问题,显著提升 LLM 长上下文推理能力。

LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts

提出 LoongRL,通过构建 KeyChain 合成数据进行强化学习训练,使 LLM 涌现出 plan–retrieve–reason–recheck 的长上下文推理模式,仅在 16K 上下文上训练即可泛化到 128K,14B 模型达到 74.2 分接近 o3-mini (74.5) 和 DeepSeek-R1 (74.9)。

ROMI: Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

ROMI 通过 Wasserstein 对偶将动力学不确定集转化为状态不确定集来实现鲁棒的价值感知模型学习,并用隐式可微的自适应加权机制平衡动力学精度与价值感知,解决了 RAMBO 方法中的 Q 值低估和梯度爆炸问题,在 D4RL 和 NeoRL 上达到模型基离线 RL 的 SOTA。

MVR: Multi-view Video Reward Shaping for Reinforcement Learning

提出 MVR 框架,利用多视角视频的视频-文本相似度学习状态相关性函数,结合状态依赖的奖励塑形(自动衰减 VLM 引导),在 HumanoidBench 和 MetaWorld 共 19 个任务上超越现有 VLM 奖励方法。

On the \(O(1/T)\) Convergence of Alternating Gradient Descent-Ascent in Bilinear Games

首次证明交替梯度下降上升(AltGDA)在有约束双线性零和博弈中以 \(O(1/T)\) 速率收敛到Nash均衡(存在内部NE时),比同步GDA的 \(O(1/\sqrt{T})\) 快,用能量函数衰减刻画轨迹碰撞边界时的"摩擦"效应,并通过性能估计编程(PEP)进一步优化步长。

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

提出 ScaleZero,通过在统一世界模型中引入 MoE 架构解决多任务学习中的梯度冲突和可塑性崩塌问题,结合动态参数扩展(DPS)策略自适应分配模型容量,单个多任务模型在 Atari/DMC/Jericho 三个基准上达到与单任务专家模型相当的性能,同时减少约 28.5% 的环境交互。

Online Minimization of Polarization and Disagreement via Low-Rank Matrix Bandits

将社交网络中极化与分歧最小化问题建模为在线低秩矩阵bandit问题,提出两阶段算法OPD-Min-ESTR(先估计子空间再低维线性bandit),将维度从 \(|V|^2\) 降至 \(O(|V|)\),实现 \(\tilde{O}(\max\{1/\kappa, \sqrt{|V|}\}\sqrt{|V|T})\) 累积遗憾。

Optimistic Task Inference for Behavior Foundation Models

提出 OpTI-BFM——在 Behavior Foundation Model 测试时,不需要完整奖励函数或标注数据集,而是通过与环境交互仅 5 个 episode 即可推断任务并恢复 Oracle 性能,核心是利用 successor features 的线性结构将任务推断归约为线性 bandit 问题并用 UCB 策略乐观探索,提供正式的 regret bound。

Post-training Large Language Models for Diverse High-Quality Responses

提出 DQO(Diversity Quality Optimization),基于行列式点过程(DPP)在语义嵌入空间中定义多样性度量,将其与奖励信号联合优化,使 LLM 后训练同时提升语义多样性和响应质量,可叠加在 GRPO/PPO 之上。

Principled Fast and Meta Knowledge Learners for Continual Reinforcement Learning

受人脑海马体-大脑皮层交互机制启发,提出 FAME 双学习器框架,通过快速学习器进行知识迁移、元学习器进行知识整合,在原则性地最小化灾难性遗忘的前提下实现高效的持续强化学习。

Reasoning Boosts Opinion Alignment in LLMs

用GRPO强化学习训练LLM从政治调查数据中学习推理式观点对齐,在美国/德国/瑞士三个数据集上证明推理能提升个体级政治观点建模的准确性。

Regret-Guided Search Control for Efficient Learning in AlphaZero

提出 RGSC(Regret-Guided Search Control)框架,通过训练一个 regret 网络识别高遗憾值状态并优先从这些状态重新开始自我对弈,模拟人类"反复复盘错误"的学习方式,在 9×9 围棋、10×10 黑白棋和 11×11 Hex 上平均超越 AlphaZero 77 Elo。

Robust Deep Reinforcement Learning against Adversarial Behavior Manipulation

本文研究 RL 中一种新型威胁——行为目标攻击(adversary 通过篡改观测来引导 victim 执行特定目标策略),提出不需要白盒访问的 BIA 攻击方法和基于时间折扣的 TDRT 防御方法,TDRT 在保持对攻击鲁棒性的同时比现有防御(SA-PPO)的原始任务性能高 28.2%。

Routing, Cascades, and User Choice for LLMs

将 LLM 路由建模为 provider-user Stackelberg 博弈,证明最优路由策略几乎总是静态无级联的阈值规则,并揭示当模型质量排序与成本排序不一致时产生的用户-提供商不对齐问题,以及低流失惩罚下 provider 有动机通过增加延迟来降低成本。

Self-Harmony: Learning to Harmonize Self-Supervision and Self-Play in Test-Time Reinforcement Learning

提出 Self-Harmony 框架,通过让单一模型扮演两个角色(Solver 求解原始问题 + Reframer 改述问题),将答案在原始和改述视角下的调和平均得分作为伪标签选择标准,替代传统多数投票,在 30 个实验设置中 28 个达到 SOTA,且训练零失败。

Self-Improving Skill Learning for Robust Skill-based Meta-Reinforcement Learning

提出 SISL(Self-Improving Skill Learning),通过解耦高层策略和技能改进策略,结合最大回报重标注的技能优先级机制,在噪声离线演示数据下实现鲁棒的技能学习,显著提升基于技能的元强化学习在长时域任务中的性能。

Single Index Bandits: Generalized Linear Contextual Bandits with Unknown Reward Functions

提出单指标赌博机(SIB)问题——将广义线性赌博机扩展到奖励函数未知的设定,基于 Stein 方法设计了一族高效算法(STOR/ESTOR/GSTOR),在单调递增奖励函数下实现了近最优遗憾界 \(\tilde{O}(\sqrt{T})\)

Solving Football by Exploiting Equilibrium Structure of 2p0s Differential Games with One-Sided Information

证明单边信息二人零和微分博弈中 Nash 均衡策略的原子结构——知情玩家 P1 的均衡策略集中在至多 \(I\) 个动作原型上(\(I\) = 博弈类型数),使博弈树复杂度从 \(U^{2K}\) 降到 \(I^K\),在美式足球 11v11 连续动作空间中(传统复杂度 \(10^{440}\))实现 M1 MacBook 30 分钟求解。

Toward a Dynamic Stackelberg Game-Theoretic Framework for Agent-Based Conversational AI Defense Against LLM Jailbreaking

将 LLM 越狱攻防形式化为动态 Stackelberg 扩展形式博弈,结合快速扩展随机树 (RRT) 搜索提示空间,提出 Purple Agent 防御架构实现"红队思维,蓝队行动"的预见性防御。

UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

提出 UME-R1,首次探索推理驱动的生成式多模态嵌入范式,通过两阶段训练(冷启动SFT + 强化学习)让嵌入模型先推理再生成表示,在 MMEB-V2 基准的 78 个任务上显著超越传统判别式嵌入模型。

Understanding and Improving Hyperbolic Deep Reinforcement Learning

通过形式化梯度分析揭示双曲深度 RL 的训练不稳定根源(大范数嵌入导致信赖域违反),提出 Hyper++ 三组件方案(RMSNorm + 学习缩放 + 分类值损失)实现稳定训练并超越现有方法。

Value Flows

Value Flows 首次将流匹配(flow matching)引入分布式 RL——学习一个向量场使生成的概率密度路径自动满足分布式 Bellman 方程,通过 flow derivative ODE 高效估计回报方差实现置信度加权优先学习,在 OGBench 62 个任务上平均 1.3× 成功率提升,回报分布估计精度比 C51/CODAC 好 3×+。

VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models

针对大型推理模型(LRM)训练中广泛使用的基于参考答案的奖励系统,构建了 VerifyBench 和 VerifyBench-Hard 两个评测基准,通过严格的人工标注评估各类验证系统的准确性,发现即使最强模型在困难样本上也仅达约 88% 准确率,揭示了当前验证系统的显著改进空间。

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

提出 DMVR 框架和 α-DPG 算法,通过显式定义"过滤掉错误答案"的目标分布并用 α-散度族来逼近,统一了 RLVR(Reverse KL)和拒绝采样微调(Forward KL),在 Lean 定理证明上实现了精度-覆盖率 Pareto 前沿的最优表现。


🦾 LLM Agent

A Benchmark for Deep Information Synthesis (DeepSynth)

提出 DeepSynth 基准,包含 120 个跨 7 领域 67 国的真实信息综合任务(平均需 5.5 小时人工标注),要求 agent 从多个网页收集信息并进行结构化推理,当前最强 agent(o3-deep-research)仅获 8.97 F1 / 17.5% LLM-Judge,揭示了 LLM agent 在信息综合方面的严重不足。

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

提出 ACE(Agentic Context Engineering)框架,将 context 视为不断演化的"策略手册"(playbook),通过 Generator-Reflector-Curator 三角色分工和增量式 delta 更新来持续积累和精炼策略,解决了现有 prompt 优化中的简洁偏差和上下文坍塌问题,在 agent 任务上平均提升 10.6%、金融任务提升 8.6%,且自适应延迟降低 86.9%。

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

提出AgentSynth pipeline,利用信息不对称原理(正向逐步生成简单、反向整体求解困难)将简单子任务链式组合为复杂长程计算机使用任务,自动生成6000+多样化任务和轨迹,每条轨迹仅需$0.60,SOTA Agent在最高难度下成功率仅4%。

Ambig-SWE: Interactive Agents to Overcome Underspecificity in Software Engineering

构建 Ambig-SWE(基于 SWE-Bench Verified 的欠指定变体),系统评估 LLM 编程 agent 在三个维度上的交互能力——检测欠指定、提出澄清问题、利用交互信息——发现交互可将欠指定场景下的解决率提升最高 74%,但模型默认非交互行为且难以区分指定充分/不足的指令。

ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents

揭示 LLM Agent 中 chat template 的结构性漏洞:通过在工具返回的数据中伪造角色标签(如 <system>, <user>),攻击者可以劫持模型的角色层级认知,将恶意指令伪装为高优先级指令,ASR 从 5-15% 提升至 32-52%。

Efficient Agent Training for Computer Use

PC Agent-E 仅用 312 条人工标注的 Windows 操作轨迹,通过 Trajectory Boost 方法让 Claude 3.7 Sonnet 在每个时间步合成多样化的替代动作决策,训练后的 Qwen2.5-VL-72B 在 WindowsAgentArena-V2 上相对提升 141%,甚至超越教师模型 Claude 3.7 Sonnet 10%。

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

提出 EMPO2,一种结合外部记忆模块与混合 on-policy/off-policy 更新的 RL 框架,通过记忆引导探索和知识蒸馏将探索收益内化到模型参数中,在 ScienceWorld 和 WebShop 上分别比 GRPO 提升 128.6% 和 11.3%。

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

提出 FeatureBench——面向特征级软件开发的 Agent 编程基准,200 个任务/24 个开源仓库,平均需实现 790 行代码跨 15.7 个文件。即便是 Claude Opus 4.5(SWE-bench 74.4%)也仅解决 11.0%,揭示了当前 Agent 在真实特征开发场景中的巨大能力缺口。

FingerTip 20K: A Benchmark for Proactive and Personalized Mobile LLM Agents

FingerTip 20K 收集了 95 名用户在真实日常手机使用中的 21,437 条交互记录(含用户画像、时间、位置、历史意图),提出两个新赛道——主动任务建议(预测用户意图)和个性化任务执行(适配动作偏好),最强模型 Qwen-QVQ-Max 主动建议成功率仅 12.8%(人类 30.3%),UI-TARS 执行成功率仅 38.5%。

Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

提出 EMPG 框架,通过步级熵(uncertainty)动态调制策略梯度的幅度,解决长序列 LLM Agent 任务中稀疏奖励下的信用分配问题,在 WebShop、ALFWorld 和 Deep Search 三个基准上显著超越 GRPO 和 DAPO。

InfiAgent: Self-Evolving Pyramid Agent Framework for Infinite Scenarios

提出 InfiAgent,一个基于 DAG 的金字塔式多智能体框架,通过 agent-as-a-tool 机制实现自动化的层级任务分解、双重审计质量保障、智能路由和自演化能力,在多个推理基准上比 ADAS 平均提升 9.9%。

Inherited Goal Drift: Contextual Pressure Can Undermine Agentic Goals

发现现代 LLM agents 虽然对直接对抗性压力具有鲁棒性(目标偏移为 0),但会从弱模型的上下文中"继承"目标偏移行为;更反直觉的是,指令层级遵循能力(system vs user prompt 优先级)与偏移抗性之间缺乏相关性——Gemini 不遵循 system prompt 但偏移抗性不差,Qwen3 遵循 system prompt 但仍被传染。

Judge Reliability Harness: Stress Testing the Reliability of LLM Judges

提出 Judge Reliability Harness(JRH),一个开源框架,通过 label flip、格式不变性、语义改写、冗余偏差、随机稳定性 等合成测试系统评估 LLM Judge 的可靠性,在四个基准(FORTRESS、HarmBench、Persuade、AgentHarm)上对四个 SOTA Judge 进行压力测试,发现没有任何一个 Judge 在所有场景下都可靠。

Judge's Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement

提出 Judge's Verdict Benchmark——两步评估框架,通过相关性过滤 + Cohen's Kappa 人类相似性测试,从 54 个 LLM 中识别 27 个 Tier 1 评委(23 人类相似型 + 4 超一致型),揭示相关性不足以评估 LLM 评委质量。

LiveNewsBench: Evaluating LLM Web Search Capabilities with Freshly Curated News

提出 LiveNewsBench,一个定期更新的、基于新鲜新闻事件自动生成 QA 对的基准,用于评估 LLM 代理式网页搜索能力,有效隔离了模型内部记忆与真实搜索能力。

LiveNewsBench: Evaluating LLM Web Search Capabilities with Freshly Curated News

提出 LiveNewsBench,一个自动从近期新闻生成的、定期更新的 benchmark,通过多跳、事实性问答评估 LLM 的 agentic web search 能力,有效分离模型内部知识与检索能力,性能范围从 11% 到 90%,展现出强区分力。

M2-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

提出 M2-Miner,首个基于 MCTS 的自动化移动 GUI 代理数据挖掘框架,通过 InferAgent/OrchestraAgent/JudgeAgent 三代理协作、意图回收策略和渐进式模型闭环训练,以 18 倍低于人工标注的成本生成 SOTA 质量的数据。

M²-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

提出 M²-Miner,首个基于 MCTS 的移动端 GUI agent 自动数据挖掘框架,通过 InferAgent/OrchestraAgent/JudgeAgent 三智能体协作将挖掘效率提升 64 倍,结合 intent recycling 策略丰富意图多样性,训练的 GUI agent 在多个 benchmark 上达到 SOTA。

MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains

提出 MC-Search,首个面向代理式多模态 RAG 的基准,包含 3,333 个高质量样本、5 种推理拓扑结构和步级标注的推理链,同时引入过程级评估指标和 Search-Align 对齐框架显著提升开源 MLLM 的搜索规划能力。

MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains

提出 MC-Search,首个面向 agentic 多模态 RAG 的 benchmark,包含 3,333 个高质量样本(平均 3.7 跳),覆盖 5 种推理拓扑结构,通过 HAVE 验证确保每步必要性,并引入 Search-Align 过程监督微调框架使开源模型的检索规划能力大幅提升(Qwen2.5-VL-7B F1 提升 +13.7)。

NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents

提出NewtonBench,一个包含12个物理领域324个任务的LLM科学法则发现基准,通过"反事实法则平移"生成可防止记忆化的新颖任务,要求智能体通过交互式实验探索发现隐藏的物理方程,发现GPT-5最佳(75.9%符号准确率)但在复杂系统中急剧退化(40.3%),且代码工具对强模型反而有负面效果。

OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety

提出 OpenAgentSafety,一个综合性 AI agent 安全评估框架,包含 350+ 可执行任务、真实工具集(浏览器/终端/文件系统/消息平台)、多轮多用户交互场景,揭示即使最先进的 LLM 在 49%-73% 的安全敏感任务中表现出不安全行为。

PerfGuard: A Performance-Aware Agent for Visual Content Generation

提出 PerfGuard,一个性能感知的 agent 框架用于视觉内容生成,通过多维性能评分矩阵替代文本描述来建模工具能力边界,结合自适应偏好更新和能力对齐规划优化,显著提升工具选择准确率(错误率从 77.8% 降至 14.2%)和视觉生成质量。

PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement

提出 PhyScensis,一个结合物理引擎的 LLM agent 框架,通过空间与物理谓词驱动的求解器生成高复杂度、物理准确的 3D 场景,在视觉质量、语义正确性和物理精度上显著超越先前方法,并成功用于机器人操作策略训练。

Reducing Belief Deviation In Reinforcement Learning For Active Reasoning

提出 T³(Truncating Belief-Trapped Trajectories),基于 POMDP 理论分析 LLM 智能体在多轮主动推理中的"信念陷阱"现象,通过检测信念偏离并截断无信息尾部轨迹来修正 RL 训练中的信用分配错误,在 5 个挑战性任务上获得最高 30 分的性能提升并节省 34% 的 token 开销。

RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning

提出 RefTool 框架基于外部参考资料(教材、知识片段)自动创建可执行 Python 工具,解决了现有工具创建方法依赖 LLM 内在知识在专业领域失败的问题,在因果推理、物理和化学任务上平均超过已有方法 12.3%。

REMem: Reasoning with Episodic Memory in Language Agents

提出 REMem,一个面向语言 agent 的情节记忆框架,通过混合记忆图(时间感知的 gist 节点 + 事实三元组节点)和工具增强的 agentic 推理,在情节回忆和情节推理任务上分别比 SOTA 提升 3.4% 和 13.4%。

Simuhome A Temporal- And Environment-Aware Benchmark For Smart Home Agents

SimuHome 是一个基于 Matter 协议的高保真智能家居仿真器和 600 集评估基准,支持环境变量动态变化和时间加速调度评估,揭示了工作流调度是当前 LLM 代理最持久的挑战。

SimuHome: A Temporal- and Environment-Aware Benchmark for Smart Home LLM Agents

提出 SimuHome,一个基于 Matter 协议的时间加速智能家居模拟器及 600 episode benchmark,首次模拟设备操作对环境变量的持续影响并评估工作流调度能力,发现工作流调度是当前 LLM agent(包括 GPT-5.1)最难突破的挑战。

Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents

提出 HPL 框架解决长时序 LLM Agent 中偏好学习的粒度不匹配问题,通过三级 DPO(轨迹级+步骤级+动作组级)和双层课程学习(子任务复杂度×样本难度),在 ALFWorld/WebShop/InterCode-SQL 上显著超越 ETO 和 IPR 等基线(平均 59.44 vs 55.43/55.49)。

SR-Scientist: Scientific Equation Discovery With Agentic AI

提出 SR-Scientist 框架,将 LLM 从简单的方程提议者提升为自主 AI 科学家,通过代码解释器工具进行数据分析和方程评估,在长时程交互中自主发现科学方程,并结合强化学习进一步提升能力。

The Controllability Trap: A Governance Framework for Military AI Agents

提出 Agentic Military AI Governance Framework (AMAGF),将人类对军事AI agent的控制从"有/无"的二元判断转变为以 Control Quality Score (CQS) 为核心的连续量化监控体系,涵盖预防-侦测-纠正三大支柱。

The Controllability Trap: A Governance Framework for Military AI Agents

提出 Agentic Military AI Governance Framework (AMAGF),一个围绕可测量的控制质量分数 (CQS) 构建的军事 AI 代理治理框架,通过预防-检测-纠正三个支柱应对六类代理治理失败。

The Limits of Long-Context Reasoning in Automated Bug Fixing

系统评估当前 LLM 在长上下文代码调试中的能力极限,发现 agentic 工作流的成功来自任务分解而非长上下文推理(成功轨迹仅消耗 20-30K token),64K token 单次补丁生成中性能急剧下降(GPT-5-nano 0%),揭示名义上下文长度与实际可用上下文能力之间的显著差距。

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

提出 Toolathlon,一个覆盖 32 个软件应用、604 个工具和 108 个任务的语言 Agent 基准,强调真实多样的环境状态和长程多步交互(平均约 20 轮工具调用),最强模型 Claude-4.5-Sonnet 仅达 38.6% 成功率。

ToolTree: Efficient LLM Agent Tool Planning via Dual-Feedback Monte Carlo Tree Search and Bidirectional Pruning

提出 ToolTree,一种基于 MCTS 的 LLM Agent 工具规划框架,通过执行前/后双阶段评估和双向剪枝机制,在固定计算预算下实现前瞻性工具选择,在 4 个 benchmark 上平均提升约 10%。

ToolWeaver: Weaving Collaborative Semantics for Scalable Tool Use in Large Language Models

提出ToolWeaver,通过协作感知向量量化将每个工具表示为层级离散编码序列(而非单一token),实现词表对数级扩展(47000+工具仅需~512个新token),在ToolBench上全面超越ToolGen基线,同时将语言模型困惑度退化从16.5倍降至4倍。

Toward a Dynamic Stackelberg Game-Theoretic Framework for Agentic AI Defense Against LLM Jailbreaking

将LLM越狱攻防建模为动态Stackelberg扩展式博弈,结合RRT (Rapidly-exploring Random Trees) 探索prompt空间,提出"Purple Agent"防御架构——以"Think Red to Act Blue"理念通过内部对抗模拟预判攻击路径并预防性封堵。

Towards Scalable Oversight via Partitioned Human Supervision

提出基于分区人类监督的可扩展监督框架:当任务超越单个专家能力时,利用领域专家提供的互补标签(排除错误选项)构造无偏准确率估计器,实现无需完整标注即可评估和训练 AI 系统。

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

提出 VideoMind,一个基于角色分工的视频语言Agent框架,通过 Planner-Grounder-Verifier-Answerer 四角色协作实现时序grounded视频推理,核心创新是 Chain-of-LoRA 机制——在统一基座模型上通过切换LoRA适配器实现角色无缝切换,2B模型即超越GPT-4o和Gemini-1.5-Pro。

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Understanding

VideoMind 提出一种基于 Chain-of-LoRA 机制的视频语言 Agent,通过 Planner、Grounder、Verifier、Answerer 四个角色的协同工作,在统一 LMM 骨干上实现高效的时序定位视频推理,2B 模型即超越 GPT-4o 和 Gemini-1.5-Pro。

Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents

受Bloom教育分类学启发,提出 Web-CogKnowledge Framework,将Web Agent能力分解为 Factual→Conceptual→Procedural 三层知识的渐进式学习,配合 Knowledge-driven CoT 推理框架训练得到 Web-CogReasoner,在Web-CogBench上以84.4%超越Claude Sonnet 4 (76.8%)和Gemini 2.5 Pro (80.4%)。

Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning in Web Agents

Web-CogReasoner 借鉴 Bloom 教育分类法,将 Web Agent 的能力分解为事实知识、概念知识和程序性知识三层体系,构建结构化的知识驱动 CoT 推理框架,在 Web 导航任务上显著超越现有方法。

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

WebArbiter 提出一种推理优先、原则引导的过程奖励模型 (WebPRM),将奖励建模形式化为文本生成任务,通过推理蒸馏+强化学习的两阶段训练,在 WebPRMBench 上以 7B 模型超越 GPT-5 达 9.1 个百分点。

ZeroDayBench: Evaluating LLM Agents on Unseen Zero-Day Vulnerabilities for Cyberdefense

提出首个评估 LLM Agent 发现并修补新型零日漏洞的 benchmark,通过将真实 CVE 移植到不同代码库创建 22 个新颖高危漏洞任务,在 5 个信息层级评估 Agent 能力,发现最强模型在 zero-day 级别仅 14.4% 通过率,说明自主漏洞发现仍是重大挑战。


🧩 多模态 VLM

A-TPT: Angular Diversity Calibration Properties for Test-Time Prompt Tuning of Vision-Language Models

提出 A-TPT 框架,通过最大化归一化文本特征在单位超球面上的最小成对角距离来促进角度多样性,解决测试时提示调优 (TPT) 中 VLM 预测过度自信导致的校准不良问题,在自然分布偏移和医学数据集上均优于现有 TPT 校准方法。

Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation

提出将 Tsallis 熵(SE 的广义形式)引入 VLM 的 Test-Time Adaptation,并进一步发展为自适应去偏 Tsallis 熵(ADTE),为每个类别定制去偏参数 \(q^l\),在不引入分布特定超参数的情况下比 Shannon 熵选择更可靠的高置信视图,在 ImageNet 及其 5 个变体和 10 个跨域 benchmark 上均超越 SOTA。

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in LVLMs

通过 erank(有效秩)和注意力熵的系统性实证分析,揭示了视觉 token 剪枝中注意力方法和多样性方法的互补特性——注意力方法抑制幻觉但覆盖有限,多样性方法覆盖全面但易引入幻觉——并据此提出基于图像复杂度自适应切换剪枝策略的 AgilePruner,在 9 个 benchmark 上表现稳健。

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

提出 AQuA,首个按模糊度细粒度分级(4 级)的视觉问答数据集(7.2K 样本),为每级定义最优回应策略(直接回答/推断/列举/请求澄清),发现 GPT-5 和 Gemini 在模糊 VQA 上都过度自信地直接回答,通过 SFT+GRPO 训练的 3B 模型反而能超越闭源大模型的策略适应能力。

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

提出 BioCAP,通过用 MLLM 生成 wiki 知识引导的合成描述性 caption(而非仅用物种标签)来训练生物学多模态基础模型,在 10 个物种分类 benchmark 上比 BioCLIP 平均提升 8.8%,在文本-图像检索任务上提升 21.3%。

Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

构建 Bongard-RWR+,一个包含 5400 个 Bongard 问题的 benchmark,使用 VLM 流水线(Pixtral-12B + Flux.1-dev)自动生成真实感图像来表示抽象概念,系统评估揭示 SOTA VLM 在辨别细粒度视觉概念(如轮廓、旋转、角度)时表现挣扎,准确率低至 19%。

Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting (WS-COC)

提出 WS-COC,首个基于 MLLM 的弱监督类无关目标计数框架,通过分而治之的对话微调(逐步缩小计数范围)、比较排序优化(学习图像间相对计数关系)和全局-局部计数增强三个策略,仅用图像级计数标注即可匹敌甚至超越全监督方法。

Breaking the Limits of Open-Weight CLIP: An Optimization Framework for Self-supervised Fine-tuning of CLIP

本文提出 TuneCLIP,一个自监督微调(SSFT)框架,通过两阶段设计——先恢复优化器统计量(OSR)消除冷启动偏差,再用带margin的铰链全局对比损失(HGCL)缓解假负样本过度惩罚——在不使用任何标签的条件下持续提升已有开源 CLIP 模型的通用性能,在 ImageNet 及变体上提升最高 +2.5%,在 DataComp 基准上提升 +1.2%。

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

提出 QIVD(Qualcomm Interactive Video Dataset),一个面对面实时问答 benchmark(2900 个视频+音频+时间戳标注),揭示现有 VLM 在实时情境理解上远落后人类(最佳模型 60% vs 人类 87%),主要瓶颈在指代消歧、回答时机判断和情境常识,微调可显著缩小差距。

Can Vision–Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

提出 AesEval-Bench,首个系统性评估 VLM 图形设计美学评估能力的 benchmark(4维度×12指标×3任务),发现现有 VLM(含推理增强型)在设计美学上表现有限,并通过 human-guided VLM labeling + indicator-grounded reasoning 构建训练数据,微调 7B 模型在精确定位任务上超过 GPT-5。

Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

针对 MoE 推理时因 token 分配不均导致的 Straggler Effect(最重负载专家决定整体延迟),提出 Capacity-Aware Token Drop(丢弃过载专家的低分 token)和 Expanded Drop(将溢出 token 重路由到本地低负载专家),在 Mixtral-8×7B 上实现 1.85× 加速且性能提升 0.2%。

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

提出 PRPO(Parallel Relative Policy Optimization),通过在奖励维度和数据类型两个层面做并行解耦优化,解决 GRPO 在多维奖励信号干扰和异构数据梯度冲突下的训练瓶颈;同时构建 MCDR-Bench,基于"错误唯一性原则"将主观生成评估转化为客观错误识别,实现图表深度研究能力的量化评估。

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

构建 CityLens——迄今最大规模的城市社会经济感知 benchmark(17 城市、6 大领域、11 个预测任务),评估 17 个 LVLM 在直接预测、归一化估计、特征回归三种范式下从卫星/街景图像推断社会经济指标的能力,发现通用 LVLM 在多数任务上仍不及领域特化的对比学习方法。

Closing the Modality Gap Aligns Group-Wise Semantics

证明 CLIP 中的 modality gap 对实例级任务(检索)无关紧要但严重损害群组级任务(聚类),并提出由 Align True Pairs loss + Centroid Uniformity loss 组成的新目标函数,在双模态和三模态设置中将 gap 几乎降为零,大幅提升聚类 V-Measure(+10-17 分),同时保持检索性能。

Contamination Detection for VLMs using Multi-Modal Semantic Perturbation

提出多模态语义扰动方法检测 VLM 数据污染:用 LLM 生成密集描述 + Flux ControlNet 在保持图像构图的同时改变答案相关语义元素,污染模型因记忆原始图像-文本对而在扰动版本上失败,首次系统验证现有 LLM 检测方法在 VLM 上不可靠。

Cross-Modal Redundancy and the Geometry of Vision-Language Embeddings

提出 Iso-Energy 假设(真正跨模态共享的概念在不同模态中应具有相同的平均激活能量),并设计 Aligned SAE 作为分析工具,揭示 VLM 嵌入空间中双模态原子承载跨模态对齐信号、单模态原子完全解释模态间隙的几何结构。

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

提出情感陈述判断(ESJ)任务和 INSETS 自动标注流水线,构建 MVEI benchmark,系统评估 MLLMs 的视觉情感感知能力,揭示当前模型在情感极性辨别和感知主观性理解上的显著不足。

Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification

提出 EUQ(Evidential Uncertainty Quantification),基于 Dempster-Shafer 证据理论将 LVLM 的认识不确定性分解为冲突(CF,内部矛盾)和无知(IG,信息缺失),单次前向传播即可检测幻觉、越狱、对抗攻击和 OOD 失败四类错误行为,AUROC 相对提升最高 10.5%。

Directional Embedding Smoothing for Robust Vision Language Models

将 RESTA(Randomized Embedding Smoothing and Token Aggregation)防御方法从 LLM 扩展到 VLM,发现方向性嵌入噪声(directional noise)在安全-实用性权衡上显著优于各向同性噪声(isotropic noise),可作为推理时的轻量防御层抵御多模态越狱攻击。

DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage

提出 DIVA-GRPO,通过动态评估问题难度、自适应生成不同难度的语义一致变体、并结合难度加权的局部-全局 advantage 估计,解决 GRPO 训练中的 reward sparsity 和 advantage vanishing 问题,在 7B 规模模型上实现 SOTA 多模态推理性能。

Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models

提出动态多模态激活引导(DMAS),通过构建基于语义的真实性引导向量数据库和视觉感知引导向量,在推理时动态选择最相关的引导向量对关键注意力头进行干预,无需训练即可显著缓解LVLM幻觉,在MME上提升94.66分,在CHAIR上降低20.2%幻觉率。

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Re-ranking

提出EDJE(高效判别式联合编码器),通过将视觉特征提取离线化并用轻量级注意力适配器压缩视觉Token,实现50k图文对/秒的高吞吐推理,同时在Flickr(零样本)和COCO(微调)检索上匹配现有联合编码器的性能,每张图仅需49kB存储。

Enhanced Continual Learning of Vision-Language Models with Model Fusion

提出Continual Decoupling-Unifying(ConDU)框架,首次将模型融合引入VLM持续学习,通过维护统一模型并结合任务触发器进行解耦-统一迭代操作,在MTIL基准上平均性能超SOTA 2%,同时增强了零样本能力。

Error Notebook-Guided, Training-Free Part Retrieval in 3D CAD Assemblies via Vision-Language Models

提出一种无训练的两阶段VLM框架,通过Error Notebook记录纠正后的推理轨迹并结合RAG进行推理时适应,在3D CAD装配体的规格驱动零件检索任务上,GPT-4o准确率从41.7%提升至65.1%(+23.4%),并通过语法约束验证器进一步提升4.5%。

Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts

提出IVPT(Interpretable Visual Prompt Tuning),通过跨层类别无关概念原型将抽象visual prompt关联到人类可理解的语义区域,在保持参数高效微调优势的同时,首次实现了visual prompt的可解释性,在CUB-200等细粒度分类基准上同时提升解释一致性(+8.4%)和准确率。

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

提出 FRIEDA 基准,系统评估大型视觉语言模型在多步骤、跨地图的制图推理能力,发现最强模型 Gemini-2.5-Pro 准确率仅 38.20%,远低于人类 84.87%。

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

提出 GAR(Grasp Any Region),通过 RoI-aligned feature replay 在保持全局上下文的同时提取高保真局部特征,实现精准的单区域描述、多区域交互建模和复合推理,1B 模型即超越 InternVL3-78B。

Grounding-IQA: Grounding Multimodal Language Models for Image Quality Assessment

将空间定位(referring + grounding)与图像质量评估结合,构建 GIQA-160K 数据集训练多模态 LLM 生成带有边界框的质量描述和空间 VQA,在细粒度质量感知上显著优于通用 MLLM。

GTR-Bench: Evaluating Geo-Temporal Reasoning in Vision-Language Models

提出 GTR-Bench,一个面向大规模摄像头网络中移动目标地理时空推理的新基准,评估发现最强模型 Gemini-2.5-Pro(34.9%)远落后于人类水平(78.61%),揭示了当前 VLM 在时空上下文利用失衡、时序预测能力弱、地图-视频对齐能力不足三大缺陷。

IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning

揭示了LVLM中RoPE位置编码隐式建立的视觉坐标系统(IVC tokens),提出一种训练免的、提示感知的视觉token剪枝策略,在保留IVC tokens和语义前景token的同时,削减约50%视觉token并维持≥99%原始性能。

KeepLoRA: Continual Learning with Residual Gradient Adaptation

通过分析预训练模型权重的SVD分解,发现通用知识编码在主子空间、领域特定知识编码在残差子空间,提出KeepLoRA方法将新任务的LoRA更新约束在残差子空间中,同时用梯度信息初始化以保持可塑性,在持续学习中达到前向稳定、后向稳定和可塑性的最优平衡。

Leveraging Data to Say No: Memory Augmented Plug-and-Play Selective Prediction

提出 MA-PaPSP 框架,通过外部检索数据集构建代理嵌入(k-NN 加权平均降低表示方差)+ 对比归一化评分(改善校准),无训练地为任意 VLM 提供可靠的"拒绝回答"能力,在图像描述、图文匹配、分类的选择性预测上全面优于 PaPSP 和 LLM-as-judge 基线。

LiveWeb-IE: A Benchmark For Online Web Information Extraction

提出首个面向在线网页的信息抽取(WIE)基准LiveWeb-IE,覆盖文本/图片/超链接等多类数据抽取,并设计Visual Grounding Scraper(VGS)框架,通过模拟人类认知过程——视觉扫描定位区域→精确定位元素→生成XPath——在动态网页上实现鲁棒的信息抽取。

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

提出 AIR(Adaptive vIsual Reinforcement)框架,通过原型距离的 token 精简 + 最优传输引导的 patch 选择性增强,在推理时无训练地减少 MLLM 幻觉(LLaVA-1.5-7B CHAIR_S: 22→18.4,POPE 准确率 +5.3%),同时保持多模态通用能力。

MATA: A Trainable Hierarchical Automaton System for Multi-Agent Visual Reasoning

提出MATA(Multi-Agent hierarchical Trainable Automaton),将多Agent视觉推理建模为层次有限状态自动机,顶层状态转移由可训练的hyper agent(基于LLM的状态控制器)学习,每个Agent内部使用规则化的子自动机,通过共享内存实现协作与竞争,在多个视觉推理基准上达到SOTA。

Multimodal Classification via Total Correlation Maximization

从信息论角度分析多模态分类中的模态竞争问题,提出 TCMax 损失函数通过最大化多模态特征与标签之间的总相关性(Total Correlation),同时兼顾联合学习、单模态学习和跨模态对齐三重目标,在多个音视频/图文分类基准上超越 SOTA。

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

构建首个评估多模态检索增强文化理解的基准 Ravenea,包含 1868 个实例和 11396 篇人工排序的 Wikipedia 文档,覆盖 8 个国家 11 个类别,评估 7 个多模态检索器和 17 个 VLM,发现文化感知的 RAG 可在 cVQA 上平均提升 6%、cIC 上提升 11%。

Revisit Visual Prompt Tuning: The Expressiveness of Prompt Experts

从混合专家(MoE)视角揭示 VPT 的局限性——prompt experts 是输入无关的常量函数表达力受限,提出 VAPT 通过 token-wise 投影器和共享特征投影器使 prompt experts 自适应输入,用更少参数实现更优性能,并给出了最优样本效率的理论保证。

Shuffle-R1: Efficient RL Framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

提出 Shuffle-R1 框架,通过 Pairwise Trajectory Sampling(选取高对比度轨迹对)和 Advantage-based Batch Shuffle(按优势值重分配训练批次),解决 RL 训练中的 Advantage Collapsing 和 Rollout Silencing 两大效率瓶颈,在 Geo3K 上比 baseline 提升 22%,MathVerse 上超越 GPT-4o。

SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?

提出SpatiaLab,一个包含1400个视觉QA对的真实场景空间推理基准,涵盖6大类30子类空间任务,支持多选和开放式双格式评估,揭示当前最强VLM(InternVL3.5-72B MCQ 54.93%)与人类(87.57%)之间存在巨大空间推理鸿沟,且开放式设置下差距更大。

ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding

提出 ThinkOmni 无训练框架,利用纯文本大推理模型(LRM)在解码时引导全模态 LLM(OLLM),通过 Stepwise Contrastive Scaling 自适应平衡感知与推理信号,MathVista 达 70.2%、MMAU 达 75.5%,匹配或超越 RFT 方法。

Visual Prompt-Agnostic Evolution

提出 Prompt-Agnostic Evolution (PAE),通过频域感知的任务初始化 (MPA) 和 Koopman-Lyapunov 动力系统 (KLD) 跨层关联 prompt,加速 VPT 收敛(平均 1.41× 加速)并在 25 个数据集上提升 1–3% 精度,且对各类 VPT 变体即插即用、无推理开销。

Visual Symbolic Mechanisms: Emergent Symbol Processing in Vision Language Models

发现 VLM 内部涌现了一套三阶段符号处理机制(ID retrieval → ID selection → feature retrieval),利用内容无关的空间位置索引(position IDs)来解决视觉绑定问题,并证明绑定错误可直接追溯到这些机制的失败。

Why Keep Your Doubts To Yourself Trading Visual Uncertainty

提出 Agora 框架,将多智能体 VLM 协调问题重新建模为去中心化的不确定性交易市场,通过将认知不确定性拆分为可交易资产(感知/语义/推理三维),并用基于盈利性驱动的交易协议和 Thompson Sampling 代理人实现成本感知的最优分配,在五个多模态基准上以超 3 倍成本节省获得至多 +8.5% 准确率提升。


📦 模型压缩

A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA

用信息论推导出 LLM 单次推理在多跳 QA 中的 Fano 式准确率上界,揭示当任务信息需求超过模型输出容量时准确率会"悬崖式"骤降的现象,并据此设计多轮推理框架 InfoQA,通过容量感知分解、依赖显式工作流和迭代查询压缩来突破单次推理瓶颈。

A Recovery Guarantee for Sparse Neural Networks

证明了 ReLU 神经网络的首个稀疏恢复保证:对两层标量输出网络,当训练数据为高斯随机采样时,基于凸重构的迭代硬阈值 (IHT) 算法可精确恢复稀疏网络权重,且内存需求仅与非零权重数线性增长。

A State-Transition Framework for Efficient LLM Reasoning

提出将 LLM 推理过程建模为状态转移过程的高效推理框架,用 Linear Attention 将历史推理步骤的信息压缩为状态矩阵,使注意力复杂度从 \(O(C^2)\) 降为 \(O(C)\)、KV cache 从 \(O(C)\) 降为 \(O(1)\),同时不缩短 CoT 序列,保持推理能力。额外的动量 momentum 策略缓解了噪声推理步导致的 overthinking 问题。

ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models

提出 ABBA 适配器,将权重更新参数化为两个独立可学习的低秩矩阵的 Hadamard 积 \(\Delta W = s(B_1A_1) \odot (B_2A_2)\),在相同参数预算下实现远高于 LoRA 的有效秩(\(r_1 \cdot r_2\) vs \(r\)),并通过 Khatri-Rao 重构实现与 LoRA 相当的内存效率,在算术和常识推理任务上显著超越现有 PEFT 方法。

ACPBench Hard: Unrestrained Reasoning about Action, Change, and Planning

构建 ACPBench Hard,一个基于 PDDL 规划的 8 类开放式生成推理 benchmark(1040 题),要求 LLM 生成可适用动作集、状态转移、可达性判断、里程碑识别、计划验证等,配备精确的符号验证器,测试发现即使最强的推理模型(o1)在多数任务上也低于 65%,暴露了 LLM 在规划推理方面的根本不足。

ActivationReasoning: Logical Reasoning in Latent Activation Spaces

提出 ActivationReasoning (AR) 框架,在 LLM 的潜在激活空间(通过 SAE 提取的特征)上嵌入显式逻辑推理,通过三阶段流程(发现概念表征→检测激活命题→逻辑规则推理)实现多跳推理、概念组合和安全控制,在 PrOntoQA 上 8B 模型达到 95%+ 准确率超越 GPT-4o。

Adaptive Width Neural Networks

提出AWN框架,通过变分推断在训练过程中自动学习每层的无上界宽度(神经元数量),利用单调递减的重要性函数对神经元施加软排序,实现宽度自适应于任务难度,并支持零成本的训练后截断压缩。

AMiD: Knowledge Distillation for LLMs with α-mixture Assistant Distribution

提出α-mixture assistant distribution及统一蒸馏框架AMiD,通过引入新设计变量α(控制教师-学生分布插值路径的几何形状)泛化了现有辅助分布方法(m-mixture和e-mixture为α=±1的特例),并证明了在任意散度和α下的最优性保证,在多个LLM蒸馏基准上取得SOTA性能。

AnyBCQ: Hardware Efficient Flexible Binary-Coded Quantization for Multi-Precision LLMs

提出AnyBCQ,基于二进制编码量化(BCQ)的多精度LLM量化框架,通过渐进式精度扩展(冻结已有bit-plane+添加残差bit-plane)支持单个模型在2-4bit之间动态切换,专设CUDA内核直接在bit-plane级别计算避免查表/转置开销,在2-bit下准确率大幅超越Any-Precision LLM(MMLU 35.3% vs 24.7%),吞吐量最高达到FP16的3.0x。

Beyond Linear Probes: Dynamic Safety Monitoring for Language Models

提出截断多项式分类器(TPC),通过对 LLM 激活空间中的多项式逐阶训练和截断评估,实现动态安全监控——在简单输入上用低阶(≈线性探针)快速决策,在困难输入上增加高阶项提供更强防护,在 WildGuardMix 和 BeaverTails 两个数据集上匹敌或超越 MLP 基线且具备内置可解释性。

BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation

提出 BiasScope,一个完全由 LLM 驱动的迭代式框架,能自动、大规模地发现 LLM-as-a-Judge 中的潜在未知偏差,并基于此构建了更具挑战性的 JudgeBench-Pro 基准,在其上即使强大的 LLM 评估器错误率也超过 50%。

Boomerang Distillation Enables Zero-Shot Model Size Interpolation

发现并系统研究"回旋蒸馏"现象:从大模型(teacher)蒸馏出小模型(student)后,将教师的层块重新插回学生模型,无需任何额外训练即可构建任意中间尺寸的模型,其性能在 student 和 teacher 之间平滑插值,匹配甚至超越同等尺寸的独立蒸馏模型。

Boosting Entropy with Bell Box Quantization

提出 Bell Box Quantization (BBQ),首个同时满足"信息论最优"(ITO) 和"计算高效"(compute-efficient) 的量化方法,核心洞察是学习的域无关性——量化器输出域不必与输入域相同,由此在输入域做 ITO 量化以最大化熵,在输出域映射到硬件可加速的数据类型,在 1-4 bit QAPT 场景下全面超越 QuEST 和 LSQ。

BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning

提出 BOTS 框架,将 LLM 强化微调中的在线任务选择建模为贝叶斯推断问题,通过融合显式证据(直接评估)和隐式证据(跨任务推断)来自适应估计任务难度,并利用 Thompson 采样平衡探索与利用,显著提升训练效率。

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

提出 COMI,一种基于边际信息增益(MIG = 查询相关性 - 语义冗余度)的粗到细自适应上下文压缩框架,在 32x 压缩率下 NaturalQuestions EM 比次优方法提高约 25 分,核心在于同时优化保留信息的相关性和多样性。

Compute-Optimal Quantization-Aware Training

本文通过 757 组 QAT 实验(86M-2.2B 参数,1-6 bit)发现:QAT 的最优训练比例随总计算量增长而增大(与先前认为固定 10% 的结论相反),并提出 tokens-per-parameter-byte 统计量和新的 loss scaling law 来精确预测最优 QAT 分配策略和最终损失。

Cross-Domain Lossy Compression via Rate- and Classification-Constrained Optimal Transport

将跨域有损压缩(编码器看退化源、解码器重建不同目标分布)形式化为带压缩率和分类损失双重约束的最优传输问题,推导出 Bernoulli/Gaussian 源的闭式 DRC(失真-率-分类)和 DRPC(失真-率-感知-分类)权衡曲线,在 KODAK 去噪上实现 PSNR 27.90 / SSIM 0.80 的竞争性能,审稿人给出 10/10 评分。

Cut Less, Fold More: Model Compression through the Lens of Projection Geometry

从投影几何视角统一分析结构化剪枝(轴对齐投影)与模型折叠(低秩聚类投影),证明在秩差 1 的条件下折叠重建误差严格更小,并在超过 1000 个 checkpoint 上验证折叠在中高压缩率下通常优于剪枝。

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

提出 Dataset Color Quantization(DCQ)框架,通过色度感知聚类、注意力引导调色板分配和纹理保持优化三个机制,在数据集层面减少颜色冗余实现存储压缩,同时保持训练效果。

Dataset Distillation as Pushforward Optimal Quantization

将解耦式数据集蒸馏重新形式化为最优量化问题,证明通过扩散先验的潜空间聚类+权重可收敛逼近真实数据分布,提出 DDOQ 算法在 ImageNet-1K 上以极低额外计算量超越 D4M 等基线。

DiaBlo: Diagonal Blocks Are Sufficient For Finetuning

提出 DiaBlo,仅微调权重矩阵的对角块作为参数高效微调方法:避免了 LoRA 低秩矩阵乘积的优化难题,zero 初始化即可稳定收敛,GPU 友好的 batched 矩阵乘法实现,理论证明在参数预算相同时表达力严格优于 LoRA,在常识推理/算术推理/代码生成/安全对齐上全面优于 LoRA 及其变体。

Discount Model Search for Quality Diversity Optimization in High-Dimensional Measure Spaces

提出 Discount Model Search (DMS),用神经网络拟合连续平滑的 discount 函数替代 CMA-MAE 中基于直方图的离散表示,解决高维 measure space 下 distortion 导致搜索停滞的问题,并首次实现以图像数据集直接定义 measure space(QDDM 范式)。

Distillation of Large Language Models via Concrete Score Matching

提出 Concrete Score Distillation (CSD),一种基于离散 score matching 的 LLM 知识蒸馏损失,通过匹配 student 和 teacher 在所有词表对之间的相对 logit 差异,同时克服了 softmax 平滑和直接 logit 蒸馏的解空间限制问题。

Draft-based Approximate Inference for LLMs

提出 Draft-based Approximate Inference 框架,利用小型 draft 模型的前瞻(lookahead)预测来更准确地估计 token/KV pair 重要性,包含 SpecKV(KV cache dropping)、SpecPC(prompt 压缩)和 SpecKV-PC(级联压缩)三种方法,在长上下文 benchmark 上一致优于现有基线。

Efficient Reasoning with Balanced Thinking

提出 ReBalance,一个无需训练的框架,通过基于置信度的动态隐状态导向(steering vector),同时缓解大推理模型(LRM)的过度思考和欠思考问题,实现推理效率与准确率的双重提升。

Einstein Fields: A Neural Perspective To Computational General Relativity

提出EinFields,首个将神经隐式表示应用于四维广义相对论模拟压缩的框架,通过将度量张量场编码为紧凑神经网络权重,实现4000倍存储压缩、5-7位数值精度,且通过自动微分获得的张量导数比有限差分精度高5个数量级。

Embedding-Based Context-Aware Reranker

提出 EBCAR,一个基于嵌入空间的轻量级重排序框架,通过文档 ID 嵌入和段落位置编码引入结构信息,结合共享全注意力 + 专用掩码注意力的混合机制实现跨段落推理,在 ConTEB 基准上以 126M 参数达到最优平均 nDCG@10,推理速度比 LLM 重排器快 150 倍以上。

Embedding Compression via Spherical Coordinates

提出一种基于球坐标变换的嵌入向量压缩方法,利用高维单位向量的球坐标角度集中在 \(\pi/2\) 附近的数学性质,使 IEEE 754 浮点数的指数位和高阶尾数位熵大幅降低,实现 1.5× 压缩率,比最优无损方法提升 25%,重建误差低于 float32 机器精度。

Energy-Regularized Sequential Model Editing on Hyperspheres

从超球面均匀性(Hyperspherical Energy)视角理解序列模型编辑中的性能退化,提出 SPHERE 方法:通过将编辑扰动投影到预训练权重主超球方向的正交补空间,实现稳定的大规模序列编辑,在 LLaMA3-8B 上平均超越最强基线 16.41%。

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

针对扩散大语言模型(dLLM)推理中大量 token 计算冗余的问题,提出无需训练的 Early-Skipping 加速框架 ES-dLLM,通过估计 token 重要性并在早期层跳过低重要性位置,在 LLaDA-8B 和 Dream-7B 上实现 5.6×–16.8× 加速且不损失生成质量。

Evolution and compression in LLMs: On the emergence of human-aligned categorization

通过 Information Bottleneck (IB) 框架和迭代上下文语言学习 (IICLL) 范式,证明 LLM 能够在未经 IB 目标训练的情况下,自发涌现出与人类语义分类系统高度对齐的、近最优压缩效率的类别结构。

Flow of Spans: Generalizing Language Models to Dynamic Span-Vocabulary via GFlowNets

提出 FoSS,首次将 GFlowNets 引入 span 级别语言模型,通过构建 DAG 结构的状态空间代替传统 token-by-token 的树形结构,实现更灵活多样的文本生成,MAUVE 分数最高提升 12.5%。

Flyprompt Brain-Inspired Random-Expanded Routing

受果蝇蘑菇体稀疏扩展和模块化集成的神经生物学启发,提出 FlyPrompt 框架用于通用持续学习(GCL),通过随机扩展解析路由器(REAR)实现非迭代的专家选择,结合多时间尺度 EMA 输出头的时序集成(TE²)提升专家能力,在 CIFAR-100/ImageNet-R/CUB-200 上分别取得最高 11.23%/12.43%/7.62% 的增益。

FlyPrompt: Brain-Inspired Random-Expanded Routing with Temporal-Ensemble Experts for General Continual Learning

受果蝇蘑菇体神经系统启发,提出 FlyPrompt 框架将通用持续学习(GCL)分解为专家路由和专家能力提升两个子问题,通过随机扩展解析路由器(REAR)和时序集成专家(TE2)分别解决,在 CIFAR-100/ImageNet-R/CUB-200 上分别提升 11.23%/12.43%/7.62%。

FreqKV: Key-Value Compression in Frequency Domain for Context Window Extension

提出 FreqKV,一种无参数、架构无关的 KV 缓存压缩方法,通过在频域中迭代压缩 KV 状态(保留低频丢弃高频),仅需 8K 长度的少量微调即可将 LLaMA-2-7B 的上下文窗口扩展至 256K,同时保持稳定的困惑度。

GuidedSampling: Steering LLMs Towards Diverse Candidate Solutions at Inference-Time

提出 GuidedSampling 推理算法,将重复采样(RS)的隐式探索和生成过程显式解耦为两阶段:先迭代生成多样化的解题概念/定理,再基于各概念分别生成候选解。在 pass@50 上平均提升约 21.6%,微调后 pass@5 提升约 9.7%。

Information Shapes Koopman Representation

PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery

提出PASER,一种针对剪枝LLM恢复的后训练数据选择方法,通过流形学习+谱聚类识别能力相关指令集,按能力退化程度自适应分配数据预算,仅用4%-20%原始数据即可显著超越全量数据恢复效果。

Scalable Multi-Task Low-Rank Model Adaptation

系统分析多任务 LoRA 在任务数量增大时崩溃的根因(均匀正则化破坏共享知识 + 组件级 LoRA 放大梯度冲突),提出 mtLoRA:谱感知正则化 + 块级适配 + 细粒度路由,在 15-25 个任务上平均超越 SOTA 2.3%,同时减少 47% 参数和 24% 训练时间。

SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs

本文系统性地重新审视了领域特定SFT对LLM通用能力的影响,发现使用较小学习率即可大幅缓解通用能力退化,并提出Token-Adaptive Loss Reweighting (TALR)方法通过自适应下调低概率token的损失权重进一步优化领域适配与通用能力之间的权衡。

Stress-Testing Alignment Audits With Prompt-Level Strategic Deception

构建自动 prompt 级红队流水线,对"保守秘密"的模型有机体进行压力测试,发现能诱导黑盒和白盒对齐审计方法产生高置信错误猜测的欺骗策略,首次记录了基于激活的策略性欺骗现象。


🏥 医学图像

Adaptive Domain Shift in Diffusion Models for Cross-Modality Image Translation

提出CDTSDE框架,在扩散模型的逆向SDE中嵌入可学习的空间自适应域混合场 \(\Lambda_t\),使跨模态翻译路径沿低能量流形前进,在MRI模态转换、SAR→光学、工业缺陷语义映射任务上以更少去噪步数实现更高保真度。

Adaptive Test-Time Training for Predicting Need for Invasive Mechanical Ventilation in Multi-Center Cohorts

提出AdaTTT框架,通过动态特征感知self-supervised学习(自适应掩码策略)和原型引导的部分最优传输对齐,在ICU多中心EHR数据上实现鲁棒的测试时适应,用于提前24小时预测有创机械通气需求。

AFD-INSTRUCTION: A Comprehensive Antibody Instruction Dataset with Functional Annotations for LLM-Based Understanding and Design

构建了首个大规模抗体功能注释指令数据集AFD-Instruction(430K+条目),通过多智能体文献抽取pipeline对齐抗体序列与自然语言功能描述,用于指令微调通用LLM使其掌握抗体理解和功能导向设计能力,在5类分类任务上平均准确率提升20+点。

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

从因果推断视角重新审视Q函数估计问题,揭示传统Q回归和FQE是具有插入偏差的plug-in学习器,提出DRQQ-learner——一种双重鲁棒、Neyman正交、准oracle高效的Q函数估计器,通过推导有效影响函数构建去偏两阶段损失函数,在Taxi和Frozen Lake环境中验证了其优越性。

AntigenLM: Structure-Aware DNA Language Modeling for Influenza

AntigenLM 是一个保留基因组功能单元完整性的 GPT-2 风格 DNA 语言模型,通过在流感病毒全基因组上预训练并微调,能够自回归预测未来流行毒株的抗原序列,在氨基酸错配率上显著优于进化模型 beth-1 和通用基因组模型。

ATPO: Adaptive Tree Policy Optimization for Multi-Turn Medical Dialogue

提出 ATPO(自适应树策略优化)算法,将多轮医疗对话建模为层级马尔可夫决策过程(H-MDP),通过不确定性感知的自适应树扩展机制动态分配rollout预算,结合Bellman误差和动作值方差的复合不确定性度量来引导探索,在三个医学对话基准上以Qwen3-8B超越GPT-4o。

Augmenting Representations With Scientific Papers

提出首个将 X 射线光谱与科学文献通过对比学习对齐的多模态基础模型框架,在共享潜在空间中实现 20% Recall@1% 的跨模态检索,物理参数估计提升 16–18%,同时发现候选脉动超亮 X 射线源等罕见天体。

Benchmarking ECG FMs: A Reality Check Across Clinical Tasks

对8个ECG基础模型在12个数据集、26个临床任务上进行"现实检验"式全面基准评测,发现紧凑的结构化状态空间模型(SSM)ECG-CPC在7个任务类别中的5个上超越了大规模Transformer,证明架构设计比模型规模更重要。

Boosting Medical Visual Understanding From Multi-Granular Language Learning

提出 Multi-Granular Language Learning (MGLL),一个即插即用的对比学习框架,通过 soft CLIP loss、point-wise loss 和 smooth KL 散度联合优化,实现医学图像与多标签多粒度文本描述的对齐,在眼底和 X 光数据集上全面超越 SOTA 方法,并可作为视觉编码器嵌入多模态大语言模型提升诊断准确率最高达 34.1%。

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

提出 Brain-IT 框架,通过脑启发式的 Brain Interaction Transformer (BIT) 将功能相似的脑体素聚类为跨被试共享的 Brain Token,并从中预测局部化的语义和结构图像特征,实现从 fMRI 到图像的高保真重建,仅用 1 小时数据即达到先前方法 40 小时的性能。

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

提出 Brain-Semantoks,一种基于语义分词器和自蒸馏目标的 fMRI 基础模型,将大脑功能网络聚合为鲁棒的语义 token,并通过跨时间视角的一致性学习抽象的脑动态表征,在线性探测设置下即可达到 SOTA 性能。

Bridging Explainability and Embeddings: BEE Aware of Spuriousness

提出BEE框架,通过分析微调如何扰动预训练表征的权重空间几何结构,直接从分类器学到的权重中识别和命名虚假相关性(spurious correlations),无需反例样本即可发现隐藏的数据偏差,在ImageNet-1k上发现可导致准确率下降高达95%的虚假关联。

Can SAEs Reveal and Mitigate Racial Biases of LLMs in Healthcare?

研究稀疏自编码器(SAE)能否揭示和缓解 LLM 在医疗场景中的种族偏见:发现 SAE 能识别出与种族相关的有害联想(如黑人与暴力),但在复杂临床任务中缓解偏见的效果有限(FLDD < 3%),远不如简单的提示策略(FLDD 8-15%)。

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

提出 CARE Agent 框架,将医学 VQA 分解为实体提议、指称分割和证据引导推理三个专家模块,通过 GPT-5 作为动态协调器,在医学 VQA 基准上以 77.54% 准确率超越 32B 模型。

Causal Interpretation of Neural Network Computations with Contribution Decomposition

提出 CODEC(Contribution Decomposition),用 Integrated Gradients 计算隐藏层神经元对输出的贡献(而非仅分析激活),再用 Sparse Autoencoder 将贡献分解为稀疏模式(modes),实现比激活分析更强的因果可解释性和网络控制能力,并成功应用于 ResNet-50 和视网膜生物神经网络模型。

Characterizing Human Semantic Navigation in Concept Production as Trajectories in Embedding Space

提出将人类概念产生过程建模为 Transformer 嵌入空间中的累积轨迹,定义 5 个运动学指标(距离、速度、加速度、熵、质心距离),在 4 个数据集(3 种语言、神经退行性疾病/脏话流畅性/属性列举)上成功区分临床组和概念类别,且不同嵌入模型产生高度一致的结果。

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

提出 COMPASS 框架,在分割模型的中间特征空间而非输出空间做共形预测,通过沿 Jacobian 确定的低维敏感子空间扰动特征来构建预测区间,在多个医学分割数据集上以更紧凑的区间达到目标覆盖率。

ConfHit: Conformal Generative Design with Oracle Free Guarantees

提出 ConfHit,一个模型无关的保理推断框架,通过密度比加权的共形 p 值和嵌套检验策略,在无需实验验证(oracle-free)和分布偏移条件下,为生成模型(药物发现等)提供有限样本统计保证——生成的候选集以 \(1-\alpha\) 概率包含至少一个 hit。

Controlling Repetition in Protein Language Models

首次系统性研究蛋白质语言模型(PLM)中的病态重复问题,提出统一的重复度量指标 \(R(x)\) 和效用指标 \(U(x)\),并设计 UCCS(Utility-Controlled Contrastive Steering)方法,通过在隐层注入与重复解耦的引导向量,在不重训模型的前提下有效抑制重复同时保持折叠可信度。

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

提出 CryoNet.Refine,首个基于 AI 的冷冻电镜 (cryo-EM) 原子模型精修框架,利用单步扩散模型结合可微密度损失和几何约束损失,在 120 个复合物基准上全面超越 Phenix.real_space_refine(\(\text{CC}_{\text{mask}}\) 0.59 vs 0.54,Ramachandran favored 98.92% vs 96.39%)。

Decentralized Attention Fails Centralized Signals: Rethinking Transformers for Medical Time Series

提出 TeCh 框架,核心是用 CoTAR(Core Token Aggregation-Redistribution)模块替代 Transformer 中的标准注意力来建模医学时间序列的通道依赖——通过引入全局"核心 token"充当代理,先聚合所有通道信息再重分配回每个通道,复杂度从 \(O(n^2)\) 降至 \(O(n)\),在 APAVA 数据集上精度 86.86%(超 Medformer 12.13%),内存仅 33%、推理时间仅 20%。

Deep Hierarchical Learning with Nested Subspace Networks for Large Language Models

提出嵌套子空间网络(NSN),通过低秩分解使线性层形成严格嵌套的子空间层次,配合不确定性感知多秩训练,使单个模型在测试时可即时调节计算量与性能的权衡(50% FLOPs 减少仅损失 5% 精度),且可后验应用于预训练 LLM。

DISCO: Densely-overlapping Cell Instance Segmentation via Adjacency-aware Collaborative Coloring

提出基于图着色理论的密集重叠细胞实例分割框架 DISCO,通过"显式标记冲突+隐式消歧邻接约束"的分治策略,在高密度病理图像上 PQ 提升 7.08%。

Discrete Diffusion Trajectory Alignment via Stepwise Decomposition

提出 SDPO(Stepwise Decomposition Preference Optimization),将离散扩散模型的轨迹对齐问题分解为逐步后验对齐子问题,避免了在整条去噪链上反传梯度的困难,在 DNA 序列设计、蛋白质逆折叠和语言建模三个任务上均显著超越现有方法。

DistMLIP: A Distributed Inference Platform for Machine Learning Interatomic Potentials

提出 DistMLIP 分布式推理平台,基于零冗余图级并行化策略(graph-level parallelization),解决现有机器学习原子间势(MLIP)缺乏多 GPU 支持的问题,在 8 GPU 上实现接近百万原子的模拟,比空间分区方法快达 8 倍且能模拟 3.4 倍更大的系统。

Distributional Consistency Loss: Beyond Pointwise Data Terms in Inverse Problems

提出分布一致性(DC)损失,用分布级别的校准替代传统逐点数据保真项(如MSE/NLL),避免对噪声的过拟合,在DIP去噪和PET图像重建中显著提升性能且无需早停。

DM4CT: Benchmarking Diffusion Models for Computed Tomography Reconstruction

提出DM4CT——首个系统性的CT重建扩散模型基准,涵盖十种扩散方法和七种基线方法,在医疗、工业和同步辐射三类数据集上进行全面评估,揭示了扩散模型在CT重建中的优势与局限。

DriftLite: Lightweight Drift Control for Inference-Time Scaling of Diffusion Models

DriftLite 提出在 Fokker-Planck 方程中利用漂移-势函数的自由度,通过轻量级线性系统求解最优控制漂移来主动稳定粒子权重,以最小代价解决 Sequential Monte Carlo 中的权重退化问题,在高斯混合、分子系统和蛋白质-配体共折叠任务上大幅超越 Guidance-SMC 基线。

Dual Distillation for Few-Shot Anomaly Detection

提出双蒸馏框架 D24FAD,结合 query 图像上的教师-学生蒸馏(TSD)和 support 图像上的学生自蒸馏(SSD),辅以学习权重机制(L2W)自适应评估 support 重要性,在 APTOS 眼底数据集上仅用 2-shot 达到 100% AUROC。

EMR-AGENT: Automating Cohort and Feature Extraction from EMR Databases

提出EMR-AGENT,首个基于LLM Agent的电子病历(EMR)自动化预处理框架,通过动态SQL交互替代手工规则编写,实现跨数据库的队列选择、特征提取和代码映射,在MIMIC-III/eICU/SICdb上表现优异并具强泛化能力。

Exo-Plore: Exploring Exoskeleton Control Space through Human-Aligned Simulation

提出 Exo-plore 框架,通过神经力学仿真与深度强化学习相结合,无需真人实验即可优化髋关节外骨骼控制参数,并能推广到病理步态场景。

ExpGuard: LLM Content Moderation in Specialized Domains

提出面向金融、医疗、法律等专业领域的安全护栏模型 ExpGuard 及配套数据集 ExpGuardMix(58,928 样本),在领域特定测试集上 prompt 分类 F1 超 WildGuard 8.9%、response 分类超 15.3%,同时在通用安全基准上保持 SOTA 水平。

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

挑战基因表达预测中"越长越好"的长序列建模范式,发现当前 SSM 模型本质上只利用近端信息;进而识别出背景染色质信号(DNase-seq/Hi-C)作为混杂变量引入虚假关联,提出 Prism 框架通过后门调整去混杂,仅用 2k 短序列即超越 200k 长序列的 SOTA。

Intrinsic Lorentz Neural Network

提出完全内禀(fully intrinsic)的双曲神经网络 ILNN,所有运算均在 Lorentz 模型内完成,消除了现有方法中混合欧几里得操作的几何不一致性,在图像分类、基因组学和图分类上取得 SOTA。

Knowledgeable Language Models as Black-Box Optimizers for Personalized Medicine

提出 LEON(LLM-based Entropy-guided Optimization with kNowledgeable priors),一种数学原理严格的方法,将个性化医疗治疗方案设计建模为条件黑箱优化问题,通过熵约束和对抗性源批评模型引导 LLM 在不微调的情况下作为零样本优化器提出个性化治疗计划。

MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science

构建了首个统一的生物医学数据科学 Agent 训练环境 MedAgentGym,包含 72,413 个任务实例(12 个真实场景、129 个类别),配备可执行沙盒和可验证 ground truth,基准评估 29 个 LLM,并通过离线/在线 RL 训练出 Med-Copilot(分别 +43%/+45% 提升),达到与 GPT-4o 竞争的性能同时保持成本效益和隐私保护。

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

提出 Resp-Agent 闭环多智能体框架,通过主动对抗课程规划器(Thinker-A2CA)协调可控呼吸音生成器与多模态诊断器,在 229k 规模基准上实现生成↔诊断协同设计,大幅提升长尾类别诊断性能。

Scalable Spatio-Temporal SE(3) Diffusion for Long-Horizon Protein Dynamics

提出 STAR-MD,一个 SE(3) 等变的因果扩散 Transformer,通过联合时空注意力和上下文噪声扰动实现微秒级蛋白质动力学轨迹生成,在 ATLAS 基准上所有指标达到 SOTA,且能稳定外推到训练中未见的微秒时间尺度。

Scaling with Collapse: Efficient and Predictable Training of LLM Families

证明 LLM 家族的训练损失曲线在优化超参数与数据预算匹配时会“崩塞”到同一条通用曲线上,并利用这一现象实现两个实用应用:(1) 偏离崩塞作为训练病理的早期诊断信号,(2) 崩塞曲线的可预测性实现大规模超参调优的早停。


⚖️ 对齐 / RLHF

A2D: Any-Order, Any-Step Safety Alignment for Diffusion Language Models

提出 A2D,一种针对扩散语言模型(dLLM)的 token 级安全对齐方法,通过训练模型在遇到有害内容的 mask 位置输出 [EOS] token 来实现任意解码顺序、任意解码步的安全防御,将 DIJA 模板攻击成功率从 80%+ 降到近零(1.3%/0.0%),并支持早期拒绝实现 19.3x 加速。

Align Once, Benefit Multilingually: Enforcing Multilingual Consistency for LLM Safety Alignment

提出 Multi-Lingual Consistency (MLC) 辅助损失,通过 SVD 操控多语言表示矩阵的奇异值使其趋向秩-1(即多语言表示共线),仅需多语言 prompt 翻译(无需目标语言的 response),即可将一种语言的安全对齐效果一致性地迁移到所有语言。

Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization

提出MetaAPO框架,用一个轻量级meta-learner(两层MLP)动态估计offline/online数据的对齐差距,既指导"在哪些prompt上做在线采样"(解决分布不匹配),又在训练时自适应加权offline/online数据(优化学习效率),在AlpacaEval 2/Arena-Hard/MT-Bench上超越DPO/Online DPO等基线,同时减少42%在线标注成本。

AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint

提出 AlphaSteer,通过学习一个受零空间约束的变换矩阵来动态构造 steering 向量,对良性输入产生近零向量(保持效用),对恶意输入重建拒绝方向向量(增强安全),在理论上保证了安全与效用的解耦。

Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling

提出 RCPO 框架,将 LLM 对齐从成对偏好扩展到排名选择(ranked choice)建模,通过 MLE 统一了效用模型(MNL)和排名模型(Mallows-RMJ),在 single-best 和 top-k 反馈格式下都优于 DPO 及其变体。

Beyond RLHF and NLHF: Population-Proportional Alignment under an Axiomatic Framework

提出基于社会选择理论公理的偏好学习框架,从成对比较数据中推断评估者人群分布的可行集,构造满足人群比例对齐(PPA)和人群有界可操纵性(PBM)公理的策略。

CAGE: A Framework for Culturally Adaptive Red-Teaming Benchmark Generation

提出 CAGE 框架,通过 Semantic Mold(语义模具)将红队攻击 prompt 的对抗结构与文化内容解耦,能系统性地将英语红队基准适配到不同文化语境中,生成的文化扎根 prompt 比直接翻译的 ASR 显著更高。

Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

理论证明奖励过优化主要源于高奖励尾部区域的奖励模型错误规范,提出基于 rubric 的奖励建模方法:利用 off-policy 数据(强模型生成的优秀回复)构造评分细则,通过渐进式区分"优秀 vs 更优秀"来精细化 rubric,有效缓解奖励过优化。

Displacement-Resistant Extensions of DPO with Nonconvex \(f\)-Divergences

发现 f-DPO 的可解性不需要 f 凸(仅需 \(\lim_{t\to 0^+} f'(t) = -\infty\)),进一步证明 \(\arg\min f(t) \geq 1\) 是抵抗概率位移的必要条件,由此提出 SquaredPO(\(f(t) = \frac{1}{2}(\log t)^2\),非凸),在保持性能的同时显著缓解 winner 概率下降问题。

Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation

提出 Dual-IPO 框架,通过在奖励模型和视频生成模型之间进行多轮双向迭代优化,无需大量人工标注即可持续提升文本到视频生成的质量和人类偏好对齐,甚至让 2B 模型超越 5B 模型。

From Utterance to Vividity: Training Expressive Subtitle Translation LLM via Adaptive Local Preference Optimization

提出ALPO(自适应局部偏好优化),通过segment-wise采样和细粒度对齐损失训练表达力强的字幕翻译LLM,解决传统DPO在多段局部偏好对齐中梯度稀释的问题。

General Exploratory Bonus for Optimistic Exploration in RLHF

理论证明现有 RLHF 探索奖励(exploratory bonus)在 KL 和 α-散度正则化下实际上会引导策略向参考模型的高概率区域靠拢(与乐观原则相悖),提出 General Exploratory Bonus (GEB) 框架——通过参考模型依赖的奖励调节来抵消散度正则化的保守偏差,可证明满足乐观原则。

Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

首次在实际规模 LLM(7B MoE)的近单遍预训练中验证 grokking 现象——不同数据组异步记忆、延迟泛化;通过分析 MoE routing pathway 的演化(从 instance-specific 到 structured/shared),提出两个零成本指标来监控泛化进度,无需 instruction tuning 和 benchmark 评估。

Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

通过 first-principles 推导揭示 group-relative REINFORCE(如 GRPO)天然具有 off-policy 解释,无需假设数据采样分布。发现 clipping 而非 importance sampling 是稳定性的关键,提出 REC 系列算法统一解释 GRPO、Kimi OPMD 和 Meta AsymRE。

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

提出 GuardAlign,一个无需训练的多模态大模型推理时安全防御框架:用最优传输(OT)精确检测图像中的不安全区域并遮蔽,再通过跨模态注意力校准保持安全前缀的影响力不衰减,在6个LVLM上将不安全响应率降低最多39%,同时保持甚至提升通用能力。

Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks

揭示了 stepwise group-based RL(如 GRPO/GiGPO)中的「历史上下文不一致」问题——同一 group 内的 step 可能具有不同历史上下文导致 advantage 估计偏差,提出 HGPO 通过层次化分组和自适应加权实现低偏差、平衡方差的 advantage 估计,在 ALFWorld 和 WebShop 上以极低额外开销(<0.001%)取得显著提升。

Is On-Policy Data always the Best Choice for Direct Preference Optimization-based LM Alignment?

挑战"on-policy数据总是更好"的共识:发现对齐过程分为偏好注入(需高多样性off-policy数据)和偏好微调(需高质量on-policy数据)两个阶段,不同模型/阶段对数据类型的最优选择不同。提出仅3.2%计算开销的边界判定算法,在5个模型×55个配置上验证有效。

Learning More with Less: A Dynamic Dual-Level Down-Sampling Framework for Efficient Policy Optimization

提出D3S(Dynamic Dual-Level Down-Sampling)框架,在sample层最大化advantage方差、在token层优先选取高熵+高advantage的token,配合动态调度策略,用不到20% token实现更快收敛和更优性能。

Learning Ordinal Probabilistic Reward from Preferences (OPRM)

提出序数概率奖励模型(OPRM),将响应质量离散化为1-9序数等级并学习完整概率分布,结合区域洪泛调优(RgFT)实现数据高效训练。在RewardBench达89.3%,比现有RM提升2.9%-7.4%,同时提供不确定性估计和标注分歧检测。

Learning to Reason without External Rewards

提出 Intuitor,一种用模型自身置信度(self-certainty,即输出分布与均匀分布的 KL 散度)替代外部可验证奖励的 RLIF 方法,在数学推理上匹配 GRPO 性能,同时在代码生成等域外任务上展现更好的泛化能力。

Mitigating Mismatch within Reference-based Preference Optimization

揭示 DPO 的"过早满足"问题——当 reference 策略对 chosen 的概率低于 rejected 时(~45% pairs),DPO 的梯度被 reference 的悲观信号不必要地衰减(即使策略仍然错误即 \(\Delta_\theta < 0\));提出 HyPO(一行代码修改:\(\max(0, \Delta_{ref})\) 裁剪 reference margin),在 AlpacaEval 2.0 上相对 DPO 提升 41.2%。

Mitigating the Safety Alignment Tax with Null-Space Constrained Policy Optimization

提出 NSPO,将安全对齐的策略梯度投影到通用任务表征的零空间中,从几何层面保证安全优化不损害通用能力,仅用 40% 安全数据即在 7 个安全 benchmark 上达到 SOTA,同时在数学/代码/指令遵循上几乎无性能损失。

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

系统研究 MoE 语言模型的稀疏度如何不同地影响记忆性任务和推理性任务:记忆任务偏好更高稀疏度(更多参数),而推理任务在 TPP≈20 附近达到最优,且该趋势在 GRPO 后训练和测试时计算增加后仍然不变。

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

提出"先回答后检查"(Answer-Then-Check)策略:模型先在思维链中生成意图答案摘要,再依据安全策略进行安全分析,最后决定输出或拒绝。构建80K ReSA数据集训练后,在7种越狱攻击上防御率达到99.3%(RL版本),仅500样本即可达全数据集效果。

PURGE: Reinforcement Unlearning via Group Relative Policy Optimization

PURGE 将 LLM 遗忘(unlearning)重新定义为可验证的 RL 任务,使用 GRPO 框架 + 内在奖励信号(惩罚提及禁止概念)来实现安全一致的知识删除,token 消耗比 SOTA 低 46 倍,同时提升流畅度 +5.48% 和对抗鲁棒性 +12.02%。

SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety

重新审视安全约束 RLHF 目标并证明其存在闭式最优策略,据此推导出等价的可处理目标 SafeDPO,仅需在标准 DPO 上加入安全感知数据变换和安全 margin 项(1 个额外超参数),无需奖励/代价模型,在 PKU-SafeRLHF-30K 上实现 96.87% 无害率且保持竞争力的有用性,训练速度比 SafeRLHF 快 25×。

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

提出Human-AI协同的两阶段偏好数据策展流程:第一阶段人工验证+错误驱动检索+偏好引导LLM标注迭代8轮积累1M对,第二阶段一致性过滤扩展到26M对。训练的Skywork-Reward-V2 8B模型在RewardBench达97.8%,在7个基准上平均88.6%超越所有开源70B模型。

Superficial Safety Alignment Hypothesis

提出"浅层安全对齐假说"(SSAH):安全对齐本质上是教模型做一个隐式的二分类任务(执行还是拒绝),只需约1.3%的神经元即可建立安全护栏;冻结这些安全关键单元可在微调时保持安全性,利用冗余单元作为"对齐预算"可消除对齐税。

Swap-guided Preference Learning for Personalized RLHF (SPL)

解决变分偏好学习(VPL)中的后验崩坏问题:提出SPL,通过swap引导基础正则化(强制潜变量编码用户偏好而非被忽略)+Preferential-IAF分解swap可逆/不可逆信号+自适应潜变量调节。在Llama-3.1-8B上达63.71%准确率+97.10%活跃单元,而VPL崩坏到57.14%+0%。

Token-Importance Guided Direct Preference Optimization (TI-DPO)

提出TI-DPO,通过梯度归因+高斯先验的混合权重机制精确量化每个token对偏好的贡献,结合三元组损失在连续语义空间引导优化,在6个基准上平均62.3分达到SOTA,同时具备可解释的token级控制能力。

Toward Universal and Transferable Jailbreak Attacks on Vision-Language Models (UltraBreak)

提出 UltraBreak,通过语义对抗目标(用cosine相似度替代交叉熵优化出平滑loss景观)+ 输入空间约束(随机变换+TV正则化产生变换不变特征),训练单张通用对抗图像即可跨6+个VLM架构和商业模型实现越狱,黑盒平均ASR达71%(SafeBench),远超此前方法。

Towards Understanding Valuable Preference Data for LLM Alignment

挑战“数据质量是固有属性”的假设:发现偏好数据价值是模型相关的——对一个模型有益的数据可能伤害另一个。提出截断影响函数(TIF)识别高价值数据,及高效的LossDiff-IRM代理,仅用50-64%数据即提升WinRate 13.58%。

Training Large Language Models To Reason In Parallel With Global Forking Tokens

提出 Set Supervised Fine-Tuning (SSFT),通过二分图匹配将全局分叉令牌 (global forking tokens) 与多样推理轨迹对齐,使 LLM 能从单个控制令牌全局引导不同推理模式,在数学推理和代码生成任务上显著优于标准 SFT 和 GRPO。

Training Large Language Models to Reason in Parallel with Global Forking Tokens

提出 Set Supervised Fine-Tuning (SSFT),通过引入全局分叉 token 和基于二部匹配的集合损失,训练 LLM 从单个控制 token 触发多样且正确的推理模式,在 Pass@1 和 Cons@k 上均超越标准 SFT+GRPO。

Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs

提出Uni-DPO,通过质量感知加权(高分差偏好对优先)+性能感知加权(focal loss聚焦欠拟合样本)+校准NLL损失三个组件统一动态调整DPO偏好对权重,在文本理解和数学推理基准上一致超越DPO/SimPO,Gemma-2-9B在Arena-Hard达67.1%超过Claude 3 Opus(60.4%)。

Unifying Stable Optimization and Reference Regularization in RLHF (DAR)

提出DAR(Dual-regularized Advantage Regression):发现标准RLHF中参考模型正则化(防reward hacking)和策略稳定约束(防崩溃)会逐步冲突导致优化空间过度受限,通过双KL目标在对数空间插值参考策略+回归变换消除策略比率不稳定性,在直接AI对齐和标准RLHF设置中达到92.42%平均胜率,超GRPO 7.27%。

Why DPO is a Misspecified Estimator and How to Fix It

从信息几何角度证明 DPO 在参数化(非 tabular)策略类下本质上是一个误指定的统计估计问题——DPO 将真实奖励函数 KL 投影到隐式奖励流形上,当奖励不可实现时会导致偏好反转和奖励下降——并提出 AuxDPO 通过引入零空间辅助变量来修复此问题。


🧊 3D 视觉

3DGEER: 3D Gaussian Rendering Made Exact and Efficient for Generic Cameras

提出 3DGEER 框架,通过推导沿光线积分高斯密度的闭式解、设计粒子包围截锥体 (PBF) 进行精确高效的光线-粒子关联、以及引入双极等角投影 (BEAP) 统一宽视场相机表示,在任意相机模型下实现了几何精确且实时高效的 3D 高斯渲染,在鱼眼和针孔数据集上全面超越现有方法。

A Genetic Algorithm for Navigating Synthesizable Molecular Spaces

提出 SynGA,一种直接在合成路线(合成树)上操作的遗传算法,通过自定义的交叉和变异算子将搜索严格约束在可合成分子空间内,结合 ML 驱动的构建块过滤实现 SOTA 的可合成类似物搜索和属性优化性能。

A Step to Decouple Optimization in 3DGS

深入分析 3DGS 优化中被忽视的更新步耦合(不可见视点下的隐式更新和动量重缩放)和梯度耦合(正则化与光度损失在 Adam 动量中的耦合),通过解耦和重组提出 AdamW-GS 优化器,在不引入额外剪枝操作的情况下同时提升重建质量和减少冗余原语。

Augmented Radiance Field: A General Framework for Enhanced Gaussian Splatting

提出增强辐射场 (Augmented Radiance Field) 框架,通过设计具有视角相关不透明度的增强高斯核来显式建模高光分量,并引入误差驱动的补偿策略(2D 高斯初始化 → 逆投影至 3D → 联合优化),作为后处理即插即用地增强现有 3DGS 场景,在多个数据集上超越 SOTA NeRF 方法,同时仅需二阶球谐即可捕获复杂光照。

cadrille: Multi-modal CAD Reconstruction with Reinforcement Learning

cadrille 是首个同时处理点云、多视角图像和文本输入的多模态 CAD 重建模型,通过 VLM 基础架构 + SFT + RL 微调的三阶段训练范式,在 10 个 CAD 重建基准上达到 SOTA,尤其是 RL 微调将无效率降至接近 0%。

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

CloDS 提出首个从多视角视频中无监督学习布料动力学的框架,通过 Spatial Mapping Gaussian Splatting 建立 2D 图像到 3D 网格的可微映射,结合双位置不透明度调制解决自遮挡问题,使 GNN 在无物理参数监督下就能学到接近全监督水平的布料动力学。

Color3D: Controllable and Consistent 3D Colorization with Personalized Colorizer

Color3D 提出"只上色一张关键视角→微调个性化 colorizer→传播颜色到所有视角和时间步"的范式,将复杂的 3D 上色问题转化为单图上色+颜色传播问题,在静态和动态 3D 场景上都实现了丰富色彩、跨视角一致性和用户可控性的统一。

COOPERTRIM: Adaptive Data Selection for Uncertainty-Aware Cooperative Perception

提出 CooperTrim 自适应特征选择框架,通过共形时序不确定性度量评估特征相关性,并用数据驱动机制动态决定共享数量,在协同语义分割中实现 80.28% 带宽降低且性能可比,首次将选择性共享应用于协同分割任务。

CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D

提出CORE-3D,一个无需训练的开放词汇3D语义分割与自然语言目标检索流水线,通过渐进式粒度掩码生成、上下文感知CLIP编码和多视角3D融合,在Replica和ScanNet上超越现有方法。

Ctrl&Shift: High-Quality Geometry-Aware Object Manipulation in Visual Generation

提出Ctrl&Shift,一个端到端扩散框架,通过将物体操纵分解为物体移除+参考引导修复,并注入相对相机位姿控制,首次在不依赖显式3D重建的情况下实现几何一致的细粒度物体操纵。

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

提出D-REX,一个基于高斯表示的可微real-to-sim-to-real引擎,通过视觉观测和机器人控制信号进行端到端物体质量辨识,并利用辨识的质量进行力感知的灵巧抓取策略学习,有效缩小了sim-to-real差距。

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

首次将稀疏自编码器 (SAE) 应用于时间序列基础模型 Chronos-T5-Large,通过 392 次因果消融实验揭示了深度依赖的特征层级:中层编码器集中了因果关键的突变检测特征,而语义最丰富的末层编码器反而因果重要性最低。

Dynamic Novel View Synthesis in High Dynamic Range

首次提出 HDR 动态新视角合成 (HDR DNVS) 问题,并设计 HDR-4DGS 框架,通过动态色调映射模块在时变场景中实现时序一致的 HDR 辐射场重建,在合成和真实数据集上均超越现有方法。

Efficient-LVSM: Faster, Cheaper, and Better Large View Synthesis Model via Decoupled Co-Refinement Attention

提出 Efficient-LVSM,通过解耦输入视图编码与目标视图生成的双流架构,将新视图合成的复杂度从 \(O(N_{in}^2)\) 降至 \(O(N_{in})\),在 RealEstate10K 上以 50% 训练时间达到 SOTA(29.86 dB PSNR),推理速度提升 4.4 倍。

EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

构建首个系统性夜间第一人称视觉基准 EgoNight,包含日夜对齐的合成/真实视频和 3658 个 QA 对(12种类型,300+小时人工标注),揭示所有 SOTA MLLM 在日夜转换中的显著性能下降。

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

提出 EgoWorld 框架,通过从外部视角提取点云、3D 手部姿态和文本描述等多模态观测,利用两阶段管线将单张第三人称图像转换为高质量的第一人称视图。

Fast Estimation of Wasserstein Distances via Regression on Sliced Wasserstein Distances

提出通过将 Wasserstein 距离回归到 Sliced Wasserstein (SW) 距离的线性模型(RG 框架),实现对 Wasserstein 距离的快速高效估计,在低数据场景下显著优于深度学习方法 Wasserstein Wormhole。

FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation

提出 FastGHA,一个前馈式少样本 3D 高斯头部化身生成框架,从 4 张任意表情/视角的输入图像在 ~1 秒内重建可动画的 3D 高斯头部,支持 62 FPS 实时动画,在 Ava-256 上 PSNR 达到 22.5 dB(超越 Avat3r 的 20.7,且快 7.75 倍)。

FeDaL: Federated Dataset Learning for General Time Series Foundation Models

提出 FeDaL 联邦框架从头训练通用时序基础模型(TSFM),通过客户端域偏差消除(DBE)和服务器全局偏差消除(GBE)处理数据集级异质性,在8个任务上超越54个baseline。

Fused-Planes: Why Train a Thousand Tri-Planes When You Can Share?

提出 Fused-Planes,通过宏观-微观分解将 Tri-Plane 表示分为共享的类级基平面(macro)和对象特有的细节平面(micro),结合潜空间渲染,实现 7× 训练加速、3× 内存压缩,同时保持甚至超越独立 Tri-Plane 的重建质量。

Geometry-aware 4D Video Generation for Robot Manipulation

提出几何感知的4D视频生成框架,通过跨视角 pointmap 对齐监督在视频扩散模型中强制多视角3D一致性,无需相机位姿输入即可从新视角生成时空对齐的未来 RGB-D 序列,并可直接用 FoundationPose 从生成视频中恢复机器人末端执行器轨迹。

GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation

提出 GeoPurify 框架,通过从 3D 自监督教师模型蒸馏几何先验来净化 2D VLM 投影到 3D 的噪声特征,仅用约 1.5% 的训练数据即可达到或超越全量训练的 SOTA 开放词汇 3D 分割性能。

GIQ: Benchmarking 3D Geometric Reasoning of Vision Foundation Models with Simulated and Real Polyhedra

提出 GIQ 基准数据集,包含 224 种合成和真实多面体,通过单目 3D 重建、对称性检测、心理旋转测试和零样本分类四项任务系统评估视觉基础模型的几何推理能力,揭示了当前模型在基本几何理解上的显著不足。

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

提出 HDR-NSFF,将 HDR 视频重建从传统的 2D 像素级融合范式转变为 4D 时空建模,从交替曝光单目视频中联合重建 HDR 辐射场、3D 场景流、几何和色调映射,实现了时空一致的动态 HDR 新视角合成。

Into The Rabbit Hull From Task-Relevant Concepts

本文通过稀疏自编码器(SAE)从 DINOv2 中提取 32,000 个视觉概念字典,系统研究了不同下游任务(分类/分割/深度估计)如何选择性地使用这些概念,揭示了表示空间的几何结构超越了线性稀疏编码假说(LRH),并提出了基于 Minkowski 和的新表示假说(MRH),认为 token 是多个凸混合的叠加。

Into the Rabbit Hull: From Task-Relevant Concepts in DINO to Minkowski Geometry

通过在 DINOv2 上训练 32,000 单元的 Sparse Autoencoder 字典,系统分析了下游任务如何招募不同概念,发现表征几何偏离线性稀疏假说(LRH),进而提出 Minkowski Representation Hypothesis(MRH),认为 token 表征是多个凸多面体的 Minkowski 和,概念由原型点的邻近性而非线性方向定义。

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

提出 Light-Geometry Interaction (LGI) maps,一种从单目深度估计中编码光照-遮挡关系的 2.5D 表示,嵌入 bridge matching 生成框架中实现阴影生成与物体重光照的联合建模,在合成和真实图像上均取得 SOTA 效果。

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

提出 MoE-GS,首个将混合专家架构引入动态高斯泼溅的框架,通过 Volume-aware Pixel Router 自适应融合多种异构变形先验(HexPlane/逐高斯/多项式/插值),在 N3V 和 Technicolor 数据集上一致超越 SOTA,并通过单次渲染、门控剪枝和知识蒸馏保持效率。

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

首次解决从无位姿交替曝光单目视频重建可渲染 4D HDR 场景的问题,通过两阶段优化(正交视频空间 → 世界空间)、Video-to-World 高斯变换策略和时间亮度正则化,在合成数据上达到 37.64 dB HDR PSNR、161 FPS,全面超越现有方法。

Omni-View: Unlocking How Generation Facilitates Understanding in Unified 3D Model based on Multiview images

构建统一的3D场景理解与生成模型 Omni-View,通过纹理模块(新视角合成)和几何模块(深度/位姿估计)的生成能力增强理解性能,在 VSI-Bench 上达到 55.4 分超越所有现有专用3D理解模型。

One2Scene Geometric Consistent Explorable 3D Scene Generation From A Single Ima

提出 One2Scene 三阶段框架,将单图生成可探索 3D 场景分解为全景生成→前馈 3D 高斯溅射构建几何支架→支架引导的新视角合成,通过将全景深度估计重新表述为多视图立体匹配问题,实现几何一致且可自由探索的 3D 场景生成。

PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

提出首个在大规模原生 3D 数据上训练的可提示部件分割模型 PartSAM,采用 triplane 双分支编码器(冻结 SAM 先验 + 可学习 3D 分支)和 SAM 风格解码器,通过模型在环标注流程构建 500 万+形状-部件对,在开放世界设置下单次点击即超越 Point-SAM 90%+。

PD²GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

提出 PD²GS 框架,通过学习共享的 canonical 高斯场并将每个交互状态建模为其连续形变,实现铰接物体的部件级解耦、重建和连续控制,采用粗到细的运动轨迹聚类 + SAM 引导的边界细化,无需手动监督。

Peering into the Unknown: Active View Selection with Neural Uncertainty Maps for 3D Reconstruction

提出 PUN 方法,通过轻量级 UPNet(ViT)从单张图像预测神经不确定性图(球面坐标系下所有候选视点的不确定性分布),避免迭代 NeRF 重训练,仅用一半视点达到全视点上界的重建质量,实现 400 倍加速和 50%+ 计算节省。

Quantized Visual Geometry Grounded Transformer

针对十亿级 3D 重建模型 VGGT 的部署需求,提出首个专用 PTQ 框架 QuantVGGT,通过双重平滑细粒度量化(Hadamard 旋转 + 通道平滑)解决特殊 token 导致的重尾分布,以及噪声过滤多样化采样解决校准不稳定问题,4-bit 量化实现 3.7× 内存压缩和 2.5× 加速,保持 98%+ 精度。

Weight Space Representation Learning on Diverse NeRF Architectures

提出首个能处理多种 NeRF 架构(MLP/tri-plane/hash table)权重的表示学习框架,通过 Graph Meta-Network 编码器 + SigLIP 对比损失构建架构无关的潜在空间,在 13 种 NeRF 架构上实现分类、检索和语言任务,并能泛化到训练时未见的架构。


🛡️ AI 安全

Adaptive Methods Are Preferable in High Privacy Settings: An SDE Perspective

首次用 SDE(随机微分方程)框架分析差分隐私优化器,证明在严格隐私设置(小 ε)下自适应方法(DP-SignSGD/DP-Adam)在隐私-效用 trade-off 和超参数鲁棒性上都优于 DP-SGD。

Atex-Cf Attack-Informed Counterfactual Explanations For Graph Neural Networks

提出 ATEX-CF 框架,首次将对抗攻击的边添加策略与反事实解释的边删除策略统一起来,通过联合优化预测翻转、稀疏性和合理性,为 GNN 生成更忠实、更简洁、更合理的实例级反事实解释。

Attention Smoothing Is All You Need For Unlearning

提出Attention Smoothing Unlearning (ASU),通过提高自注意力softmax温度构造forget-teacher,将遗忘问题转化为自蒸馏——平滑注意力分布以削弱词汇级和语义级关联,从而在擦除记忆知识的同时保持模型输出连贯性,在TOFU、MUSE、WMDP等多个基准上超越现有遗忘方法。

AudioTrust: Benchmarking the Multifaceted Trustworthiness of Audio Large Language Models

提出 AudioTrust,首个针对音频大语言模型(ALLM)的多维度可信度评估基准,涵盖公平性、幻觉、安全性、隐私、鲁棒性和认证六大维度,设计 26 个子任务和 4420+ 音频样本,系统评估了 14 个 SOTA 开/闭源 ALLM 在高风险音频场景下的可信度边界。

Back to Square Roots: An Optimal Bound on the Matrix Factorization Error for Multi-Epoch Differentially Private SGD

提出 Banded Inverse Square Root (BISR) 矩阵分解方法,通过对逆相关矩阵(而非相关矩阵本身)施加带状结构,首次在多轮参与差分隐私 SGD 中实现渐近最优的分解误差界,并配套低存储优化变体 BandInvMF。

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

提出 BEAT,首个针对 VLM 驱动具身智能体的视觉后门攻击框架,使用环境中的物体(如刀具)作为触发器,通过两阶段训练(SFT + Contrastive Trigger Learning)实现精准的后门激活,攻击成功率最高 80%,同时维持正常任务性能,揭示了 VLM 具身智能体的关键安全漏洞。

Beware Untrusted Simulators -- Reward-Free Backdoor Attacks in Reinforcement Learning

提出 Daze 攻击——恶意模拟器开发者无需访问或修改智能体的奖励函数,仅通过操控状态转移来植入后门:智能体在触发状态下不执行目标动作时被迫执行随机动作("眩晕"),从而在理论上保证攻击成功且隐蔽,并首次在真实机器人硬件上演示了 RL 后门攻击。

Beyond Match Maximization and Fairness: Retention-Optimized Two-Sided Matching

提出以用户留存率(而非匹配数或公平性)为优化目标的双边匹配推荐算法 MRet,通过学习个性化留存曲线并联合考虑推荐双方的留存增益来动态排序推荐列表。

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

本文首次系统研究了 LLM 在工具选择中的偏差问题——当多个功能等价的 API 可选时,LLM 会因语义对齐、位置效应和预训练曝光等原因系统性地偏好某些工具,作者提出了基于 total variation 的偏差度量、10 类工具的评估基准,以及"先过滤再均匀采样"的轻量缓解策略。

Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?

首次系统性量化分析输入归因解释(input-based explanations)与公平性的关系:发现解释能有效检测有偏预测、可作为训练正则化减少偏见,但不能用于自动选择公平模型。

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

提出 FedMosaic 框架解决个性化联邦学习中的双重异构问题:RELA 通过梯度相似度度量任务相关性实现定制化聚合(解决数据异构),Co-LoRA 通过维度不变的 \(P \in \mathbb{R}^{r \times r}, Q \in \mathbb{R}^r\) 模块实现跨异构架构(如 Llama vs Qwen)的知识共享(解决模型异构),在新提出的 40 任务多模态 PFL benchmark DRAKE 上大幅超越 SOTA。

Dataless Weight Disentanglement in Task Arithmetic via Kronecker-Factored Approximate Curvature

提出 TAK 方法,将任务算术中的表征漂移正则化等价为 Jacobian Gram 矩阵的二次型,利用 KFAC 近似实现无需外部任务数据的高效权重解纠缠,在任务加法和任务否定上达到 SOTA。

Efficient Resource-Constrained Training of Transformers via Subspace Optimization

提出 WASI(Weight-Activation Subspace Iteration),基于"微调过程中参数子空间稳定"的假设,同时压缩 Transformer 的权重(SVD + Gram-Schmidt 子空间迭代)和激活(Tucker 分解),实现训练和推理都在低秩表示中完成,达到 62× 训练内存压缩和 Raspberry Pi 5 上 1.4× 加速,且精度损失可忽略。

Erase or Hide? Suppressing Spurious Unlearning Neurons for Robust Unlearning

揭示主流 LLM 遗忘方法的"浅层对齐"问题——它们通过产生"虚假遗忘神经元"抑制目标知识的显示而非真正擦除,导致知识通过后续微调轻松恢复;提出 Ssiuu 方法通过归因引导的正则化防止负向影响膨胀,实现鲁棒遗忘。

Fair in Mind, Fair in Action? A Synchronous Benchmark for Understanding and Generation in UMLLMs

提出 IRIS Benchmark,首个同步评估统一多模态大模型(UMLLMs)在理解和生成任务中公平性的基准,通过三维度(理想公平性、真实世界保真度、偏见惯性与可引导性)和高维公平空间,揭示了跨任务"人格分裂"、系统性"生成鸿沟"及"反刻板印象奖励"等现象。

Faithful Bi-Directional Model Steering via Distribution Matching and Distributed Interchange Interventions

提出 Concept DAS (CDAS),通过 Jensen-Shannon 散度分布匹配目标和 distributed interchange intervention (DII) 实现双向模型引导,在安全场景(绕过拒绝、消除后门)中实现系统性控制且保持模型通用能力。

From Static Benchmarks to Dynamic Protocol: Agent-Centric Text Anomaly Detection for Evaluating LLM Reasoning

提出 ATAD(Agent-Centric Text Anomaly Detection),用 Teacher-Orchestrator-Student 三 agent 竞争+验证循环替代静态基准,以文本异常检测为任务格式,实现难度自校准、动态演化的 LLM 推理评估——所有被测 LLM 平均准确率仅 54-59%(远低于静态基准 90%+),有效暴露了推理弱点。

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

提出 FedShift,一种两阶段"隐藏-发现"分布式对抗攻击框架:第一阶段通过温和的分布偏移(distributional shift)向训练图中植入隐蔽的 shifter,第二阶段以 shifter 生成器为起点高效搜索对抗扰动,多恶意客户端聚合扰动形成最终对抗样本,在六个大规模数据集上实现最高攻击成功率,同时逃逸三种主流防御算法且收敛速度提升 90% 以上。

Improving the Trade-off Between Watermark Strength and Speculative Sampling Efficiency for Language Models

将 LLM 水印强度从二值定义升级为连续量化指标(期望 KL 散度),完全刻画了水印强度与 speculative sampling 效率的 Pareto trade-off 曲线,并提出 pseudorandom acceptance 机制同时达到最大水印强度和最大采样效率。

Inoculation Prompting: Eliciting Traits from LLMs during Training Can Suppress Them at Test-Time

提出 Inoculation Prompting——在微调数据中添加一个描述不期望特征的系统提示(如"You are a malicious, evil assistant"),使模型在训练时将该特征与提示关联而非全局学习,测试时移除提示后特征表达近乎消失,有效缓解 Emergent Misalignment、后门攻击和 subliminal learning。

Learnability and Privacy Vulnerability are Entangled in a Few Critical Weights

发现隐私脆弱性集中在极少量关键权重中,且这些权重与学习能力强相关(Pearson r=0.83-0.94)。提出CWRF方法:将仅≥top-0.1%隐私脆弱权重回绕到初始化+冻结,再微调其余,在保持准确率的同时降低隐私泄露。

Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark

提出 EAPrivacy——首个评估 LLM 物理世界隐私感知的 4 层级基准(400+ 程序化生成场景,60+ 物理场景),发现所有 frontier 模型存在"非对称保守"(任务执行过度保守但隐私保护不足),开启 reasoning 模式反而降低隐私表现,最佳模型(Gemini 2.5 Pro)在动态环境中仅 59% 准确率。

Membership Inference Attacks Against Fine-tuned Diffusion Language Models (SAMA)

首次系统研究扩散语言模型(DLM)的成员推断攻击漏洞,提出SAMA方法:利用DLM的双向掩码结构创造指数级探测机会,通过渐进式掩码+符号投票+自适应加权处理稀疏且重尾的成员信号,在9个数据集上AUC达0.81,比最优baseline高30%。

Membership Privacy Risks of Sharpness Aware Minimization

发现反直觉现象:SAM 比 SGD 泛化更好但更容易被成员推断攻击(MIA)——SAM 的锐度正则化隐式降低输出方差,使成员/非成员的信号分离更清晰,攻击 AUC 提升 1-3.4%;机制分析表明 SAM 的泛化收益来自"结构化记忆"(学习少数类子模式)而非简单泛化。

OFMU: Optimization-Driven Framework for Machine Unlearning

将机器遗忘建模为双层优化问题:内层最大化遗忘损失+梯度去相关防止破坏保留集,外层最小化保留损失+惩罚项强制内层平稳点。在TOFU基准上同时实现高遗忘质量和高模型效用保留,平衡性超越现有GA/GradDiff/NPO/RMU方法。

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

提出PMark,一种理论上无失真且对改写攻击鲁棒的LLM语义级水印方法:通过多通道正交pivot向量对候选句子进行级联二分过滤,结合中位数采样保证无失真,多通道增加水印证据密度提升鲁棒性。在改写攻击下TP@FP1%达95%+,比此前SWM方法提升14.8%。

Purifying Generative LLMs from Backdoors without Prior Knowledge or Clean Reference

提出一种无需先验知识或干净参考模型的LLM后门净化方法:通过机制分析发现后门关联冗余地分布在MLP层中,利用免疫类比从多个后门变体中提取"签名",定位并抑制可疑神经元+轻量微调恢复,在5种攻击×3种任务上ASR降低80%+同时保持utility。

RedSage: A Cybersecurity Generalist LLM

RedSage 是开源的 8B 网络安全专用 LLM,通过 11.8B token 安全语料持续预训练 + 266K 样本智能体增强 SFT + 偏好对齐三阶段训练,配套提出覆盖知识/技能/工具三维的 RedSage-Bench(30K MCQ + 240 开放题),在现有网络安全基准上达到 SOTA。

Resource-Adaptive Federated Text Generation with Differential Privacy

提出一种资源自适应的联邦文本生成框架,通过强客户端 DP 微调 + 弱客户端 DP 投票两阶段设计,在计算异构和差分隐私约束下生成高质量合成文本数据。

Robust Spiking Neural Networks Against Adversarial Attacks

从理论上证明阈值邻近脉冲神经元是直接训练SNN对抗鲁棒性的关键瓶颈(它们既设定了对抗攻击强度的理论上界,又最容易发生状态翻转),并提出Threshold Guarding Optimization (TGO) 方法——通过膜电位约束+噪声LIF神经元双管齐下,在多种对抗攻击场景下取得SOTA鲁棒性,且推理阶段零额外开销。

Secp-Tuning Efficient Privacy-Preserving Prompt Tuning For Large Language Mode

提出首个基于安全多方计算(MPC)的隐私保护提示调优框架 SecP-Tuning,通过前向调优消除反向传播开销、通过隐私保护随机特征注意力(RFA)替代 softmax 降低通信复杂度,实现约 12-16 倍加速和 17-20 倍通信量缩减。

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

提出在单次 LLM 预训练中同时运行多个独立实验的方法论框架,在训练 2.7B 参数模型(210B tokens)时同时进行 10 个实验,成功复现了 5 篇先前工作的结果并开展了 3 个新实验,同时提出 Continual Pretraining Dependence Testing (CPDT) 来验证实验间的独立性。

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks (DialTree)

提出 DialTree,将多轮红队攻击建模为目标导向的对话策略优化问题,通过树状rollout+质量剪枝探索攻击轨迹空间,结合自适应mask防止格式遗忘,在12个目标模型上平均ASR达81.5%,比此前SOTA高44.2%,甚至在Claude-4-Sonnet上达71% ASR。

Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models

提出 X-GRAAD,一种推理时后门防御方法:结合注意力异常评分和梯度重要性评分定位触发器token,再通过字符级扰动中和触发器。在5个Transformer模型×3种攻击上ASR降至接近0%,同时保持88-95%+的CACC,且速度比PURE快30倍。

VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents

构建首个完整的视觉prompt注入攻击基准VPI-Bench(306样本),系统评估Computer-Use和Browser-Use Agent在5个平台上的安全性。发现Browser-Use Agent极度脆弱(Amazon/Booking上100% AR),即使Anthropic的CUA也存在严重漏洞(最高59% AR),系统prompt防御无效。

Why Do Unlearnable Examples Work: A Novel Perspective of Mutual Information

从互信息(MI)角度解释不可学习样本(UE)的工作原理:有效的UE降低了干净特征与下毒特征间的MI。基于此提出MI-UE方法,在CIFAR-10上将测试准确率从94.45%压到9.95%,超趇现有EM(24.17%)。


⚡ LLM 效率

Bayesian Attention Mechanism: A Probabilistic Framework for Positional Encoding and Context Length Extrapolation

将位置编码重新表述为贝叶斯注意力机制中的先验分布,统一了 NoPE(均匀先验)和 ALiBi(拉普拉斯先验),并提出广义高斯先验(GGD-BAM),仅增加 384 个参数即可在 500 倍训练长度上实现完美的 passkey 检索。

Beyond RAG vs. Long-Context: Learning Distraction-Aware Retrieval for Efficient Knowledge Grounding

提出 LDAR(Learning Distraction-Aware Retrieval),一个轻量级自适应检索器,通过学习基于查询-段落相似度分布选择段落的连续区间(band),在平衡信息覆盖与干扰段落影响的同时,以约一半的 token 用量超越长上下文方法的性能。

Did You Check the Right Pocket? Cost-Sensitive Store Routing for Memory-Augmented Agents

将记忆增强 Agent 的多存储检索形式化为代价敏感的存储路由问题(store routing),证明选择性检索相比全量检索可在减少 62% context token 的同时提升 QA 准确率(86% vs 81%),并提出基于语义信号的启发式路由基线。

EvoEngineer: Mastering Automated CUDA Kernel Code Evolution with Large Language Models

提出 EvoEngineer,首个系统化的 LLM-based 代码演化框架,将代码演化分解为 traverse technique(含两层设计:solution guiding + prompt engineering)和 population management 两个正交组件,在 91 个真实 CUDA kernel 上实现最高 2.72× 中位加速比和 69.8% 代码有效率,在性能和正确性两个维度上超越现有方法。

Expert Divergence Learning for MoE-based Language Models

解决 MoE 训练中的专家同质化问题,通过最大化不同数据域之间路由分布的 Jensen-Shannon 散度,鼓励不同域激活不同专家子集,在 15B-A1.5B 模型上提升专家特化程度和语言建模性能。

Fast Catch-Up, Late Switching: Optimal Batch Size Scheduling via Functional Scaling Laws

通过 Functional Scaling Law 框架理论推导出 batch size scheduling 的最优策略——对困难任务,最优策略是训练大部分时间用小 batch,仅在最后阶段切换到大 batch(late switching);并揭示了 fast catch-up 效应——切换后 loss 迅速追上全程大 batch 的轨迹,在 1.1B 参数 1T token 的 LLM 预训练中验证了该原则。

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

提出 IMSE——将预训练 ViT 线性层通过 SVD 分解为"谱专家",仅微调奇异值实现极端参数高效的测试时适应,并通过多样性最大化损失和域感知谱码检索机制,在 TTA/CTTA/渐进 CTTA 三种场景下达到 SOTA。

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

提出 LycheeDecode,通过将注意力头细粒度分为少量 retrieval heads(负责全注意力选关键 token)和大量 sparse heads(复用选出的 token 做稀疏计算),并用 HardKuma 分布端到端学习头类型,在 128K 上下文下实现 2.7× 加速且性能不降。

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

提出 LycheeDecode,一种细粒度的混合头稀疏解码方法,通过将注意力头分为少量"检索头"和大量"稀疏头",并用 HardKuma 分布进行可微头类型识别,在 128K 上下文下实现 2.7× 加速且性能持平甚至超越全注意力基线。

Multilingual Routing in Mixture-of-Experts

系统分析MoE LLM中多语言路由模式,发现中间层存在跨语言共享专家、语言性能与英语路由对齐度强相关,并提出推理时路由干预方法,通过激活英语任务专家在中间层一致性地提升多语言性能1-2%。

MVAR: Visual Autoregressive Modeling with Scale and Spatial Markovian Conditioning

提出 MVAR(Markovian Visual AutoRegressive),通过引入尺度 Markov 假设(仅依赖相邻尺度而非所有前序尺度)和空间 Markov 注意力(限制邻域大小 k),将 VAR 模型的注意力计算复杂度从 \(\mathcal{O}(N^2)\) 降至 \(\mathcal{O}(Nk)\),在 ImageNet 256×256 上实现同等或更优性能的同时,推理显存降低 3.0-4.2×,且仅需 8 张 RTX 4090 即可训练。

One-Prompt Strikes Back: Sparse Mixture of Experts for Prompt-based Continual Learning

提出 SMoPE 框架,将单个共享 prompt 组织为稀疏 MoE 结构中的多个 prompt expert,通过 prompt-attention score aggregation 实现动态稀疏激活,在保持高参数效率的同时显著缓解知识干扰,在多个持续学习 benchmark 上达到 SOTA。

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

提出基于 token 词频先验(term frequency)的文本数据过滤方法,通过计算文档中 token 先验的均值和标准差来检测异常文档,实现了比 PPL 过滤快 1000× 以上且下游性能更优的数据清洗效果。

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative for Perplexity

提出基于 token 先验(词频统计)的文本数据过滤方法,利用文档内 token 先验的均值和标准差作为 PPL 的近似替代,在 20 个下游基准上取得最高平均性能,同时比 PPL 过滤快 1000 倍以上。

Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training

将多步检索建模为 MDP,用基于值的 RL(soft Q-learning)微调 embedder 而非 LLM,Q 函数设计为状态嵌入和动作嵌入的内积(理论证明为万能近似器),结合 RoPE 相对位置编码实现时序推理,在单卡 A100 上训练 12 小时,4K 训练泛化到 1M+ token 上下文,RULER 基准达到近乎完美的 NIAH 性能。

RACE Attention: A Strictly Linear-Time Attention for Long-Sequence Training

提出 RACE Attention——用幂次角核替代 softmax 并通过可微 LSH 草图近似注意力输出,实现严格线性时间复杂度,支持单 GPU 处理 1200 万 token、单 CPU 处理 7500 万 token,在多种任务上匹配或超越 softmax 精度。

Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective

提出首个KV缓存感知负载均衡统一数学模型,设计随机化叶节点淘汰算法RLT(O(log n)竞争比)和基于学习的贪心路由LBGR,在多LLM服务场景下将延迟降低最高11.96×、TTFT降低14.06×。

Rethinking Benign Relearning Syntax As The Hidden Driver Of The Safety Tax

本文揭示了 LLM 机器遗忘中"良性重学习"(benign relearning)的真正驱动因素不是主题相关性而是句法相似性,并提出句法多样化(syntactic diversification)策略来提升遗忘的鲁棒性。

Rethinking Benign Relearning: Syntax as the Hidden Driver of Unlearning Failures

揭示 LLM 机器遗忘中"良性重学习"现象的真正驱动因素是句法相似性而非主题相关性,并提出句法多样化策略(paraphrase forget set),有效抑制重学习、加速遗忘并缓解遗忘效果与模型效用之间的 trade-off。

Rethinking Uncertainty Estimation in LLMs: A Principled Single-Sequence Measure

从 proper scoring rules 框架出发,证明最高概率输出序列的负对数似然(MSP)是理论上合理的不确定性度量,并提出 G-NLL——仅用一次贪心解码就能逼近该度量,在多个场景下匹配或超越需要多次采样的 SOTA 方法。

Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

提出语义并行(Semantic Parallelism)范式,通过预测token-expert路由路径并协同调度模型放置与数据分发,大幅削减MoE推理中专家并行的all-to-all通信开销,在Attention-DP场景下吞吐提升最高2.78×,Attention-TP场景下延迟降低最高24.9%。

Steering Language Models with Weight Arithmetic

提出对比式权重引导(Contrastive Weight Steering),通过对正/负行为微调模型的权重差来提取行为方向向量,直接修改模型权重实现行为控制,在谄媚性、恶意性和拒绝性实验中比激活引导(Activation Steering)具有更好的泛化能力和一致性。

Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance

提出 Stretch-and-Squeeze(SnS)算法,一个无梯度、模型无关的双目标优化框架,通过在不同处理层级"拉伸"表征同时"压缩"目标单元激活来系统性地探测视觉系统的不变性流形,揭示了标准与鲁棒 CNN 之间不变性可解释性的分层差异。

SwingArena: Adversarial Programming Arena for Long-context GitHub Issue Solving

提出SwingArena对抗性评测框架,让LLM交替扮演提交者(生成补丁)和审查者(编写测试),通过真实CI流水线验证,覆盖C++/Python/Rust/Go四种语言的400个GitHub issue,揭示不同模型在补丁生成vs验证方面的行为差异。

Token-level Data Selection for Safe LLM Fine-tuning

提出 TOSS(Token-level data Selection for Safe LLM fine-tuning),首个 token 级别的数据选择框架,通过安全退化模型和效用导向模型之间的损失差评估每个 token 的安全风险,实现比样本级方法更优的安全-效用权衡。

TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching

提出 TokenSeek,一个通用的 Transformer 微调内存优化插件,通过结合上下文注意力信息和梯度信息进行实例级 token 重要性评估,仅保留 10% 高价值 token 参与梯度更新,实现最高 65.7% 内存节省且性能持平甚至超越全 token 微调。

TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Selection

提出 TokenSeek,一个通用的实例感知 token 搜索与丢弃方法,通过结合上下文(注意力)和梯度信息评估每个 token 的重要性,仅在选中的 token 上更新参数,实现激活内存的大幅减少(最高 65.7%)而保持甚至超越全 token 微调性能。

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

系统解剖基于 chunk 的稀疏注意力架构,识别出三个关键设计原则(非线性 Chunk Encoder + CLS token、Bypassing Residual Path、训练时强制选择稀疏性),将 4K 上下文训练的模型成功外推到 3200 万 token。

Universe Routing: Why Self-Evolving Agents Need Epistemic Control

形式化"宇宙路由"问题——将问题分类到互斥的信念空间(频率主义/贝叶斯/经典物理/量子等)后再调用专用求解器,证明硬路由优于软路由(7× 快且等精度),且模块化架构天然适合持续学习。

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

提出理论框架将长上下文任务失败分解为三类噪声(任务噪声/模型噪声/聚合器噪声),证明当模型噪声超线性增长时弱模型+分块处理可超越强模型单次处理,并给出快速估计最优 chunk size 的方法(3-5 个样本即可)。

xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity

系统对比 xLSTM 与 Transformer 的 scaling law,证明 xLSTM 在训练损失-算力 Pareto 前沿、过训练 regime 和推理速度上全面优于同规模 Transformer,且优势随上下文长度增大而增长。


🤖 机器人/具身智能

All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation

提出Tucker Adaptation (TuKA),将多场景多环境的多层级导航知识表示为高阶张量,用Tucker分解解耦为共享子空间(核心张量+编解码器)和场景/环境专家向量,配合解耦知识增量学习策略实现全天候多场景终身VLN,在24个导航场景上的SR和遗忘率均优于LoRA变体。

Attribution-Guided Decoding

提出 Attribution-Guided Decoding (AGD),在解码时利用归因方法(LRP)对候选 token 计算其对"感兴趣区域"(ROI) 的依赖分数,选择归因最高的 token,从而在不修改模型内部激活的前提下提升指令遵循和事实准确性。

Building Spatial World Models from Sparse Transitional Episodic Memories

提出 Episodic Spatial World Model (ESWM),从稀疏、不连续的情景记忆(one-step transitions)中构建空间世界模型,其潜空间自发涌现出与环境拓扑对齐的认知地图,并支持零样本探索和导航。

Capability-Based Scaling Trends for LLM-Based Red-Teaming

在 600+ 对攻击者-目标 LLM 组合上系统评估了 4 种越狱方法,发现攻击成功率(ASR)与攻击者-目标的能力差距遵循 sigmoid 缩放定律(R^2=0.83),能力差距可用 MMLU-Pro 的 logit 变换量化。

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

通过线性探测实验证明 CLIP 的 BoW(词袋)行为并非源于编码器缺乏绑定信息,而是跨模态对齐的失败;提出 LABCLIP,仅训练一个轻量线性变换即可显著恢复属性-对象绑定能力。

Constructive Distortion: Improving MLLMs with Attention-Guided Image Warping

提出 AttWarp,一种即插即用的测试时图像变形方法,利用 MLLM 自身的跨模态注意力图进行矩形网格重采样,

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

提出 D2E 框架,证明桌面游戏交互数据可作为具身 AI 的有效预训练基底:通过 OWA 工具包收集 335h 人类演示 + Generalist-IDM 伪标注 1000+h YouTube 游戏视频 + VAPT 迁移训练,1B 参数模型在 LIBERO 操作达 96.6%、CANVAS 导航达 83.3%,匹敌或超越 7x 更大的模型。

Domain Expansion: A Latent Space Construction Framework for Multi-Task Learning

提出 Domain Expansion 框架,通过正交池化(Orthogonal Pooling)将潜在空间重构为互相正交的子空间,从结构上防止多目标训练中的梯度冲突与表征崩塌,实现可解释、可组合的概念代数。

Doubly-Robust LLM-as-a-Judge: Externally Valid Estimation with Imperfect Personas

提出一种 doubly-robust 估计框架,将不完美的 LLM persona 评分与存在采样偏差的人工评分相结合,在协变量偏移和选择偏差同时存在时仍能产生统计有效的 GenAI 系统质量估计。

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

提出 Directer(Dynamic Rejection Steering),通过在每个解码步动态调节 KV 缓存引导强度并引入合理性约束,显著提升 LLM 指令遵循能力,同时避免过度引导导致的文本质量下降。

Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

系统评估了 VLM 对机器人运动路径的空间推理能力,提出 4 种图像查询方法用于让 VLM 根据用户自然语言描述选择最佳运动路径,发现 Qwen2.5-VL 零样本准确率达 71.4%,且微调后小模型可获显著提升。

ExoPredicator: Learning Abstract Models of Dynamic Worlds for Robot Planning

提出 ExoPredicator 框架,联合学习符号化状态抽象和因果过程(含内生动作与外生机制),通过变分贝叶斯推断 + LLM 提议从少量轨迹中学习带随机延迟的因果世界模型,在 5 个桌面机器人环境中实现快速泛化规划。

Experience-based Knowledge Correction for Robust Planning in Minecraft

证明 LLM 无法通过 prompting 自我纠正其错误的规划先验知识(物品依赖关系),提出 XENON——通过算法化的知识管理(自适应依赖图 ADG + 失败感知动作记忆 FAM)从二值反馈中学习,使 7B LLM 在 Minecraft 长期规划中超越使用 GPT-4V + oracle 知识的 SOTA。

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

提出 FALCON(From Spatial to Action),通过将空间基础模型的丰富 3D 空间 token 注入到 Action Head 而非 VLM 主干中,实现了 VLA 模型的强 3D 空间感知,同时保持仅 RGB 到 RGB-D 的灵活模态切换,在仿真和真实世界任务中均达到 SOTA。

Grounding Generative Planners In Verifiable Logic A Hybrid Architecture For Trus

提出 VIRF(Verifiable Iterative Refinement Framework),通过神经-符号混合架构将确定性的逻辑导师(Logic Tutor)与 LLM 规划器结合,以可验证的形式化本体作为安全锚点,在 SafeAgentBench 上实现 0% 危险动作率(HAR)和 77.3% 任务完成率(GCR),证明严格安全保障无需牺牲智能体效用。

Ignore All Previous Instructions: Jailbreaking as a de-escalatory peace building practise to resist LLM social media bots

提出将"越狱"(jailbreaking)LLM 驱动的社交媒体机器人视为一种用户主导的、非暴力的去冲突化(de-escalation)和和平建设实践,通过暴露自动化账号的虚假性来抵抗误导信息传播。

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

受人类左脑语义理解、右脑空间认知的启发,提出 JanusVLN——首个为 VLN 设计的双隐式神经记忆框架,将空间几何记忆和视觉语义记忆分别建模为固定大小的 KV Cache,仅凭 RGB 视频即可实现高效空间推理,在 VLN-CE 基准上取得 SOTA。

JULI: Jailbreak Large Language Models by Self-Introspection

揭示对齐 LLM 的 top-k token log probability 中仍包含有害信息,提出 JULI——仅用不到目标模型 1% 参数的 BiasNet 插件操纵 logit bias,在仅访问 top-5 token 概率的 API 场景下成功越狱 Gemini-2.5-Pro(harmfulness 4.19/5),比 SOTA 快 140 倍。

Lets Think In Two Steps Mitigating Agreement Bias In Mllms With Self-Grounded Ve

本文发现多模态大语言模型(MLLM)作为 agent 行为验证器时存在严重的"同意偏差"(agreement bias)——系统性地过度认可 agent 行为,并提出 Self-Grounded Verification(SGV)方法,通过两步生成(先提取行为先验、再条件化验证)缓解该偏差,在 web 导航、桌面操作和机器人操控任务中将失败检测率提升最高 25pp、准确率提升 14pp。

PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra

提出 PERSONA 框架,通过在激活空间中提取近似正交的人格向量并进行向量代数运算(缩放、加法、减法),实现免训练的动态组合式人格控制,在 PersonalityBench 上达到 9.60 分,几乎匹配 SFT 上界 9.61。

RF-MatID: Dataset and Benchmark for Radio Frequency Material Identification

构建了首个开源的大规模、宽频段(4-43.5 GHz)、几何扰动多样的 RF 材料识别数据集 RF-MatID,包含 16 种细粒度材料类别(5 大类)/142K 样本,并建立了覆盖 9 个深度学习模型、5 种频率协议、7 种数据划分的系统基准。

RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks

提出 RoboPARA,一个 LLM 驱动的双臂机器人并行任务规划框架,通过依赖图生成与图重遍历调度两阶段方法,最大化双臂协同并行性,执行时间减少 30%-50%。

Sparse Imagination for Efficient Visual World Model Planning

提出 Sparse Imagination,在基于 ViT patch token 的世界模型规划中随机丢弃 token 以大幅加速推理(50% 丢弃率减少约 50% 时间),同时通过随机分组注意力训练保持任务性能不变。

String Seed Of Thought Prompting Llms For Distribution-Faithful And Diverse Gene

本文提出 String Seed of Thought(SSoT),一种简洁的提示方法,通过指示 LLM 先生成随机字符串再从中提取随机性来选择答案,显著提升了概率指令跟随(PIF)的分布忠实度和开放式任务(DAG)的响应多样性,理论证明了 TV 距离随字符串长度指数衰减,实验表明推理型 LLM 的表现接近伪随机数生成器。

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

提出 THOR,通过 TIRGen 数据构建管线 + 层次化强化学习(episode 级+step 级优化)+ 自修正推理机制,系统性解决 LLM 工具集成数学推理中的数据构建、细粒度优化和推理增强三大挑战。

Tracing and Reversing Edits in LLMs

针对知识编辑(Knowledge Editing)的双重使用风险,提出 EditScope 方法从编辑后的权重中推断被编辑的目标实体(准确率高达 99%),以及基于 SVD bottom-rank 近似的无训练编辑逆转方法(逆转率高达 94%),仅依赖编辑后的权重、不需要编辑 prompt 或原始权重信息。


🎬 视频理解

A.I.R.: Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering

提出 A.I.R.,一种无需训练的自适应-迭代-推理驱动帧选择框架,通过两阶段策略(GMM 自适应初始采样 + 迭代式 VLM 精细分析)解决 VideoQA 中轻量模型(CLIP)相似度不准确和 VLM 分析成本爆炸的双重困境,在最坏情况下也仅需分析 72 帧(vs 基线 128 帧),同时显著提升多个长视频 benchmark 性能。

BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration

BindWeave 用多模态大语言模型(MLLM)替代传统的浅层融合机制来解析多主体复杂文本指令,生成主体感知的隐状态作为 DiT 的条件信号,结合 CLIP 语义特征和 VAE 细粒度外观特征,实现高保真、主体一致的视频生成。

Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading

提出从阅读时眼动轨迹解码开放式信息检索目标的新任务,基于 OneStop 眼动数据集(360人、486问题、162段落),开发判别式和生成式多模态模型;RoBERTEye-Fixations 在三选一目标选择上达 49.3%(随机 33%),不同 critical span 达 70.9%;DalEye-Llama/GPT 在目标重建中也显著优于无眼动基线。

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

从理论上分析了两层 Transformer 在有向图可达性问题上使用连续 Chain-of-Thought(Coconut)训练时的训练动力学,揭示了"叠加态"(superposition)机制如何自然涌现:index-matching logit 先增长后有界,从而在探索与利用之间取得平衡。

FlashVID: Efficient Video Large Language Models via Training-free Tree-Based Spatiotemporal Token Merging

提出 FlashVID,一个免训练的视频大语言模型推理加速框架,通过树状时空 token 合并(TSTM)联合建模空间和时间冗余,仅保留 10% 的视觉 token 就能保持 LLaVA-OneVision 99.1% 的性能,并能将 Qwen2.5-VL 的输入帧数提升 10 倍。

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

提出 FLoC,基于设施选址函数(facility location function)的视觉 token 压缩框架,通过子模优化在给定预算下快速选择兼具代表性和多样性的 token 子集,实现无训练、模型无关、查询无关的长视频理解 token 压缩。

From Vicious to Virtuous Cycles: Synergistic Representation Learning for Unsupervised Video Object-Centric Learning

发现 slot-based 目标中心学习中编码器(产生尖锐但有噪声的注意力图)与解码器(产生空间一致但模糊的重建掩码)之间的恶性循环,提出同步对比学习目标和 slot 正则化预热策略将其转化为良性循环,在 MOVi 和 YouTube-VIS 上大幅提升物体发现性能。

GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

通过零空间约束的在线模型编辑,将 VGGT 提供的 3D 几何信息融入 2D 通用目标跟踪器中,在保持语义判别力的同时增强几何感知能力,在遮挡和背景杂乱场景中显著提升跟踪性能。

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

提出 JavisDiT,基于 DiT 架构的音视频联合生成模型,通过层级化时空同步先验估计器(HiST-Sypo)实现细粒度的音视频时空对齐;同时构建了新基准 JavisBench(10K 复杂场景样本)和新评估指标 JavisScore。

Language-guided Open-world Video Anomaly Detection under Weak Supervision

提出语言引导的开放世界视频异常检测范式 LaGoVAD,通过将异常定义建模为随机变量并以自然语言形式输入,从理论上规避概念漂移问题;同时构建了目前最大规模的视频异常数据集 PreVAD(35K 视频),在七个数据集上零样本 SOTA。

Let's Split Up: Zero-Shot Classifier Edits for Fine-Grained Video Understanding

提出了"类别拆分"(Category Splitting)新任务,通过挖掘视频分类器权重中的潜在组合结构,在零样本条件下将粗粒度动作类别拆分为细粒度子类别,无需重训或额外数据。

Log Probability Tracking of LLM APIs

提出 Logprob Tracking (LT) 方法,仅用单token输入和单token输出的log概率即可检测LLM API的微小变更(如单步微调),灵敏度比现有方法高2-3个数量级,成本低1000倍。

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals

提出 Lumina 框架,通过"上下文-知识信号"检测RAG系统中的幻觉:用MMD度量外部上下文利用程度,用跨层token预测演化度量内部知识利用程度,无需超参调优即可泛化。

Lumos-1: On Autoregressive Video Generation with Discrete Diffusion from a Unified Model Perspective

提出 Lumos-1,一个基于 LLM 架构的统一视频生成模型:通过 MM-RoPE(分布式多模态 RoPE)解决视觉时空编码问题,通过 AR-DF(自回归离散扩散强迫)解决帧间损失不均衡问题,仅用 48 GPU 训练即可在 GenEval、VBench-I2V 和 VBench-T2V 上达到竞争力水平。

Mamba-3: Improved Sequence Modeling using State Space Principles

从SSM视角提出三项核心改进:指数-梯形离散化、复值状态空间、多输入多输出(MIMO)公式化,在不增加解码延迟的前提下显著提升模型质量和状态追踪能力,推进性能-效率Pareto前沿。

Online Time Series Prediction Using Feature Adjustment

提出 ADAPT-Z(Automatic Delta Adjustment via Persistent Tracking in Z-space),将在线时序预测的适应目标从模型参数更新转移到特征空间修正,通过轻量 adapter 融合当前特征与历史梯度来应对多步预测中的延迟反馈问题,在13个数据集上一致超越现有在线学习方法。

Quantsparse Comprehensively Compressing Video Diffusion Transformer With Model Q

本文提出 QuantSparse 框架,首次将模型量化(quantization)与注意力稀疏化(attention sparsification)协同整合用于视频扩散 Transformer 压缩,通过多尺度显著注意力蒸馏(MSAD)和二阶稀疏注意力重参数化(SSAR)解决两者朴素结合导致的"放大注意力偏移"问题,在 HunyuanVideo-13B 上以 W4A8 + 15% 注意力密度实现 3.68× 存储压缩和 1.88× 推理加速,同时几乎无损保持生成质量。

CAPO: Curvature-Aware Policy Optimization for Sample-Efficient RL in LLM Reasoning

CAPO 通过建模优化景观的二阶几何(仅在 LM head 最后一层计算曲率),实现 token 级别的数据筛选——拒绝会导致策略崩溃的更新,使 LLM 推理 RL 训练在激进超参数下仍保持稳定,样本效率提升 30 倍。

Stop Tracking Me! Proactive Defense Against Attribute Inference Attack in LLMs

TRACE-RPS 提出统一防御框架应对 LLM 属性推断攻击:TRACE 通过注意力+推理链精准定位隐私泄露文本元素做细粒度匿名化,RPS 通过轻量后缀优化诱导模型拒绝推断,将属性推断准确率从约 50% 降至 5% 以下。

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

提出 TTOM 框架,在推理时通过优化新增参数将视频生成模型的注意力与 LLM 生成的时空布局对齐,并用参数记忆机制保存历史优化上下文支持复用,在 T2V-CompBench 上相对提升 34%(CogVideoX)和 14%(Wan2.1)。

Videonsa Native Sparse Attention Scales Video Understanding

本文提出 VideoNSA,将 Native Sparse Attention(NSA)引入视频语言模型,通过压缩、选择和滑动窗口三分支动态门控的混合稀疏注意力机制,在仅使用 3.6% 注意力预算的条件下实现 128K token 的视频理解,在长视频理解、时序推理和空间理解任务上全面超越 token 压缩和无训练稀疏注意力基线。

WebOperator: Action-Aware Tree Search for Autonomous Agents in Web Environment

提出 WebOperator,一个动作感知的树搜索框架,通过投机性回溯、破坏性动作检测、动作验证与合并等机制,使 Web 自主代理能在部分可观测、不可逆的真实网页环境中安全高效地探索,在 WebArena 上以 gpt-4o 达到 54.6% SOTA 成功率。


🎯 目标检测

A Problem-Oriented Perspective and Anchor Verification for Code Optimization

提出以问题为导向(而非用户为导向)的优化对构建方法来整合多程序员的策略多样性,并设计锚点验证框架利用"慢但正确的代码"生成测试用例来缓解"优化税"(正确性损失),将优化比从 31.24% 提升到 71.06%,加速比从 2.95x 提升到 6.08x。

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

提出 AdaRank,通过可学习二值掩码自适应选择 task vector 的奇异分量(而非启发式 top-k),结合测试时熵最小化优化,大幅缓解多任务模型合并中的任务间干扰。

Beyond Linearity in Attention Projections: The Case for Nonlinear Queries

基于 WQ 代数冗余性的理论发现,将线性 Query 投影替换为非线性残差形式 Q(X)=(X+f_θ(X))/2,在相同参数量下超越增加 12.5% 参数的基线。

Breaking Scale Anchoring: Frequency Representation Learning for Accurate High-Resolution Inference from Low-Resolution Training

定义了"Scale Anchoring"新问题(低分辨率训练导致高分辨率推理误差锚定),提出架构无关的频率表征学习(FRL),通过归一化频率编码使误差随分辨率提升而下降。

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

首次将 Object-Centric Learning(Slot Attention)引入无源域自适应目标检测(SF-DAOD),通过分层 Slot 感知模块提取结构先验,并用类引导对比学习驱动域不变表征。

ConFu: Contemplate the Future for Better Speculative Sampling

提出 ConFu 框架,通过 contemplate tokens 让 draft model 预见 target model 的未来生成方向,结合 MoE 动态机制和锚点采样训练,在 EAGLE-3 基础上提升 8-11% 的接受率和速度。

Context Tokens are Anchors: Understanding the Repetition Curse in dMLLMs from an Information Flow Perspective

通过信息流分析揭示扩散多模态大语言模型(dMLLMs)在使用缓存加速时产生"重复诅咒"的内在机制,并提出 CoTA 方法有效缓解重复问题。

CORDS: Continuous Representations of Discrete Structures

提出 CORDS 框架,通过将变大小离散集合(检测框、分子原子)双射映射为连续的密度场和特征场,使模型可在场空间中学习并精确解码回离散集合,避免了固定 slot 或 padding 的限制。

Diverse Text-to-Image Generation via Contrastive Noise Optimization

提出 Contrastive Noise Optimization (CNO),通过在 Tweedie 去噪预测空间上对初始噪声施加 InfoNCE 对比损失,以预处理方式提升扩散模型生成多样性,同时保持保真度,无需修改采样过程或模型本身。

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

提出 SHINE,一个无需训练的图像合成框架,通过 Manifold-Steered Anchor Loss、Degradation-Suppression Guidance 和 Adaptive Background Blending 三个组件,利用预训练 T2I 模型(如 FLUX)内在的物理先验,实现在复杂光照条件下(阴影、水面反射等)的高质量物体插入。

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

ForestPersons 是首个专门针对森林树冠下人员检测的大规模数据集(96,482 张图像 + 204,078 标注),覆盖地面/低空视角、多季节多天气多光照条件,每个实例包含边界框+姿态+可见性标注,填补了 SAR 场景中下冠层检测的数据空白。

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

发现多模态 LLM 的推理性能与视觉注意力分数(VAS)高度相关(r=0.96),提出 AVAR 框架通过视觉锚定数据合成、注意力引导训练目标和视觉锚定奖励塑造三个阶段提升 VAS,在 77 个基准上平均提升 7%。

FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion

提出一个无需训练的少样本目标检测框架,组合 UPN、SAM2 和 DINOv2 三个基础模型生成提案和匹配特征,并通过图扩散算法精化置信度分数和抑制碎片化提案,在 Pascal-5i 和 COCO-20i 上大幅超越 SOTA。

InfoDet: A Dataset for Infographic Element Detection

构建了一个大规模信息图元素检测数据集(101,264 张信息图、1420 万标注),涵盖图表和人类可识别对象两大类,并提出 Grounded CoT 方法利用检测结果提升 VLM 的图表理解能力。

Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review

构建了迄今最大的 AI 生成同行评审数据集(788,984 篇评审),系统评估了 18 种 AI 文本检测方法在同行评审场景下的表现,并提出了利用论文原文作为上下文的 Anchor 检测方法,在低误报率下大幅超越所有基线。

Long-Context Generalization with Sparse Attention

提出 ASEntmax(Adaptive-Scalable Entmax),用可学习温度的 α-entmax 替代 softmax 注意力,从理论和实验两方面证明稀疏注意力能实现 1000× 长度外推,解决 softmax 在长上下文下的注意力弥散(dispersion)问题。

Procedural Mistake Detection via Action Effect Modeling

提出双分支多模态监督的动作效果建模框架,结合视觉分支(目标状态和空间关系特征)和文本分支(GPT-4o 生成的场景图),通过可学习的效果 token 蒸馏外部监督信号,在第一人称程序视频中实现 SOTA 错误检测。

SABRE-FL: Selective and Accurate Backdoor Rejection for Federated Prompt Learning

首次研究联邦 Prompt Learning 场景下的后门攻击威胁,并提出 SABRE-FL——一种基于 embedding 空间异常检测的轻量级服务器端防御方法,无需访问客户端原始数据即可有效过滤中毒 prompt 更新。

Sage Spatial-Visual Adaptive Graph Exploration For Efficient Visual Place Recogn

提出 SAGE,一个统一的 VPR 训练框架:引入轻量 Soft Probing 模块增强局部特征判别力,每个 epoch 在线重建融合地理距离与视觉相似度的亲和图,再通过贪心加权团扩展聚焦最难样本,冻结 DINOv2 骨干仅训练 1.96M 参数即在 8 个基准上全面 SOTA。


📐 优化/理论

Adaptive Rollout Allocation for Online RL with Verifiable Rewards (VIP)

提出 VIP(Variance-Informed Predictive allocation),通过高斯过程预测每个 prompt 的成功概率,据此用凸优化在计算预算约束下分配 rollout 数量以最小化梯度方差,在数学推理任务上一致提升 GRPO/RLOO 的采样效率,AIME24/25 上 Pass@32 最高提升 12.3 个点。

CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving

CogFlow 提出认知启发的三阶段视觉数学推理框架(感知→内化→推理),通过 Synergistic Visual Rewards 增强感知、Knowledge Internalization Reward 桥接感知与推理、Visual-Gated Policy Optimization 锚定视觉推理,解决了现有方法中"感知正确但推理漂移"的核心问题。

Constraint Matters: Multi-Modal Representation for Reducing Mixed-Integer Linear programming

提出基于约束缩减的 MILP 模型简化框架:用信息论启发的启发式规则识别关键紧约束(CTC),设计融合实例级和抽象级信息的多模态 GNN 表征来预测 CTC,在大规模 MILP 上解质量提升 50%+、计算时间减少 17.47%。

Converge Faster, Talk Less: Hessian-Informed Federated Zeroth-Order Optimization

提出 HiSo,在联邦零阶优化中利用全局对角 Hessian 近似加速收敛,同时严格保持标量通信(不传输任何二阶信息),理论证明收敛速率独立于 Lipschitz 常数 \(L\) 和模型维度 \(d\),在 LLM 微调中通信轮次比 SOTA 零阶方法快 1-5 倍。

Convergence of Muon with Newton-Schulz

首次为实际使用的 Muon 优化器(使用 Newton-Schulz 近似而非精确 SVD 极坐标分解)提供非凸收敛保证:证明收敛速率匹配 SVD 理想化版本(差一个常数因子),该因子随 Newton-Schulz 步数 \(q\) 双指数衰减,且 Muon 比向量对应物 SGD-M 少 \(\sqrt{r}\) 倍秩损失。

Convex Dominance in Deep Learning I: A Scaling Law of Loss and Learning Rate

从凸优化理论出发,证明深度学习训练损失以 O(1/sqrt(T)) 速率收敛,最优学习率以 1/sqrt(T) 缩放,在 GPT-2 到 12.5B 参数模型上验证了该缩放律(R^2 >= 0.978),并实现了 80 倍训练步数的学习率外推。

Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding

提出 FlexQP——基于 \(\ell_1\) 弹性松弛的"永远可行"凸二次规划(QP)求解器,结合深度展开(deep unfolding)学习 LSTM 反馈策略加速收敛得到 Deep FlexQP;在 SQP 框架中作为子模块,解非线性轨迹优化比 OSQP 快 4-16 倍,预测安全滤波器的安全违规减少 70%+、任务完成率提升 43%。

Directional Convergence, Benign Overfitting of Gradient Descent in leaky ReLU two-layer Neural Networks

首次证明了梯度下降(gradient descent)在 leaky ReLU 两层神经网络中的方向收敛性(directional convergence),并据此在远超近正交数据(nearly orthogonal data)的更广泛混合数据设定下建立了 benign overfitting 的充分条件,同时发现了一个新的相变(phase transition)现象。

Dual Optimistic Ascent (PI Control) is the Augmented Lagrangian Method in Disguise

揭示了一个让人惊讶的等价性:广泛使用的双优化上升(Dual Optimistic Ascent / PI 控制)在数学上等价于增广拉格朗日方法(ALM),从而将 RL/RLHF 中的约束优化与经典优化理论统一起来,提供了更强的收敛保证和实用参数调优指南。

Exploring Diverse Generation Paths via Inference-time Stiefel Activation Steering

提出 STARS(Stiefel-based Activation Steering for Diverse ReaSoning),一种 training-free 的推理时激活转向方法,在每个 token 解码时于 Stiefel 流形上联合优化 N 条并行生成路径的正交 steering 方向,最大化隐状态的几何体积以促进发散的激活轨迹,在测试用例生成(TestEval)和科学发现(LiveIdeaBench)上以极低延迟一致超越温度采样的多样性,且不损失质量。

Faster Gradient Methods for Highly-Smooth Stochastic Bilevel Optimization

通过将 F2SA 方法重新解释为前向差分近似 hyper-gradient,提出利用高阶有限差分的 F2SA-p 方法族,在高阶光滑条件下将随机双层优化的 SFO 复杂度从 \(\tilde{\mathcal{O}}(\epsilon^{-6})\) 改进至 \(\tilde{\mathcal{O}}(p\epsilon^{-4-2/p})\),并证明了 \(\Omega(\epsilon^{-4})\) 下界表明该方法在 \(p\) 足够大时近乎最优。

FrontierCO: Real-World and Large-Scale Evaluation of Machine Learning Solvers for Combinatorial Optimization

FrontierCO 是一个涵盖 8 类组合优化问题(TSP、MIS、CVRP 等)的大规模真实世界基准测试,评估了 16 个 ML 求解器(神经网络方法 + LLM Agent)与 SOTA 传统求解器的差距,发现 ML 方法在结构复杂和极大规模实例上仍显著落后于传统方法,但在部分场景有超越潜力。

∇-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

提出 ∇-Reasoner,将推理时的搜索从零阶(采样+评估)升级为一阶(梯度下降),在 token logits 空间上通过可微文本优化(DTO)结合 reward 梯度和 LLM 似然来迭代改进解码策略,在数学推理任务上提升 10-40% 准确率的同时减少 10-40% 的模型调用次数。

Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit

证明在通用非退化假设下,标准两层神经网络通过分层梯度下降可以用 \(\tilde{O}(d)\) 样本和 \(\tilde{O}(d^2)\) 时间学习通用高斯 Multi-Index 模型 \(f(\bm{x})=g(\bm{U}\bm{x})\),样本和时间复杂度都达到信息论最优,首次证明神经网络可以高效学习层次化函数。

Provable and Practical In-Context Policy Optimization for Self-Improvement

提出 In-Context Policy Optimization (ICPO) 框架,理论证明单层线性自注意力 Transformer 经充分预训练后可在上下文中模拟策略优化算法,并设计实用的 ME-ICPO 算法通过最小熵选择和自评估奖励实现测试时多轮自反思,在数学推理任务上取得显著提升(AIME 2024 上 Qwen2.5-Math-7B 从 11% 提升到 30%)。

RRNCO: Towards Real-World Routing with Neural Combinatorial Optimization

提出 RRNCO 架构,通过自适应节点嵌入(ANE)和神经自适应偏置(NAB)两大创新,首次在深度路由框架中联合建模非对称距离、时长和方向角,并构建了基于 100 个真实城市的 VRP 基准数据集,显著缩小了 NCO 方法从仿真到真实世界部署的差距。

Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

提出 Scaf-GRPO 框架,通过分层 in-prompt hint 注入(知识→规划→求解)解决 RLVR 中的"学习悬崖"问题——当模型对难题持续零奖励时,以最小引导恢复学习梯度,在 AIME24 上相对 vanilla GRPO 提升 44.3%。

Test-Time Meta-Adaptation with Self-Synthesis

提出MASS框架,通过双层优化元学习让LLM在推理时自动生成问题特定的合成训练数据并自更新(LoRA),在MATH-500上将Llama-3.1-8B从43.6%提升到59.0%。

The Affine Divergence: Aligning Activation Updates Beyond Normalisation

揭示了梯度下降中参数最速下降方向与传播到激活后的有效更新之间存在根本性不对齐("仿射散度"\(\Delta\mathcal{L}/\Delta z_i = (\partial\mathcal{L}/\partial z_i) \cdot (\|\vec{x}\|^2+1)\)),从第一性原理推导出归一化是消除此散度的自然解,并发现一种非归一化的替代方案在实验中超越传统归一化。


🧑 人体理解

AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations

提出AMemGym——首个支持on-policy交互式评估的长程对话记忆基准环境,通过结构化数据采样(用户画像→状态演化→个性化问答)驱动LLM模拟用户进行角色扮演,揭示了off-policy评估的排名偏差问题,并系统诊断了RAG/长上下文/Agent记忆系统的write/read/utilization三阶段失败模式。

AMPED: Adaptive Multi-objective Projection for balancing Exploration and skill Diversification

提出AMPED框架,在技能预训练阶段用梯度手术(PCGrad)平衡探索(熵+RND)和技能多样性(AnInfoNCE)之间的梯度冲突,在微调阶段用SAC-based技能选择器自适应选择最优技能,在Maze和URLB基准上超越DIAYN/CeSD/CIC等SBRL基线。

An Efficient, Provably Optimal Algorithm for the 0-1 Loss Linear Classification Problem

提出增量单元枚举算法(ICE),首个具有严格证明的独立算法,可以在 \(O(N^{D+1})\) 时间内精确求解0-1损失线性分类问题的全局最优解,并扩展到多项式超曲面分类。

Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence

提出Antibody防御框架:在对齐阶段通过平坦度正则化使模型处于有害损失的平坦区域(梯度小→难被攻击),在微调阶段用基于模型安全知识的样本加权方案(对比目标完成 vs 拒绝的似然比)抑制有害样本的学习,平均Harmful Score从15.29%降至7.04%。

Bayesian Influence Functions for Hessian-Free Data Attribution

提出 Local Bayesian Influence Function (BIF),用 SGLD 采样估计的协方差替代经典影响函数中不可行的 Hessian 逆运算,实现了对数十亿参数模型的无架构限制数据归因,在重训练实验中达到 SOTA。

Biologically Plausible Online Hebbian Meta-Learning: Two-Timescale Local Rules for Spiking Neural Brain Interfaces

提出一种无需BPTT的在线SNN解码器,通过三因子Hebbian局部学习规则结合双时间尺度eligibility trace和自适应学习率控制,在O(1)内存下实现可比离线训练方法的BCI神经解码精度(Pearson R≥0.63/0.81),并在闭环仿真中展现了对神经信号非平稳性的持续适应能力。

COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics

提出 COLD-Steer,通过近似梯度下降在上下文示例上产生的表征变化来实现无训练的 LLM 激活转向,在仅用 50 分之一样本量的情况下达到 95% 的转向效果。

CollectiveKV: Decoupling and Sharing Collaborative Information in Sequential Recommendation

观察到序列推荐中不同用户的 KV cache 具有显著跨用户相似性(协同信号),提出 CollectiveKV 将 KV 分解为低维用户特有部分和从全局 KV 池检索的高维共享部分,实现 0.8% 的压缩率且性能不降。

Condition Matters in Full-head 3D GANs

发现全头 3D GAN 中视角条件导致严重方向偏差(条件视角生成质量远优于其他视角),提出用视角不变的语义特征(正脸 CLIP 特征)替代视角作为条件,配合 Flux.1 Kontext 合成的 1120 万张 360° 平衡数据集,首次实现全视角一致的高保真多样全头生成。

DGNet: Discrete Green Networks for Data-Efficient Learning of Spatiotemporal PDEs

基于Green函数理论,将叠加原理嵌入物理-神经混合架构,构建离散Green网络DGNet,在仅用数十条训练轨迹的条件下实现SOTA精度,并展现对未见源项的鲁棒零样本泛化。

DiffVax: Optimization-Free Image Immunization Against Diffusion-Based Editing

DiffVax 训练一个前馈免疫器(UNet++),对任意图像仅需一次前向传播(~70ms)即可生成不可感知的对抗扰动,使基于扩散模型的恶意编辑失败,相比先前逐图优化方法实现 250,000× 加速,并首次将免疫扩展到视频内容。

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

提出CAZI-MBN框架,通过融合领域特定LLM序列嵌入、拓扑感知图分词器、上下文感知跨层注意力和教师-学生蒸馏,实现多重生物网络中未见实体的零样本交互预测,在5个基准数据集上AUROC较最优baseline提升3.1-20.4%。

EgoHandICL: Egocentric 3D Hand Reconstruction with In-Context Learning

首次将上下文学习(ICL)范式引入3D手部重建,通过VLM引导的模板检索、多模态ICL分词器和MAE驱动的重建流程,在ARCTIC和EgoExo4D基准上显著超越SOTA方法。

Function Spaces Without Kernels: Learning Compact Hilbert Space Representations

证明函数编码器(Function Encoders)通过学习神经网络基函数定义了一个有效的核,建立了神经特征学习与RKHS理论的桥梁,并提出PCA引导的紧凑基选择算法和有限样本泛化界。

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

提出 Snippet 范式:将步态轮廓序列组织为若干"片段"(snippet),每个 snippet 由一个连续区间内随机抽取的帧构成,兼顾短程时序上下文与长程时序依赖,在 Gait3D 上以 2D 卷积骨干达到 77.5% Rank-1,超越所有 3D 卷积方法。

Generalizable End-to-End Tool-Use RL with Synthetic CodeGym

提出 CodeGym 框架,将编程题自动转化为多轮工具调用的交互式环境,用于 LLM agent 的强化学习训练,在分布外基准上取得显著泛化提升(如 Qwen2.5-32B 在 τ-Bench 上 +8.7 点)。

NeuroGaze-Distill: Brain-informed Distillation and Depression-Inspired Geometric Priors for Robust Facial Emotion Recognition

提出 NeuroGaze-Distill 跨模态蒸馏框架:从 EEG 脑电训练的教师模型中提取静态 Valence-Arousal 原型,通过 Proto-KD 和抑郁症启发的几何先验(D-Geo)注入纯视觉学生模型,无需 EEG-人脸配对数据,提升表情识别的跨数据集鲁棒性。

Soft Equivariance Regularization for Invariant Self-Supervised Learning

提出 SER(Soft Equivariance Regularization),通过在 ViT 中间层施加软等变正则化、在最终层保持不变性目标的层解耦设计,在不引入额外模块的情况下,为不变性 SSL 方法(MoCo-v3, DINO, Barlow Twins)带来一致的分类精度和鲁棒性提升。


🕸️ 图学习

A Geometric Perspective on the Difficulties of Learning GNN-based SAT Solvers

从图 Ricci 曲率的几何视角证明随机 k-SAT 问题的二部图表示具有固有的负曲率,且曲率随问题难度增加而下降,建立了 GNN 过压缩 (oversquashing) 与 SAT 求解困难之间的理论联系,并通过测试时图重布线验证了该理论。

Are We Measuring Oversmoothing in Graph Neural Networks Correctly?

指出广泛使用的Dirichlet energy指标无法在实际场景中正确捕获GNN过平滑现象,提出以特征表征的数值秩/有效秩(effective rank)作为替代度量,实验表明Erank与准确率的平均相关性达0.91(vs Dirichlet energy的0.72),在OGB-Arxiv上Dirichlet energy甚至呈现错误的相关方向,并从理论上证明对广泛的GNN架构族其数值秩收敛到1(秩坍塌),重新定义过平滑为秩坍塌而非特征向量对齐。

Beyond Simple Graphs: Neural Multi-Objective Routing on Multigraphs

首次提出针对多重图(multigraph)的神经组合优化路由方法 GMS,包含直接在多重图上边级自回归构造的 GMS-EB 和先学习剪枝再节点级路由的双头 GMS-DH 两个变体,在非对称多目标 TSP 和 CVRP 上实现了接近精确求解器 LKH 的性能且速度快数十倍。

Bilinear Representation Mitigates Reversal Curse and Enables Consistent Model Editing

通过在合成关系知识图谱上从头训练 Transformer,发现适当正则化会使模型隐层涌现出双线性关系结构(bilinear relational structure),该结构不仅能克服逆向诅咒(reversal curse),还能实现编辑单个事实后逻辑一致地传播到相关事实。

Cooperative Sheaf Neural Networks

提出 Cooperative Sheaf Neural Network (CSNN),通过在有向图上定义 cellular sheaf 的入度/出度 Laplacian,使节点能独立选择是否广播 (PROPAGATE) 或监听 (LISTEN) 信息,从而缓解过压缩并提升异质图节点分类性能。

Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization

提出 Memento 评估框架,系统揭示 LLM 具身智能体在个性化辅助任务中的记忆利用瓶颈(信息过载、多记忆协调失败),并设计层次化知识图谱用户画像记忆模块显著改善性能。

Explore-on-Graph: Incentivizing Autonomous Exploration of LLMs on Knowledge Graphs

提出 Explore-on-Graph(EoG),通过 SFT + 两阶段强化学习(结果奖励 + 路径精炼奖励),激励 LLM 在知识图谱上自主探索超出训练分布的推理路径,在五个 KGQA 基准上超越 GPT-5 和 Gemini 2.5 Pro。

GRAPHITE: Graph Homophily Booster — Reimagining the Role of Discrete Features in Heterophilic Graph Learning

提出 GRAPHITE,一种通过引入"特征节点"作为 hub 间接连接共享特征的节点来直接提升图同质性的非学习图变换方法,首次从"改变图结构"而非"改变 GNN 架构"的角度解决异质图问题,在 Actor 等困难基准上显著超越 27 种 SOTA 方法。

Graph Tokenization for Bridging Graphs and Transformers

提出 GraphTokenizer 框架,将图通过可逆的频率引导序列化转换为符号序列,再用 BPE 学习图子结构词汇表,使标准 Transformer(如 BERT/GTE)无需任何架构修改即可直接处理图数据,在 14 个 benchmark 上达到 SOTA。

GraphUniverse: Synthetic Graph Generation for Evaluating Inductive Generalization

提出 GraphUniverse 框架,通过分层生成具有持久语义社区的图族(graph families),首次实现对图学习模型归纳泛化能力的系统性评估,揭示了 transductive 性能无法可靠预测 inductive 泛化能力这一关键发现。

Learning Concept Bottleneck Models from Mechanistic Explanations

提出 Mechanistic CBM (M-CBM),利用 Sparse Autoencoder 从黑盒模型自身学到的特征中提取概念,再由多模态 LLM 命名和标注,构建可解释的 Concept Bottleneck Model,在控制信息泄露的条件下显著优于现有 CBM 方法。

NeuroCircuitry-Inspired Hierarchical Graph Causal Attention Networks for Explainable Depression Identification

提出 NH-GCAT 框架,将神经科学中的抑郁症神经环路先验知识显式融入 GNN,在区域、环路和网络三个空间尺度上建模,在 REST-meta-MDD 数据集上取得 SOTA 分类效果(AUC 78.5%、ACC 73.8%),并提供与神经科学相符的可解释性分析。

On the Expressive Power of GNNs for Boolean Satisfiability

从 Weisfeiler-Leman (WL) 测试角度严格证明了完整的 WL 层级无法区分可满足与不可满足的 3-SAT 实例,揭示了 GNN 用于 SAT 求解的理论表达力极限,同时识别出平面 SAT 和随机 SAT 等 GNN 可成功区分的正面实例族。

Pairwise is Not Enough: Hypergraph Neural Networks for Multi-Agent Pathfinding

提出 HMAGAT,用有向超图注意力网络替代 GNN 的成对消息传递来建模多智能体路径规划中的群体交互,仅用 1M 参数和 1% 训练数据即超越 85M 参数的 SOTA 模型。

RAS: Retrieval-And-Structuring for Knowledge-Intensive LLM Generation

提出 RAS 框架,在推理时为每个问题动态构建查询特定的知识图谱,通过迭代检索规划、文本到三元组转换和图增强回答三个阶段实现结构化推理,在 7 个知识密集型基准上对开源和闭源 LLM 分别取得最高 7.0% 和 8.7% 的提升。

Relational Graph Transformer

提出 RelGT,首个专为关系型数据库设计的图 Transformer,通过多元素 Token 化(特征/类型/跳距/时间/局部结构 5 元组)和局部-全局混合注意力机制,在 RelBench 基准的 21 个任务上一致超越 GNN 基线,最高提升 18%。


🔄 自监督/表示学习

Decoupling Dynamical Richness from Representation Learning: Towards Practical Measurement

提出一种计算高效、与性能无关的动态丰富度度量 \(\mathcal{D}_{LR}\),通过比较最后一层前后的激活来衡量 rich/lazy 训练动态,并证明 neural collapse 是该度量的特殊情况。

Difficult Examples Hurt Unsupervised Contrastive Learning: A Theoretical Perspective

通过相似度图模型理论分析证明"困难样本"(跨类高相似度样本)会损害无监督对比学习性能,提出删除困难样本、调节 margin 和温度缩放三种策略,在 TinyImageNet 上带来 15% 的提升。

Enhancing Molecular Property Predictions by Learning from Bond Modelling and Interactions

提出 DeMol 双图增强多尺度交互框架,通过并行的原子中心图和键中心图通道以及 Double-Helix Blocks 显式建模原子-原子、原子-键、键-键三类交互,在 PCQM4Mv2、OC20、QM9 等基准上取得 SOTA。

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

受果蝇嗅觉回路启发,提出 Fly-CL 框架,通过稀疏随机投影+top-k操作+流式岭分类三阶段渐进去相关,在预训练模型持续学习中大幅降低训练时间的同时达到SOTA水平。

G-reasoner: Foundation Models for Unified Reasoning over Graph-structured Knowledge

提出 G-reasoner,通过 QuadGraph 四层统一图接口将异构知识源标准化,训练 34M 参数的 GNN 图基础模型联合推理图拓扑和文本语义,配合 LLM 在 6 个基准上全面超越 SOTA GraphRAG 方法。

Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models

提出 GradFix 方法,利用目标模型的梯度符号作为掩码过滤源模型的任务向量,仅保留与目标损失景观对齐的分量,在少样本下实现跨预训练模型的任务知识迁移,并提供一阶下降保证。

InfoNCE Induces Gaussian Distribution

从理论上证明 InfoNCE 损失函数在两种互补机制下会诱导表征趋向高斯分布:经验理想化路线(对齐+球面均匀性→高斯)和正则化路线(消失正则项→各向同性高斯),并在合成数据和 CIFAR-10 上验证。

Maximizing Incremental Information Entropy for Contrastive Learning

提出IE-CL(Incremental-Entropy Contrastive Learning)框架,通过显式优化增强视图间的熵增益(而非仅最大化互信息),将编码器视为信息瓶颈并联合优化可学习变换(生成熵)与编码器正则化器(保留熵),在小batch设置下一致提升CIFAR-10/100、STL-10和ImageNet上的对比学习性能,且核心模块可即插即用集成到现有框架。

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

提出 Self-Representation Alignment (SRA),利用扩散 Transformer 内部从"差到好"的判别过程,将早层高噪声的表征对齐到晚层低噪声的表征,无需外部表征组件即可加速生成训练并提升质量。

PICS: Pairwise Image Compositing with Spatial Interactions

提出 PICS——一种并行成对图像合成方法,通过 Interaction Transformer 中的掩码引导 MoE 和自适应 α-blending 策略,在单次推理中同时合成两个对象并显式建模遮挡、接触等空间交互关系,全面超越现有序列合成方法。

PonderLM: Pretraining Language Models to Ponder in Continuous Space

提出 PonderLM,在预训练阶段引入"沉思"机制——将预测概率分布加权求和为连续嵌入后反复前向传播,无需标注数据或强化学习,使 2.8B 模型在 9 个下游任务上超越 6.9B 模型。

Revela: Dense Retriever Learning via Language Modeling

提出 Revela,通过 in-batch attention 机制将检索器学习融入语言建模——NTP 不仅依赖本序列上下文,还依赖批内其他序列(由检索器相似度加权),无需标注 query-document 对即可训练强大的密集检索器。

Spectralgcd Spectral Concept Selection And Cross-Modal Representation Learni

提出 SpectralGCD,通过将图像表示为 CLIP 跨模态图像-文本相似度向量(语义概念混合),并用谱滤波自动筛选任务相关概念 + 正反向知识蒸馏保持语义质量,在六个基准上以接近单模态方法的训练开销取得多模态 GCD 新 SOTA。

Temporal Slowness in Central Vision Drives Semantic Object Learning

通过模拟人类中央视觉(注视点裁剪)和时间慢性原则(时间对比学习),在 Ego4D 数据上训练 SSL 模型,发现两者组合能有效提升语义对象表征——中央视觉强化前景提取,时间慢性在注视凝视期间蒸馏语义信息。

Weak-SIGReg: Covariance Regularization for Stable Deep Learning

将 LeJEPA 的 SIGReg 正则化从自监督学习迁移到监督学习,并提出计算高效的 Weak-SIGReg 变体——只约束协方差矩阵趋向单位矩阵(而非全部矩),用随机投影将内存从 \(O(C^2)\) 降至 \(O(CK)\),在 ViT 无 BN/残差连接时将 CIFAR-100 准确率从 20.73%(坍缩)恢复到 72.02%,且匹配或超越专家精调的基线。

Why Prototypes Collapse: Diagnosing and Preventing Partial Collapse in Prototypical Self-Supervised Learning

诊断出原型自监督学习中部分原型坍缩的根因是编码器与原型的联合优化导致的快捷学习,提出全解耦训练策略——用在线 GMM 独立估计原型——彻底消除坍缩并提升下游性能。


🎵 音频/语音

AC-Foley: Reference-Audio-Guided Video-to-Audio Synthesis with Acoustic Transfer

提出 AC-Foley,一种参考音频引导的视频到音频合成框架,通过两阶段训练(声学特征学习+时序适应)和多模态条件流匹配实现了细粒度音色控制、音色迁移和零样本音效生成,在音频质量和声学保真度上显著优于现有方法。

Discovering and Steering Interpretable Concepts in Large Generative Music Models

首次将 Sparse Autoencoder (SAE) 应用于音频/音乐领域,从自回归音乐生成模型 MusicGen 的残差流中提取可解释的音乐概念特征,并利用这些特征实现可控生成(steering)。

Dynamic Parameter Memory: Temporary LoRA-Enhanced LLM for Long-Sequence Emotion Recognition in Conversation

提出 Dynamic Parameter Memory (DPM) 机制,在推理阶段通过逐句将语音信息编码到临时 LoRA 模块的参数空间中,使有限上下文窗口的语音大语言模型能够处理无限长度的情感对话音频,在 IEMOCAP 和 MELD 上达到 SOTA。

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

提出 EchoMind,首个面向共情对话的多层级关联基准,通过理解→推理→对话的认知流程,系统评估 Speech Language Models 感知非语言声学线索并生成共情回复的能力。

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

提出 Dolphin 模型,通过双路径轻量视频编码器 DP-LipCoder 将唇部运动映射为离散语义 token,并设计全局-局部注意力(GLA)分离器,在三个基准上超越 SOTA 同时参数减少 50%+、MACs 降低 2.4×、GPU 推理加速 6×。

EmotionThinker: Prosody-Aware Reinforcement Learning for Explainable Speech Emotion Reasoning

首次将语音情感识别(SER)重构为深度推理问题,通过韵律增强基座模型 + GRPO-PTR(渐进式可信推理奖励)强化学习,生成带有声学依据的可解释情感推理。

FlexiCodec: A Dynamic Neural Audio Codec for Low Frame Rates

提出 FlexiCodec,通过 ASR 特征引导的动态帧率合并策略,在 3–12.5Hz 超低帧率下实现高质量语音编解码,同时保持优异的语义信息保留能力。

Incentive-Aligned Multi-Source LLM Summaries

将博弈论中的多任务 peer prediction 机制引入 LLM 多源摘要管线,提出 Truthful Text Summarization (TTS) 框架:通过 leave-one-out 交叉构造评价声明集、提取每个来源对声明的立场、用 informative agreement 评分来源可靠性并过滤不可靠来源后重新摘要,理论上证明"如实报告是效用最大策略",实验中有效抵御 prompt injection、虚假信息源和协同攻击。

Latent Speech-Text Transformer

提出 Latent Speech-Text Transformer (LST),将离散语音 token 聚合为更高层级的"潜在语音 patch"作为自回归单元(类似 BLT 对 bytes 的处理),对齐语音和文本的序列建模粒度(从 20× 缩小到 ~1:1),在 speech HellaSwag 上获得 +6.5% 绝对提升且增益从 420M→7B 持续增长,同时降低 ASR/TTS 推理计算成本。

MAPSS: Manifold-Based Assessment of Perceptual Source Separation

提出 Perceptual Separation(PS)和 Perceptual Match(PM)两个互补度量,利用扩散映射将自监督编码表示嵌入低维流形,首次在功能上解耦音源分离中的泄漏和自失真,与 18 种主流指标对比在与主观评分的相关性上几乎始终排名第一或第二。

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

提出 MMSU(5000 条音频 QA、47 个任务),首个系统融合语言学理论的语音理解与推理基准,评测 22 个 SpeechLLM,发现现有模型在音韵感知和复杂推理上仍存在显著差距。

PACE: Pretrained Audio Continual Learning

首次系统性构建音频持续学习基准,揭示预训练音频模型因底层频谱特征主导导致的上游-下游不匹配问题,提出 PACE 方法(改进首会话适应 + 自适应子空间正交 PEFT + 边界感知扰动),在 6 个音频 CL 基准上大幅超越 SOTA。

Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition

提出 USR 2.0,用 CTC 驱动的教师强制替代自回归伪标签生成,注意力伪标签在单次前向传播中完成,训练速度提升近 2×,通过 CTC-注意力联合预测增强分布外鲁棒性,在 LRS3/LRS2/WildVSR 上实现 ASR/VSR/AVSR 三任务统一模型 SOTA。

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

提出 QSTar 框架,通过在整个处理流程中嵌入问题引导(Query Guidance),并引入空间-时序-频域三维度交互模块(特别是利用频谱特征区分音色),显著提升了音乐场景下的音频-视觉问答(Music AVQA)性能。

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

构建首个混合 Web-OS 环境的 CUA 红队测试框架 RedTeamCUA 和 864 个测试用例的 RTC-Bench,系统评估 9+ 前沿 CUA 对间接 prompt injection 的脆弱性,发现所有 CUA 均可被攻击(最高 ASR 83%),且能力越强的模型越危险——攻击尝试率(AR)远高于成功率(ASR)意味着模型能力提升将直接转化为更高的攻击成功率。


📈 时间序列

Adapt Data to Model: Adaptive Transformation Optimization for Domain-shared Time Series Foundation Models

提出TATO框架,通过自动优化数据预处理 pipeline(包括上下文裁切、尺度归一化、异常值校正),让冻结的大型时序模型(LTM)在不微调的情况下适配不同下游领域,平均降低MSE 13.6%,最高65.4%。

Contextual and Seasonal LSTMs for Time Series Anomaly Detection

针对单变量时间序列中现有方法难以检测的"小幅点异常"和"缓慢上升异常",提出 CS-LSTMs 双分支架构——S-LSTM 在频域建模周期性演化、C-LSTM 在时域捕捉局部趋势,结合小波噪声分解策略,在四个基准上全面超越 SOTA 且推理速度提升 40%。

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

提出 CPiRi 框架,通过冻结的预训练时序编码器 + 轻量空间 Transformer + 通道打乱训练策略,实现通道排列不变 (CPI) 的跨通道关系建模,在 5 个基准上达到 SOTA 且通道打乱后性能几乎无损 (\(\Delta\)WAPE < 0.25%)。

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

提出 CPiRi 框架,通过冻结预训练时序编码器 + 可训练置换等变空间模块 + 通道打乱训练策略,在不牺牲跨通道建模能力的前提下实现通道排序不变性(CPI),在多个交通基准上达到 SOTA。

EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements

构建了基于日本 EDINET 十年年报的金融基准 EDINET-Bench,包含会计欺诈检测、盈利预测和行业分类三项专家级任务,发现即使是 SOTA LLM 也仅略优于逻辑回归。

Enhancing Multivariate Time Series Forecasting with Global Temporal Retrieval

提出 Global Temporal Retriever(GTR),一个轻量级即插即用模块,通过维护自适应全局周期嵌入并利用绝对时间索引检索对齐全局周期信息,使任意预测模型突破回看窗口限制,有效捕获远超输入长度的全局周期模式。

Free Energy Mixer

提出 Free Energy Mixer (FEM),通过将注意力的值读取重新定义为自由能(log-sum-exp)优化问题,实现了逐通道的值感知后验选择,克服了标准注意力"无损存储但有损读取"的固有瓶颈,可即插即用替换 softmax/线性注意力/RNN/SSM,在 NLP、视觉和时间序列任务上一致提升。

From Samples to Scenarios: A New Paradigm for Probabilistic Forecasting

提出 Probabilistic Scenarios 范式,用模型直接输出有限个 {场景, 概率} 对取代采样,并用仅含三层平行线性层的 TimePrism 在5个基准数据集上取得9/10 SOTA。

GTM: A General Time-series Model for Enhanced Representation Learning of Time-Series Data

提出 GTM,一个通过频域注意力机制捕获时间粒度感知特征的通用时序基础模型,结合混合掩码预训练策略,首次实现无需任务特定修改即可适配所有生成式时序任务。

GTM: A General Time-series Model for Enhanced Representation Learning

提出 GTM,一个通过频域注意力机制捕获时间粒度感知特征、并通过混合掩码统一重建与自回归预训练目标的通用时间序列基础模型,在预测、补全、异常检测、分类等多任务上均达到 SOTA。

HiVid: LLM-Guided Video Saliency For Content-Aware VOD And Live Streaming

提出 HiVid 框架,首次利用 LLM 作为人类代理为视频块生成内容重要性权重,通过感知模块(滑动窗口评分)、排序模块(LLM 引导归并排序去除评分偏差)和预测模块(多模态时间序列预测自适应延迟)实现内容感知流媒体传输,

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

发现时间序列配对文本具有与时间序列相似的周期性(Chronological Textual Resonance),提出 TaTS 框架将文本表征转化为辅助变量,以即插即用方式增强任意现有时间序列模型的预测和插补性能。

Learning Recursive Multi-Scale Representations for Irregular Multivariate Time Series Forecasting

提出 ReIMTS,通过基于时间段的递归分割(而非重采样)来保留不规则多变量时间序列的原始采样模式,结合不规则感知的表示融合机制实现多尺度建模,作为插件在六种 IMTS 骨干上平均提升 27.1%。

PAANO: Patch-Based Representation Learning for Time-Series Anomaly Detection

提出 PaAno,一种基于 patch 级表示学习的轻量时间序列异常检测方法,使用 1D-CNN 编码器 + triplet loss + pretext loss 学习 patch 嵌入空间,通过与记忆库中正常 patch 的距离计算异常分数,在 TSB-AD 基准上全面 SOTA,且仅需 0.3M 参数和数秒推理。

Reasoning on Time-Series for Financial Technical Analysis

提出 Verbal Technical Analysis (VTA) 框架,结合 LLM 的语言推理能力与时间序列模型的模式捕捉能力,通过 Time-GRPO 强化学习优化推理链,并以推理属性条件化时序预测,实现了兼具准确性和可解释性的金融时间序列预测。


🚗 自动驾驶

SMART-R1: Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

SMART-R1 首次将 R1 风格的强化微调(RFT)引入多智能体交通仿真,提出 Metric-oriented Policy Optimization (MPO) 算法和"SFT-RFT-SFT"迭代训练策略,在 WOSAC 2025 排行榜上以 0.7858 的 Realism Meta 分数取得第一名。

Astra: General Interactive World Model with Autoregressive Denoising

提出 Astra,一个通用交互式世界模型,通过自回归去噪框架在预训练视频扩散模型上实现动作条件化的长程视频预测,引入 ACT-Adapter(动作注入)、噪声增强历史记忆(缓解视觉惯性)和 Mixture of Action Experts(统一多异构动作模态),在自动驾驶、机器人操控和场景探索等多场景上实现 SOTA 的保真度和动作跟随能力。

BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving

BridgeDrive 提出用扩散桥(diffusion bridge)替代截断扩散来实现锚点引导的自动驾驶轨迹规划,保证前向/反向过程的理论对称性,在 Bench2Drive 闭环评估中成功率达到 74.99%(PDM-Lite)和 89.25%(LEAD),分别超越前 SOTA 7.72% 和 2.45%。

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

DrivingGen 提出首个面向自动驾驶视频世界模型的综合性基准,包含跨天气/地域/时间/复杂场景的多样化评估数据集和四维度评估指标体系(分布、质量、时序一致性、轨迹对齐),对 14 个 SOTA 模型的评测揭示了通用模型与驾驶专用模型之间的核心权衡。

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Apple 使用 Vision Pro 采集了 829 小时的第一人称视频 + 3D 手部关节追踪数据(EgoDex),覆盖 194 种桌面操作任务,并在此数据集上系统评估了模仿学习策略(BC/DDPM/FM + Transformer),为灵巧操作的扩展训练提供了迄今最大规模的数据基础。

MARC: Memory-Augmented RL Token Compression for Efficient Video Understanding

提出 MARC 框架,通过"先检索再压缩"策略——用 Visual Memory Retriever (VMR) 选出与查询最相关的视频片段,再用 Compression GRPO (C-GRPO) 将 64 帧教师模型的推理能力蒸馏到仅用 1 帧 token 的学生模型——实现视觉 token 95% 压缩,GPU 显存降低 72%,推理延迟降低 23.9%,性能几乎无损(42.20 vs 42.21)。

Multi-Head Low-Rank Attention (MLRA)

提出 Multi-Head Low-Rank Attention (MLRA),通过将 MLA 的单一 latent head 分解为多个可独立分片的 latent head,并对各分支注意力输出求和,实现原生 4-way 张量并行支持,在保持 SOTA 性能的同时获得 2.8× 的解码加速。

NeMo-map: Neural Implicit Flow Fields for Spatio-Temporal Motion Mapping

提出 NeMo-map——基于神经隐式函数的连续时空动态地图,将空间-时间坐标直接映射为半包裹高斯混合模型(SWGMM)参数,消除传统方法的空间离散化和时间分段限制,在真实行人追踪数据上实现更低 NLL 和更平滑的速度分布。

ResWorld: Temporal Residual World Model for End-to-End Autonomous Driving

ResWorld 提出时序残差世界模型(TR-World),通过计算 BEV 场景表征的时序残差来提取动态物体信息(无需检测/跟踪),避免对静态区域的冗余建模,结合未来引导轨迹优化(FGTR)模块利用预测的未来 BEV 特征修正规划轨迹,在 nuScenes 和 NAVSIM 上达到 SOTA 规划性能。

SEAL: Segment Any Events with Language

首次提出开放词汇事件实例分割(OV-EIS)任务,设计 SEAL 框架通过多模态层次语义引导(MHSG)和轻量多模态融合网络,在仅使用事件-图像对(无密集标注)的情况下,实现事件流的多粒度(实例级+部件级)语义分割,大幅领先所有基线方法且推理速度最快。

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

提出 SiMO 框架,通过 LAMMA 融合模块和 PAFR 训练策略,首次在多智能体协同感知中实现任意模态缺失(特别是 LiDAR 失效仅有相机可用时)下仍可正常工作的多模态感知系统,类似并联电路——只要有一条通路就能工作。

SPACeR: Self-Play Anchoring with Centralized Reference Models

SPACeR 提出"类人自博弈"框架,用预训练的 tokenized 自回归运动模型作为集中式参考策略,通过对数似然奖励和 KL 散度约束引导去中心化自博弈 RL 策略向人类驾驶分布对齐,在 WOSAC 上超越纯自博弈方法,同时推理速度比模仿学习快 10 倍、参数量小 50 倍。

ST4VLA: Spatially Guided Training for Vision-Language-Action Models

提出 ST4VLA,通过两阶段空间引导训练(spatial grounding pre-training + spatially guided action post-training),将 VLM 的空间先验显式注入 VLA 策略学习,在 SimplerEnv 上将 Google Robot 成功率从 66.1% 提升至 84.6%,WidowX 从 54.7% 提升至 73.2%,达到 SOTA。

Steerable Adversarial Scenario Generation through Test-Time Preference Alignment (SAGE)

SAGE 将自动驾驶对抗场景生成重构为多目标偏好对齐问题,通过训练两个偏好专家模型并在推理时通过权重插值实现对抗性与真实性之间的连续可控权衡,无需重新训练即可生成从温和到激进的全谱场景,显著提升闭环训练效果。


🔗 因果推理

Action-Guided Attention for Video Action Anticipation

提出动作引导注意力 (AGA) 机制,用模型自身的动作预测序列作为注意力的 Query 和 Key(而非像素特征),结合自适应门控融合历史上下文和当前帧特征,在 EPIC-Kitchens-100 上实现从验证集到测试集的良好泛化,同时支持训练后的可解释性分析。

AgentTrace: Causal Graph Tracing for Root Cause Analysis in Deployed Multi-Agent Systems

提出AgentTrace框架,从多智能体系统的执行日志中构建因果图,通过反向追踪+轻量级特征排序(五组特征的加权线性组合)定位根因节点,在550个合成故障场景上Hit@1达94.9%,延迟0.12秒,比LLM分析快69倍。

Copy-Paste to Mitigate Large Language Model Hallucinations

提出 Copy-Paste 生成范式,通过训练 LLM 优先直接复制检索上下文中的片段来生成回答,而非自由改写,配合高复制偏好的 DPO 训练,在反事实 RAG 基准上将忠实度从 80.2% 提升到 92.8%。

Counterfactual Explanations on Robust Perceptual Geodesics

提出 PCG(Perceptual Counterfactual Geodesic)方法,在鲁棒感知流形上通过测地线优化生成语义忠实的反事实解释,两阶段优化确保路径既感知自然又达到目标类别,在 AFHQ 上 FID=8.3 远优于 RSGD 的 12.9。

Direct Doubly Robust Estimation of Conditional Quantile Contrasts

提出首个对条件分位数比较器 (CQC) 的直接估计方法,通过显式参数化 CQC 并结合双重鲁棒梯度下降,在理论上保持双重鲁棒性的同时,实验中在估计精度、可解释性和计算效率上全面优于现有的间接反演方法。

Efficient Ensemble Conditional Independence Test Framework for Causal Discovery

提出 E-CIT(集成条件独立性检验)框架,通过将数据分割为子集后独立执行检验并基于稳定分布的 p 值聚合方法合并结果,将任意条件独立性检验的计算复杂度降至关于样本量线性,同时在重尾噪声和真实数据等复杂场景下保持甚至提升检验功效。

Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models

系统研究偏好模型对五种表面特征(冗长、结构化、术语、谄媚、模糊)的过度依赖——通过因果反事实对量化偏差来源于训练数据的分布不平衡,并提出基于反事实数据增强 (CDA) 的后训练方法,将模型与人类判断的平均失校准率从 39.4% 降至 32.5%。

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

通过 off-by-one addition(如 1+1=3, 2+2=5)这一反事实任务,利用 path patching 发现大语言模型内部存在 function induction 机制——一种超越 token 级别 pattern matching、在函数级别进行归纳推理的注意力头电路,并证明该机制可跨任务复用。

Journey to the Centre of Cluster: Harnessing Interior Nodes for A/B Testing under Network Interference

针对网络干扰下 A/B 测试中 GATE 估计的高方差问题,提出 Mean-in-Interior (MII) 估计器——仅对 cluster 内部节点取均值,大幅降低方差;再通过反事实预测器进行协变量偏移校正,得到增广版 AMII 估计器,同时实现低偏差和低方差。

Learning Robust Intervention Representations with Delta Embeddings

提出因果 Delta 嵌入(CDE)框架,将干预/动作表示为预干预和后干预状态在潜空间中的向量差,通过独立性、稀疏性和不变性三种约束学习鲁棒的干预表示,在 Causal Triplet 挑战中显著超越基线的 OOD 泛化性能,且能自动发现反义动作的反平行语义结构。

On the Eligibility of LLMs for Counterfactual Reasoning: A Decompositional Study

提出基于结构因果模型(SCM)的分解式评估框架,将 LLM 的反事实推理拆分为四个阶段(因果变量识别→因果图构建→干预识别→结果推理),在 11 个多模态数据集上系统诊断 LLM 在各阶段的能力瓶颈,并提出工具增强和高级 elicitation 策略来改善性能。

PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits

构建了 PersonaX 多模态数据集(含 LLM 推断的 Big Five 行为特质、面部嵌入和传记元数据),并提出两层分析框架:结构化独立性检验 + 非结构化因果表示学习(带可识别性理论保证),揭示跨模态因果结构。

Resisting Contextual Interference in RAG via Parametric-Knowledge Reinforcement

提出 Knowledgeable-R1,一个基于强化学习的框架,通过联合采样参数知识(PK)和上下文知识(CK)的轨迹,结合局部/全局优势计算和自适应不对称优势变换,使 LLM 在 RAG 场景中能够抵抗误导性检索上下文的干扰,同时保留对可靠上下文的利用能力。

Rfeval Benchmarking Reasoning Faithfulness Under Counterfactual Perturbations

本文提出推理忠实性的形式化框架(立场一致性 + 因果影响)和 RFEval 基准(7,186 实例 × 7 任务),通过输出层反事实干预评估 12 个开源 LRM,发现 49.7% 的输出不忠实,且准确率不是忠实性的可靠代理指标。


✂️ 语义分割

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

提出对齐感知遮蔽学习(AML)策略,通过量化视觉-语言 patch 级对齐度并过滤低对齐像素,让 RIS 模型在训练时聚焦可靠区域,无需架构改动即在 RefCOCO 全部 8 个 split 上达到 SOTA。

ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

提出 ByteFlow Net,一种无需分词器的分层字节级语言模型,利用信息论中的编码率(coding rate)自适应地将原始字节流压缩为语义单元,在预训练损失和下游任务上超越 BPE 基线和已有字节级架构。

Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval

提出 Efficient-SAM2,通过对象感知的稀疏窗口路由(SWR)和稀疏记忆检索(SMR)两个后训练加速方案,利用 SAM2 本身的稀疏感知模式消除冗余计算,在 SAM2.1-L 上实现 1.68× 加速且仅损失 1.0% 精度。

Locality-Attending Vision Transformer

提出 LocAt,一个轻量级 ViT 插件,通过可学习高斯核调制自注意力偏向局部邻域(GAug)和无参数的 Patch 表征精炼(PRR),在不改变训练范式的前提下为 ViT 带来 6%+ 的分割性能提升且不牺牲分类精度。

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

提出 RegionReasoner,一个基于强化学习的多轮视觉推理框架,通过引用标注奖励和全局-局部一致性奖励,使推理轨迹必须显式引用参考区域坐标并保持语义连贯,在新构建的 RegionDial-Bench 上显著提升多轮定位和分割精度。

TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

发现文本到图像扩散模型的自注意力图在去噪过程特定时间步隐式编码了实例边界信息,提出 TRACE 框架通过实例涌现点(IEP)和注意力边界散度(ABDiv)提取这些边界,并蒸馏为单步边缘检测器,在无监督实例分割和弱监督全景分割上大幅超越已有方法。

Universal Multi-Domain Translation via Diffusion Routers

提出 Diffusion Router (DR),一个统一的扩散模型框架,仅用 \(K-1\) 个与中心域配对的数据集,通过单个噪声预测网络配合源域/目标域标签条件化,实现任意 \(K\) 个域之间的间接和直接翻译,并提出 Tweedie 精炼采样降低计算成本。

VINCIE: Unlocking In-context Image Editing from Video

提出 VINCIE,首次仅从视频数据学习上下文图像编辑能力——将视频标注为交错多模态序列,设计三个代理任务(次帧预测/当前分割/次帧分割预测),在多轮编辑 benchmark 上达到 SOTA,展现了视频数据作为编辑训练源的可扩展性。

VIRTUE: Visual-Interactive Text-Image Universal Embedder

提出 VIRTUE,将分割模型(SAM2)与 VLM 结合构建视觉交互式通用嵌入器,支持用户通过点/框/掩码指定兴趣区域产生实体级+全局级联合嵌入,并构建百万级 SCaR 基准评估视觉交互检索能力,在 36 个 MMEB 任务和 5 个 SCaR 任务上均达到 SOTA。


🖼️ 图像恢复

Activation Steering for Masked Diffusion Language Models

首次将激活引导(activation steering)应用于 Masked Diffusion 语言模型(MDLM),发现 MDLM 的拒绝行为也受单一低维方向控制,通过在去噪过程中全局投影可完全绕过安全对齐,且与自回归模型不同,有效方向可从指令前的 token 中提取——反映了扩散模型的非因果并行处理特性。

Are Deep Speech Denoising Models Robust to Adversarial Noise?

首次系统性评估 4 款 SOTA 深度语音去噪(DNS)模型在对抗噪声下的鲁棒性:通过心理声学约束的 PGD 攻击生成人耳不可感知的对抗噪声,可令 Demucs、Full-SubNet+、FRCRN 和 MP-SENet 输出完全不可理解的 gibberish,实验覆盖多种声学条件和人类评估,同时揭示了目标攻击、通用扰动和跨模型迁移的局限性。

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

LSP 调度器通过在每个去噪步骤中原子性地提交最长连续稳定前缀(而非分散接受离散 token),将 DLM 推理加速 3.4 倍,同时保持或略微提升输出质量。

DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation

提出 DiffusionBlocks,将残差网络的逐层更新解释为连续时间扩散过程的离散化步骤,从而将网络切分为可完全独立训练的 block,在保持端到端训练性能的同时按 block 数 B 倍减少训练显存。

Generalizing Linear Autoencoder Recommenders with Decoupled Expected Quadratic Loss

将 EDLAE 推荐模型的目标函数推广为解耦期望二次损失(DEQL),在超参数 \(b>0\) 的更广范围内推导出闭式解,并通过 Miller 矩阵逆定理将计算复杂度从 \(O(n^4)\) 降至 \(O(n^3)\),在多个基准数据集上超越 EDLAE 和深度学习模型。

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

提出 InterActHuman,通过自动推断时空布局的掩码预测器和迭代掩码引导策略,实现多人/人物交互场景下的音频驱动视频生成,支持每个角色独立的语音驱动口型同步和身体动作。

ProtoTS: Learning Hierarchical Prototypes for Explainable Time Series Forecasting

提出 ProtoTS,通过层级原型学习实现可解释时间序列预测:少量粗粒度原型提供全局模式概览,逐级细分捕捉局部变化,结合多通道嵌入与瓶颈融合处理异质外生变量。在 LOF 数据集上 MSE 降低 48.3%,MAE 降低 20.9%,且支持专家编辑原型以进一步提升性能。

Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerabilities

揭示了掩码扩散语言模型(MDLM)中的"启动漏洞"(priming vulnerability)——在去噪中间步骤注入肯定性 token 可绕过安全防线,并提出 Recovery Alignment(RA)方法训练模型从被污染的中间状态恢复到安全响应。


🎁 推荐系统

C2AL: Cohort-Contrastive Auxiliary Learning for Large-scale Recommendation Systems

提出 C2AL(Cohort-Contrastive Auxiliary Learning),通过数据驱动地发现分布差异最大的用户群体对,构建对比性辅助二分类任务正则化共享编码器,使 FM 注意力权重从稀疏变为稠密,缓解大规模推荐系统中少数群体的表征偏差,在 Meta 6 个生产模型(数十亿数据点)上验证有效。

From Evaluation to Defense: Advancing Safety in Video Large Language Models

构建 VideoSafetyEval(11.4k 视频-查询对覆盖 19 种风险类别)揭示视频模态使安全性能下降 34.2%,提出 VideoSafety-R1 三阶段框架(报警 Token+SFT+Safety-guided GRPO)在 VSE-HH 上提升 71.1% 防御成功率。

GoalRank: Group-Relative Optimization for a Large Ranking Model

理论证明任意 Multi-Generator-Evaluator 排序系统都存在一个更大的 generator-only 模型以更小的误差逼近最优策略且满足 scaling law,据此提出 GoalRank——用 reward model 构建 group-relative 参考策略来训练大型 generator-only 排序模型,在线 A/B 测试中显著优于 SOTA。

ProPerSim: Developing Proactive and Personalized AI Assistants through User-Assistant Simulation

提出 ProPerSim 模拟框架和 ProPerAssistant 基线,通过用户-助手模拟环境结合 DPO 偏好学习,开发能同时具备主动性和个性化的 AI 家庭助手。

RAE: A Neural Network Dimensionality Reduction Method for Nearest Neighbors Preservation in Vector Search

提出 RAE(Regularized Auto-Encoder),通过线性自编码器 + Frobenius 范数正则化实现降维,理论证明正则化系数 \(\lambda\) 通过 Rayleigh 商性质约束编码器矩阵的条件数 \(\kappa(W)\),从而保证范数失真率有界、k-NN 结构被保持。在 4 个数据集上一致优于 PCA/UMAP/MDS/ISOMAP,余弦距离下比 PCA 至少高 12%,且训练仅需 8 秒、推理毫秒级。

Rejuvenating Cross-Entropy Loss in Knowledge Distillation for Recommender Systems

理论证明 CE 损失在推荐系统 KD 中最大化 NDCG 下界需满足"闭合性假设"(子集需包含学生 top 项目),但实际目标是蒸馏教师 top 项目的排序——两者冲突导致 vanilla CE 表现差。据此提出 RCE-KD:将教师 top-K 项目按是否在学生 top-K 中分两组,分别用精确 CE 和采样近似闭合性 CE,自适应融合权重随训练动态调整。

Search Arena: Analyzing Search-Augmented LLMs

构建 Search Arena——首个大规模搜索增强 LLM 人类偏好数据集(24069 对话 + 12652 偏好投票,71 种语言),发现用户偏好受引用数量影响(即使引用不支持声明),社区驱动平台比 Wikipedia 更受偏好,搜索增强不降低通用聊天性能但通用 LLM 在搜索场景显著退化。

Token-Efficient Item Representation via Images for LLM Recommender Systems

提出 I-LLMRec,利用商品图像替代冗长文本描述来表示推荐系统中的物品语义,通过 RISA 对齐模块和 RERI 检索模块,在仅用单个token表示物品的同时保留丰富语义,推理速度提升约2.93倍且推荐性能超越文本描述方法。


🧮 科学计算

Astral: Training Physics-Informed Neural Networks with Error Majorants

提出 Astral 损失函数(基于函数型后验误差上界/error majorant),替代传统 PiNN 中的残差损失来训练物理信息神经网络,实现训练过程中可靠的误差估计,并在扩散方程、Maxwell 方程等多种 PDE 上取得了更好或相当的精度。

Deep Learning for Subspace Regression

将缩减阶建模中的子空间预测问题形式化为 Grassmann 流形上的回归,设计适用于子空间数据的损失函数和神经网络参数化,并提出子空间嵌入(embedding)技术——预测比目标更大的子空间——理论和实验证明可显著降低学习复杂度并提升精度。

DRIFT-Net: A Spectral--Coupled Neural Operator for PDEs Learning

提出 DRIFT-Net 双分支神经算子,通过受控低频混合(谱分支)和局部细节保真(图像分支)的带宽融合(radial gating),解决窗口注意力中全局谱耦合不足导致的自回归漂移问题,在 Navier-Stokes 基准上误差降低 7%-54%。

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

系统实证分析将 KAN(Kolmogorov-Arnold Networks)集成到硬约束递归物理信息架构(HRPINN)中的表现——发现小型 KAN 在单变量多项式残差(Duffing)上具有竞争力,但在乘法项(Van der Pol)上严重失败且超参数极度脆弱,标准 MLP 稳定性远优。

HyperKKL: Enabling Non-Autonomous State Estimation through Dynamic Weight Conditioning

提出 HyperKKL,用超网络编码外源输入信号并即时生成 KKL 观测器参数,使非自治非线性系统的状态估计无需重新训练或在线梯度更新,在 Duffing、Van der Pol、Lorenz、Rössler 四个系统上验证有效。

Learning-guided Kansa Collocation for Forward and Inverse PDE Problems

将基于径向基函数(RBF)的无网格Kansa方法从单变量线性PDE扩展到耦合多变量和非线性PDE场景,结合自调参技术和多种时间步进方案,并系统对比了与PINN、FNO等神经PDE求解器在正问题和反问题上的表现。

One Operator to Rule Them All? On Boundary-Indexed Operator Families in Neural PDE Solvers

论证标准神经 PDE 求解器在边界条件变化时实际学习的是"边界条件索引的算子族"而非单一边界无关算子,形式化为条件风险最小化导出不可识别性结果,实验验证边界分布偏移下的急剧退化。

Policy myopia as a mechanism of gradual disempowerment in Post-AGI governance, Circa 2049

论证政策短视(policy myopia)不是注意力分配问题,而是后 AGI 治理中产生不可逆人类失权的机制——通过显著性捕获、能力级联和价值锁定三个耦合机制,跨经济/政治/文化系统产生自我强化的人类边缘化均衡。


📡 信号/通信

FASA: Frequency-aware Sparse Attention

发现RoPE注意力在频率块(FC)级别存在功能稀疏性——少量主导FC与全注意力高度一致,据此设计无需训练的KV cache压缩方案FASA,实现8×内存压缩和2.6×加速且几乎无损。

Group Representational Position Encoding (GRAPE)

提出 GRAPE 框架,基于群作用(group actions)统一了 Transformer 中乘法型(RoPE)和加法型(ALiBi/FoX)两大位置编码家族,证明 RoPE 和 ALiBi 是其精确特例,并提出路径积分加法变体 GRAPE-AP 在下游任务上超越现有方法。

Learning Molecular Chirality via Chiral Determinant Kernels

提出手性行列式核(ChiDeK)来编码SE(3)不变的手性矩阵,统一处理中心手性和轴向手性,结合交叉注意力机制在手性/非手性原子间传递信息,在轴向手性任务上准确率提升>7%。

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

深入分析多智能体系统中 prompt 和拓扑设计的影响,发现 prompt 优化是最关键的设计因素(仅优化 prompt 的单 Agent 即可超越复杂多 Agent 拓扑),提出 Mass 三阶段框架(block-level prompt → topology → workflow-level prompt)在 8 个 benchmark 上取得 SOTA。

Multi-modal Data Spectrum: Multi-modal Datasets are Multi-dimensional

大规模实证研究揭示23个VQA基准中存在严重的单模态依赖问题——许多为消除文本偏差而设计的基准反而引入了图像偏差,模型利用单模态捷径而非真正的跨模态推理。

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

提出SALVE框架,用L1正则化稀疏自编码器发现模型的稀疏特征基,再将发现转化为永久性权重空间干预实现模型编辑,弥合了机制可解释性与模型编辑之间的鸿沟。

Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability

揭示RLHF/DPO等后训练会损害模型的上下文可操控性(in-context steerability)、输出覆盖率和分布对齐,提出Spectrum Suite评测框架和Spectrum Tuning方法,首次在后训练阶段改善分布对齐能力。


🔎 AIGC 检测

Calibrating Verbalized Confidence with Self-Generated Distractors

提出 DiNCo(Distractor-Normalized Confidence)方法,让 LLM 自动生成"合理但错误"的干扰选项,然后在干扰选项集合上归一化置信度分数,实现跨难度级别的置信度校准,在 TriviaQA 上以 95.2% 均衡准确率和仅 3.5% 人类介入率实现可靠的自动决策。

CLARC: C/C++ Benchmark for Robust Code Search

构建首个可编译的 C/C++ 代码检索基准 CLARC(6717 查询-代码对),自动化 pipeline 从 GitHub 提取代码并用 LLM+假设检验生成/验证查询;覆盖标准/匿名化/汇编/WebAssembly 四种检索场景,揭示现有代码嵌入模型过度依赖词汇特征(匿名化后 NDCG@10 从 0.89 降至 0.67)且在二进制级别检索上严重不足。

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

通过 26 位专业作家对 8618 条表达的 close reading 标注,揭示 n-gram 新颖度不足以衡量文本创造力——约 91% 的高 n-gram 新颖表达并不被认为具有创造性,且开源 LLM 中高 n-gram 新颖度与低语用合理性负相关。

DMAP: A Distribution Map for Text

提出 DMAP,将文本通过语言模型的 token 概率映射到 [0,1] 单位区间上的样本,理论证明纯采样文本产生均匀分布,由此可用统计检验分析生成参数(如 top-k)、检测机器生成文本、揭示后训练的统计指纹。

PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives

基于欧洲议会2225条真实审议记录构建PoliCon基准,评估LLM在不同政治目标(简单多数/2/3多数/否决权/罗尔斯/功利主义)下起草共识决议的能力。


✍️ 文本生成

AP-OOD: Attention Pooling for Out-of-Distribution Detection

提出AP-OOD,将Mahalanobis距离的均值池化替换为可学习的注意力池化,解决了均值池化丢失token级异常信息的问题,在文本OOD检测中将XSUM摘要的FPR95从27.84%降至4.67%,支持无监督到半监督的平滑过渡。

FS-DFM: Fast and Accurate Long Text Generation with Few-Step Diffusion Language Model

提出 FS-DFM(Few-Step Discrete Flow-Matching),通过步数感知训练和累积标量更新规则,将离散 flow-matching 语言模型的采样步数从 1024 步降低到 8 步,实现 128 倍加速,同时保持相当的困惑度和生成质量。

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning

提出 PaperCoder——一个多智能体 LLM 框架,通过规划(Planning)、分析(Analysis)、生成(Coding)三阶段流水线,将机器学习论文自动转化为可运行的代码仓库,其中 88% 的生成仓库被论文作者评为最佳,且在 PaperBench 基准上大幅超越基线。

Sharing State Between Prompts and Programs

提出共享程序状态(shared program state)抽象,让 prompt 直接读写程序变量、操作堆对象和控制程序流程,实现为 Nightjar 系统(Python + prompt 混合编程),在保持或提升准确率(+4-19%)的同时减少 39.6% 代码量。

ShieldedCode: Learning Robust Representations for Virtual Machine Protected Code

提出 ShieldedCode——首个保护感知的代码表征学习框架,通过层次依赖建模(指令内/前序/跨指令三层)和联合功能感知+保护感知对比学习,使 LLM 能够生成、比较和推理虚拟机保护代码,在 VM 代码生成(Pass@1 26.95% vs. GPT-4o 22.58%)和二进制相似性检测上均超越现有方法。


🛰️ 遥感

AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild

提出 AutoFly,一个面向无人机野外自主导航的端到端 VLA 模型,通过伪深度编码器从 RGB 输入推断空间信息,配合新构建的自主导航数据集(13K+ 轨迹含 1K 真实飞行),在模拟和真实环境中比 OpenVLA 成功率高 3.9%,碰撞率低 2.6%。

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

研究未经高光谱预训练的多模态地理空间基础模型 TerraMind 能否通过通道适配策略(朴素波段选择 vs. SRF 分组)有效适配高光谱下游任务,结果表明朴素波段选择一致优于物理感知的 SRF 方法,但性能差距随任务光谱复杂度增大而扩大。

TAMMs: Change Understanding and Forecasting in Satellite Image Time Series with Temporal-Aware Multimodal Models

提出 TAMMs——首个统一框架,在单一 MLLM-扩散架构中联合执行卫星图像时间序列的时序变化描述(TCD)和未来图像预测(FSIF),通过时序适配模块(TAM)唤醒冻结 MLLM 的时序推理能力,并通过语义融合控制注入(SFCI)机制将变化理解转化为生成控制信号。

Task-free Adaptive Meta Black-box Optimization

提出 ABOM——一种无需预定义训练任务的自适应元黑盒优化器,通过将进化算子(选择、交叉、变异)参数化为可微注意力模块,在优化过程中利用自生成数据在线更新参数,在合成基准和无人机路径规划上实现零样本竞争性能。


📖 NLP 理解

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

提出 BTZSC 基准(22 个数据集),首次在统一零样本协议下系统比较 NLI 交叉编码器、嵌入模型、Reranker 和指令微调 LLM 四大模型家族(共 38 个模型),发现 Qwen3-Reranker-8B 以 macro F1=0.72 取得新 SOTA,嵌入模型在精度-延迟权衡上最优。

Same Content, Different Representations: A Controlled Study for Table QA

首个控制变量研究:在保持表格内容完全相同的条件下变换表示形式(结构化 vs 半结构化),系统评估 NL2SQL、LLM、混合三类方法在不同表格大小/模式质量/查询复杂度下的鲁棒性,发现表示形式是影响 Table QA 性能的一阶因素。


⚛️ 物理学

Feedback-driven Recurrent Quantum Neural Network Universality

本文首次为基于反馈的循环量子神经网络 (RQNN) 建立了定量逼近误差界和普适性证明,表明 RQNN 可在 qubit 数仅以 \(\lceil\log_2(\varepsilon^{-1})\rceil\) 对数增长的条件下,以线性读出层逼近任意 fading memory 滤波器,且不受维度灾难影响。

Sublinear Time Quantum Algorithm for Attention Approximation

提出首个对序列长度 \(n\) 具有亚线性时间复杂度的量子数据结构,用于近似 Transformer 注意力矩阵的行查询,预处理时间 \(\widetilde{O}(\epsilon^{-1} n^{0.5} \cdot \text{poly}(d, s_\lambda, \alpha))\),每次行查询 \(\widetilde{O}(s_\lambda^2 + s_\lambda d)\),相对经典算法实现了关于 \(n\) 的二次加速。


📂 其他

A Federated Generalized Expectation-Maximization Algorithm for Mixture Models with an Unknown Number of Components

提出 FedGEM 算法,通过客户端本地 EM 步后构建不确定性集、服务器利用不确定性集交集检测聚类重叠并推断全局聚类数,首次实现在全局聚类数未知情况下的联邦聚类,并提供了概率收敛保证。

A Law of Data Reconstruction for Random Features (and Beyond)

从信息论和代数角度证明随机特征模型中存在数据重构定律:当参数量 \(p \gg dn\)\(d\) 为数据维度,\(n\) 为样本数)时,训练数据可被完整重构,并通过投影损失优化方法在 RF、两层网络和 ResNet 上验证了该阈值的普适性。

A Representer Theorem for Hawkes Processes via Penalized Least Squares Minimization

为线性多元 Hawkes 过程在 RKHS 框架下的触发核估计建立了新型表示定理,证明最优估计器可用等价核在数据点上的线性组合表示且对偶系数全部解析地等于 1,无需求解对偶优化问题,从而实现高效可扩展的非参数估计。

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

将 CopulaGNN 从节点级扩展到边级,通过将相关矩阵构造为边嵌入的 Gramian 矩阵并利用 Woodbury 恒等式重构条件概率分布,实现了在签名图上对边间统计依赖的可扩展建模,用于链接符号预测任务。

A Single Architecture for Representing Invariance Under Any Space Group

设计了一种可自适应任意空间群不变性的单一架构 (Crystal Fourier Transformer),通过解析推导群操作对傅里叶系数的约束来构造对称适配的傅里叶基,用约束的对偶图表示实现了跨 230 个空间群的参数共享和零样本泛化。

Accessible, Realistic, and Fair Evaluation of Positive-Unlabeled Learning Algorithms

提出首个 PU 学习统一基准,系统解决两个关键问题:(1) 用代理准确率和代理 AUC 实现无负样本的模型选择;(2) 发现并通过将正样本并入无标签集的简单校准方法解决单样本设置下的内部标签偏移问题,使双样本算法在单样本评估中得到公平比较。

Active Learning for Decision Trees with Provable Guarantees

为决策树主动学习提供首个理论保证:(1) 首次分析决策树的不一致系数(disagreement coefficient)并给出 \(O(\ln^{OPT}(n))\) 上界;(2) 提出首个达到乘法误差 \((1+\epsilon)\) 保证的二分类主动学习算法;结合两者实现数据集大小的多对数标签复杂度。

Addressing Divergent Representations from Causal Interventions on Neural Networks

系统性地揭示因果干预(activation patching、DAS、SAE 等)会将模型内部表征推离自然分布,理论区分"无害偏移"与"有害偏移"两类情况,并提出 Counterfactual Latent (CL) loss 来约束干预表征不偏离流形,在 7B LLM 上验证可减少偏移同时保持干预准确率。

Agnostics: Learning to Synthesize Code in Any Programming Language with a Universal RL Environment

提出Agnostics,一种语言无关的后训练pipeline:将编程任务统一为I/O行为规范格式,用通用验证器+GRPO强化学习训练LLM在任何编程语言上编码,使Qwen 4B在Lua/Julia/R/OCaml/Fortran五种低资源语言上达到匹敌16B-70B模型的SOTA水平。

An Information-Theoretic Framework For Optimizing Experimental Design To Distinguish Probabilistic Neural Codes

提出"信息间隙"(information gap)框架,通过优化刺激分布来最大化似然编码(likelihood code)与后验编码(posterior code)假设之间的可区分性,推导出真实后验与任务边缘化代理后验之间的KL散度作为优化目标,并通过DNN解码器在模拟神经群体上验证了该框架的有效性,揭示传统单上下文实验无法区分两种编码假设。

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning

构建首个面向麻醉学推理的综合数据集套件AnesSuite——包括AnesBench(7972道双语选择题)、AnesCorpus(240万篇文档语料库)、AnesQA(2万条QA对)和AnesR1(1万条CoT推理数据),提出三级认知需求分类(System 1/1.x/2),训练的Morpheus模型(Qwen2.5 + SFT + GRPO)在7B参数下达到14B基线性能,揭示当前最强模型在复杂推理(System 2)上仍低于0.6。

ANO: Faster is Better in Noisy Landscapes

提出 Ano 优化器,将更新方向和幅度解耦——方向用动量的符号(sign)确保噪声鲁棒,幅度用瞬时梯度绝对值(而非动量幅度)确保响应速度,配合改进的 Yogi 式方差估计,在噪声和非平稳环境(如 RL)中显著优于 Adam/Lion/Adan,同时在标准任务上保持竞争力。

AnyUp: Universal Feature Upsampling

提出AnyUp——首个推理时encoder无关的可学习特征上采样方法,通过feature-agnostic层处理任意维度/类型的视觉特征,配合窗口注意力架构和crop-based训练策略,训练一次即可对任意视觉编码器(DINO/CLIP/SigLIP/MAE等)的特征进行任意分辨率上采样,在多个下游任务上超越FeatUp/JAFAR/LoftUp等方法。

Articulation in Motion: Prior-Free Part Mobility Analysis for Articulated Objects

提出AiM(Articulation in Motion)框架,从交互视频和初始状态扫描中无需部件数量先验地重建铰接物体——通过双高斯表征(静态GS + 可变形GS)实现动静解耦,结合顺序RANSAC进行无先验部件分割和关节估计,辅以SDMD模块处理新暴露的静态区域,在复杂6部件物体(Storage)上以79.34% mean IoU大幅超越需先验的ArtGS(52.23%)。

Assess A Semantic And Structural Evaluation Framework For Statement Similarity

提出 TransTED Similarity,一种基于算子树 (Operator Tree) 和语义变换增强的树编辑距离指标,用于评估自动形式化 (autoformalization) 生成的形式化数学命题与参考命题之间的语义相似度,并构建了 EPLA 基准数据集。

AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

由 AI2 团队构建的首个端到端科学研究 Agent 基准 AstaBench,包含 2400+ 问题覆盖科学发现全流程,配备生产级可复现搜索工具,评估了 57 个 Agent(22 类),发现尽管单任务有进展但 AI 距离完整科学研究助手仍很远,同时系统性修复先前基准的 5 大方法学缺陷。

Behavior Learning (BL): Learning Hierarchical Optimization Structures from Data

受行为科学中效用最大化范式启发,提出 Behavior Learning (BL) 框架,将数据建模为由可解释的模块化效用最大化问题(UMP)层次组合所诱导的 Gibbs 分布,在预测性能、内在可解释性和参数可辨识性三者之间实现了统一。

Block-Sample MAC-Bayes Generalization Bounds

提出块样本MAC-Bayes泛化界(mean approximately correct),将训练数据划分为J个块后用各块条件下的KL散度之和替代整体KL散度,在确定性学习算法(如均值估计)等原始PAC-Bayes界为空(vacuous)的场景下仍能给出有限、有意义的泛化误差界,并证明了该界的高概率版本在一般情况下不可行。

CaDrift: A Time-dependent Causal Generator of Drifting Data Streams

提出 CaDrift,一个基于结构因果模型(SCM)的时间依赖合成数据流生成框架,通过 EWMA 平滑和自回归噪声引入时序相关性,并通过修改因果映射函数实现可控的分布漂移、协变量漂移、严重漂移和局部漂移,填补了现有数据流生成器既不因果又不时序依赖的空白。

Can You Hear Me Now? A Benchmark for Long-Range Graph Propagation and Beyond

本文提出 ECHO 基准,包含 3 个合成任务和 2 个基于密度泛函理论(DFT)的真实化学任务,要求图神经网络在 17–40 跳范围内有效传播信息,系统评估了 11 种 GNN 架构的长程传播能力。

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

构建 CHAMMI-75——最大的异构多通道显微镜图像预训练数据集(280 万图像,75 个来源,25 种通道类型,16 种物种),证明成像模态多样性是提升多通道模型泛化能力的关键因素,训练的 MorphEm 模型在 7 个 benchmark 中 6 个达到 SOTA。

Characterizing and Optimizing the Spatial Kernel of Multi Resolution Hash Encodings

从物理系统角度分析 Instant-NGP 的多分辨率哈希编码(MHE),推导出其点扩展函数(PSF)的闭式近似,发现有效分辨率由平均分辨率 \(N_{\text{avg}}\) 而非最细分辨率 \(N_{\max}\) 决定,且存在网格引起的各向异性,并提出零开销的 Rotated MHE(R-MHE)通过逐层旋转输入坐标消除各向异性。

CHLU: The Causal Hamiltonian Learning Unit as a Symplectic Primitive for Deep Learning

CHLU 是一种基于相对论哈密顿力学和辛积分的计算学习原语,通过强制相空间体积守恒和引入因果速度上限,解决了 LSTM 的梯度爆炸/消失和 Neural ODE 的信息耗散问题,实现无限时域稳定性和热力学生成能力。

DREAM: Completing Missing Annotation via Multi-Agent Debate for Accurate and Scalable Relevance Assessment

提出 DREAM 框架,用多轮 LLM 辩论(对立立场)来完成 IR 基准中大量缺失的相关性标注,发现了原有标注中 428% 的额外相关文档,仅需 3.5% 的人类介入率即达到 95.2% 准确率。

Compositional Diffusion with Guided Search for Long-Horizon Planning

提出 CDGS(Compositional Diffusion with Guided Search),通过在扩散去噪过程中嵌入基于种群的搜索机制(迭代重采样 + 似然剪枝),解决组合式扩散模型在多模态局部分布合成时的模式平均问题,从短时域模型采样出全局一致的长时域规划。

Consistent Low-Rank Approximation

提出并系统研究"一致低秩近似"问题——在流数据中逐行到达的矩阵上维护近最优 rank-\(k\) 近似的同时最小化解的总变化量(recourse),证明加性误差下 \(O(k/\varepsilon \cdot \log(nd))\) recourse 可行,乘性 \((1+\varepsilon)\) 误差下 \(k^{3/2}/\varepsilon^2 \cdot \text{polylog}\) recourse 可行,并给出 \(\Omega(k/\varepsilon \cdot \log(n/k))\) 的下界。

Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning

提出 NDM(Neighbor Distance Minimization),通过最小化子空间内的近邻距离来无监督地发现神经网络表征空间中的可解释非基对齐子空间,在 GPT-2 上平均 Gini=0.71(信息高度集中),在 Qwen2.5-1.5B 上发现了参数化知识与上下文知识路由的分离子空间。

Deconstructing Positional Information: From Attention Logits to Training Biases

提出基于 Toeplitz 矩阵的统一分析框架,将位置编码分为加法(Absolute/T5/ALiBi)和乘法(RoPE)两类;通过合成任务发现 RoPE 在位置敏感任务上优势显著但存在"单头沉积模式"(single-head deposit pattern)——浅层几乎所有位置推理集中于单个注意力头;理论证明该模式是 RoPE 乘法结构的固有属性。

Directional Sheaf Hypergraph Networks: Unifying Learning on Directed and Undirected Hypergraphs

本文提出 Directional Sheaf Hypergraph Networks (DSHN),通过将 Cellular Sheaf 理论与有向超图的方向信息结合,构造了一种复值 Hermitian Laplacian 算子,统一并推广了现有的图和超图 Laplacian,在 7 个真实数据集上相对准确率提升 2%–20%。

Disentangling Shared and Private Neural Dynamics with SPIRE: A Latent Modeling Framework for Deep Brain Stimulation

提出 SPIRE(Shared–Private Inter-Regional Encoder),一种深度多编码器自编码器,将多脑区神经记录分解为跨区域共享和区域专属的潜在子空间,仅在基线数据上训练即可揭示深脑刺激(DBS)引发的网络级动态重组。

Distributed Algorithms for Euclidean Clustering

在分布式环境下为 Euclidean \((k,z)\)-clustering 构造 \((1+\varepsilon)\)-coreset,在 coordinator 模型和 blackboard 模型中均达到通信复杂度的最优下界(至多差 polylog 因子)。

Distributionally Robust Classification for Multi-Source Unsupervised Domain Adaptation

提出一种分布鲁棒学习框架,通过联合建模目标域协变量分布和条件标签分布的不确定性,在目标数据极度稀缺或源域存在虚假相关性的UDA场景中显著提升泛化性能。

DA-AC: Distributions as Actions — A Unified RL Framework for Diverse Action Spaces

DA-AC 提出将动作分布的参数(如 softmax 概率或 Gaussian 均值/方差)作为 Agent 的"动作"输出,将动作采样过程移入环境,从而用统一的确定性策略梯度框架处理离散/连续/混合动作空间,理论证明方差严格低于 LR 和 RP 估计器,并在 40+ 环境上取得 competitive 或 SOTA 性能。

Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity

实证表明无需参数置换,仅靠增加模型宽度即可实现独立训练模型间的线性模式连通性(LMC),并提出"逐层指数加权连通性"(LEWC)解释这一现象的机理。

Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

提出 AIGB-Pearl,为生成式自动竞价方法引入离线轨迹评估器和 KL-Lipschitz 约束的分数最大化方案,使生成模型能在理论保证下安全地突破静态离线数据的性能天花板,在淘宝真实广告系统上实现 GMV +3% 的显著提升。

Entropic Confinement and Mode Connectivity in Overparameterized Neural Networks

揭示了过参数化神经网络损失景观中低损失连接路径上的曲率变化产生熵力壁垒,解释了为何SGD被限制在单一盆地内,尽管不同极小值之间能量上相连。

Evaluating GFlowNet from Partial Episodes for Stable and Flexible Policy-Based Training

建立GFlowNet中状态流函数与策略评价函数之间的理论联系,提出子轨迹评价平衡(Sub-EB)目标用于可靠学习评价函数,增强策略基GFlowNet训练的稳定性和灵活性。

Exchangeability of GNN Representations with Applications to Graph Retrieval

发现训练好的 GNN 节点嵌入沿特征维度是可交换随机变量(即 \(p(X) = p(X\pi)\) 对任意维度排列 \(\pi\)),利用此性质通过维度排序将基于传输距离的图相似度近似为欧氏距离,构建高效的局部敏感哈希(LSH)框架 GraphHash,在子图匹配和图编辑距离检索任务上超越基线,可扩展到 100 万图语料库。

Explaining Grokking and Information Bottleneck through Neural Collapse Emergence

通过 Neural Collapse 的视角统一解释 Grokking(延迟泛化)和 Information Bottleneck(压缩阶段)两大训练后期现象,证明群体类内方差的收缩是两者的共同关键因素,并揭示训练损失收敛与 Neural Collapse 发生存在由 weight decay 控制的不同时间尺度。

Fast and Stable Riemannian Metrics on SPD Manifolds via Cholesky Product Geometry

揭示Cholesky流形上的简单乘积结构,基于此提出两种快速且数值稳定的SPD度量(PCM和BWCM),所有黎曼算子均有闭式表达式,在SPD深度学习中实现效果、效率和稳定性的三重提升。

FastLSQ: Solving PDEs in One Shot via Fourier Features with Exact Analytical Derivatives

利用正弦基函数的循环导数闭式结构,实现了无需自动微分、无需迭代训练的 PDE 一次性求解框架,在线性 PDE 上 0.07s 达到 \(10^{-7}\) 精度,非线性 PDE 上 <9s 达到 \(10^{-8}\)\(10^{-9}\) 精度,比 PINNs 快数千倍且精确数个数量级。

FIRE: Frobenius-Isometry Reinitialization for Balancing the Stability-Plasticity Tradeoff

将持续学习中的稳定性-可塑性平衡形式化为约束优化问题——最小化权重偏差(稳定性)同时约束权重正交性(可塑性),得到正交 Procrustes 问题的闭式解 \(\tilde{W}^* = W(W^\top W)^{-1/2}\)(极分解),通过 Newton-Schulz 迭代高效实现(<1% 额外时间),在视觉持续学习、LLM 持续预训练和 RL 上全面超越 S&P 等基线。

From Movement to Cognitive Maps: RNNs Reveal How Locomotor Development Shapes Hippocampal Spatial Coding

结合幼鼠运动发育的计算分析和浅层 RNN 模型,证明运动统计特征的发育变化(爬行→行走→奔跑→成年)驱动了空间调谐神经元的序贯涌现,复现了大鼠海马空间编码的发育时间线,且具体的发育运动统计(而非简单的感觉输入加速)是位置中心空间表征涌现的关键。

Gaussian Certified Unlearning in High Dimensions: A Hypothesis Testing Approach

提出 \((\phi,\varepsilon)\)-Gaussian certifiability——基于假设检验 trade-off 函数的高维机器遗忘隐私框架,严格证明在高维比例体系 (\(p \sim n\)) 下单步 Newton 更新 + 校准高斯噪声即可同时满足隐私 (GPAR) 和精度 (GED→0) 要求,推翻了 Zou et al. (2025) "至少需两步 Newton" 的结论,并从理论上揭示旧 \(\varepsilon\)-certifiability 与噪声添加机制不兼容的根本原因。

In-Context Algebra

本文设计了一个 in-context 代数任务——令 token 成为纯变量、每条序列重新随机分配含义——发现 Transformer 在此设定下不再学习经典的傅里叶/几何表示,而是涌现出三种 符号推理机制(交换复制、单位元识别、闭包消去),并揭示了训练过程中这些能力按阶段性相变依次出现的规律。

Intrinsic Training Dynamics of Deep Neural Networks

本文研究深度神经网络梯度流训练中,参数空间的轨迹何时可以被"提升"到低维本征空间并表示为内禀的黎曼梯度流,提出了基于守恒律的内禀可恢复性(intrinsic recoverability)准则,并将结果推广到任意深度的 ReLU 网络和线性网络。

Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch RL

提出 Jackpot 框架,通过 Optimal Budget Rejection Sampling(OBRS)以可控接受预算在 token 级别拒绝/重加权 rollout 样本,理论证明任意预算下都能严格缩小 actor-policy 间 KL 散度,配合 rollout 模型联合训练与蒸馏,使小模型(如 Qwen3-1.7B)rollout 训练大模型(如 Qwen3-8B)达到接近 on-policy 的性能。

Latent Fourier Transform

将扩散自编码器与潜在空间 DFT 结合,在潜在时间序列表征上应用傅里叶变换按时间尺度分离音乐模式,训练时使用随机相关对数频率掩码让解码器学习从部分频谱信息重建,推理时用户指定频率掩码控制保留/混合的时间尺度,在条件生成和音乐融合任务上超越 ILVR/guidance/codec filtering/RAVE 等基线,29 名音乐家的听力测试确认其音质和融合能力优越。

LPWM: Latent Particle World Models for Object-Centric Stochastic Dynamics

LPWM 是首个能扩展到真实世界多物体数据集的自监督物体中心世界模型,核心创新是为每个粒子学习独立的潜在动作分布(per-particle latent actions),通过因果时空 Transformer 并行编码所有帧,支持动作/语言/图像目标/多视角等多种条件生成,在视频预测上达到 SOTA 并展示了模仿学习能力(OGBench task3 成功率 89%)。

Learning Adaptive Distribution Alignment with Neural Characteristic Function for Graph Domain Adaptation

提出ADAlign框架,利用神经谱差异(NSD)在频域自适应对齐源/目标图嵌入分布,通过可学习频率采样器自动发现并优先对齐每个迁移场景中最关键的分布差异维度。

LipNeXt: Scaling up Lipschitz-based Certified Robustness to Billion-parameter Models

提出 LipNeXt——首个无约束、无卷积的 1-Lipschitz 架构,通过流形优化(直接在正交流形上更新)和 Spatial Shift Module(理论证明唯一保范 depthwise 卷积是 ±1 位移)突破 Lipschitz 网络的 scaling 瓶颈,首次将认证鲁棒性扩展到 10 亿参数,在 CIFAR-10/100/ImageNet 上达 SOTA 认证鲁棒准确率。

Mitigating Spurious Correlation via Distributionally Robust Learning with Hierarchical Ambiguity Sets

提出层次化歧义集的分布鲁棒优化方法,同时建模组间比例变化和组内分布偏移(Wasserstein 球),在少数群组内部分布偏移场景下显著优于 Group DRO(CelebA shifted: 56.3%→72.1% worst-group accuracy)。

Modal Logical Neural Networks for Financial AI

提出模态逻辑神经网络(MLNN),将 Kripke 语义(必然/可能模态算子)集成到神经网络中,在金融合同安全审查、洗售合规和市场串谋检测中实现可审计的逻辑推理与深度学习性能的结合。

MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates

提出 MT-DAO,一种多时间尺度分布式自适应优化器,通过引入慢动量(高 \(\beta\))来解决低频通信训练中标准动量衰减过快导致的时间尺度失配问题,首次提供了收敛保证,在语言模型预训练中消除了与全同步 DDP 的性能差距,同时减少 6-27% 的端到端训练时间。

NIMO: a Nonlinear Interpretable MOdel

NIMO 提出一种混合模型 \(y = \sum_j x_j \beta_j (1 + g_{\mathbf{u}_j}(\mathbf{x}_{-j}))\),在保留线性回归系数全局可解释性(通过均值边际效应 MEM)的同时,利用神经网络提供逐实例的非线性修正,并通过参数消去法高效联合优化线性系数和网络参数。

Noisy-Pair Robust Representation Alignment for Positive-Unlabeled Learning

提出NcPU框架,通过噪声对鲁棒的非对比损失(NoiSNCL) 在不可靠监督下对齐类内表示,配合幻影标签消歧(PLD) 迭代优化伪标签,无需辅助负样本或预估类先验即可在PU学习中逼近甚至超越有监督性能。

Non-Collaborative User Simulators for Tool Agents

提出非协作用户模拟器框架,定义四类真实非协作行为(不可用服务/跑题/不耐烦/不完整表述),揭示当前工具 Agent 面对非协作用户时显著退化(跑题平均降 29.1%),并证明混合训练可提升鲁棒性至 93.5%。

Speculative Actions: A Lossless Framework for Faster AI Agents

借鉴 CPU 推测执行和 LLM 推测解码的思想,提出 Speculative Actions 框架:在慢速 Actor(大模型)计算时用快速 Speculator(小模型)预测未来动作并预执行,匹配时跳过等待实现无损加速,在 Chess/电商/问答等场景实现 15-30% 延迟降低,置信度动态分支策略用 40% 更少 token 达到近似 3 条推测的加速效果。

The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?

通过 bias-variance 分解量化 AI 模型的错误模式,发现随着推理链变长和任务变难,模型失败变得更加"不连贯"(variance 主导)而非"系统性错误"(bias 主导),暗示未来 AI 风险更像工业事故而非一致性目标追求。