跳转至

🤖 AAAI2026 论文笔记

567 篇笔记,覆盖 35 个领域。

领域概览

领域 篇数
💬 LLM / NLP 62
🦾 LLM Agent 50
💡 LLM 推理 33
🧩 多模态 VLM 33
🚗 自动驾驶 29
🎨 图像生成 28
⚖️ 对齐 / RLHF 25
📦 模型压缩 23
🧊 3D 视觉 22
🛡️ AI 安全 21
🏥 医学图像 19
🎯 目标检测 17
🎮 强化学习 17
🧑 人体理解 16
🕸️ 图学习 15
🤖 机器人/具身智能 14
✂️ 语义分割 14
🎵 音频/语音 13
LLM 效率 12
🔗 因果推理 9
📈 时间序列 9
🎬 视频理解 8
🖼️ 图像恢复 7
✍️ 文本生成 6
📐 优化/理论 6
🎁 推荐系统 6
🛰️ 遥感 6
🔄 自监督/表示学习 5
📡 信号/通信 5
🧮 科学计算 4
🔎 AIGC 检测 3
📖 NLP 理解 2
⚛️ 物理学 2
🌍 地球科学 1
📂 其他 25

💬 LLM / NLP

An Invariant Latent Space Perspective on Language Model Inversion

提出不变潜空间假说(ILSH),将LLM反演问题重新建模为复用LLM自身潜空间,设计Inv²A框架通过轻量级逆编码器将输出映射到去噪伪表示,再由冻结的LLM解码恢复隐藏prompt,在9个数据集上BLEU平均提升4.77%且仅需20%数据量即可达到可比性能。

"As Eastern Powers, I Will Veto." : An Investigation of Nation-Level Bias of Large Language Models in International Relations

系统性地研究 LLM 在国际关系领域的国家级偏见,基于联合国安理会真实数据设计三种偏见测试(直接问答、关联测试、投票模拟),揭示偏见的多维性——随模型和评知上下文变化,并提出 RAG+Reflexion 去偏框架。

Benchmarking LLMs for Political Science: A United Nations Perspective

提出 UNBench,首个基于联合国安理会 1994-2024 年记录的综合性政治科学 LLM 评测基准,涵盖决议起草、投票模拟、通过预测和代表发言生成四个关联任务,评估 LLM 对复杂政治动态的理解和模拟能力。

Beyond Accuracy: A Cognitive Load Framework for Mapping the Capability Boundaries of Tool-use Agents

借鉴心理学的认知负荷理论(CLT),将工具使用任务的复杂度分解为内在负荷(任务解题路径的结构复杂度)和外在负荷(问题表述的歧义性),构建可参数化调节认知负荷的 ToolLoad-Bench 基准,用指数衰减模型 \(\text{Acc} \approx e^{-(k \cdot CL + b)}\) 精确刻画不同 Agent 的能力边界。

Beyond Cosine Similarity: Magnitude-Aware CLIP for No-Reference Image Quality Assessment

提出 MA-CLIP,发现并利用 CLIP 图像特征的幅度信息作为感知质量的互补线索,结合余弦相似度实现无需训练的自适应双线索融合图像质量评估。

Beyond Hallucinations: A Composite Score for Measuring Reliability in Open-Source Large Language Models

提出 Composite Reliability Score (CRS),将校准度、鲁棒性和不确定性量化三个维度统一为单一可解释指标,对 10 个开源 LLM 在 5 个 QA 数据集上进行系统评估,发现 Mistral-8x22B 综合可靠性最高(CRS=0.81),而模型大小并不直接决定可靠性。

Blue Teaming Function-Calling Agents

系统评估了四个开源function-calling LLM在三种攻击下的鲁棒性,并测试了八种防御方案的效果,揭示了当前模型默认不安全、防御方案在实际场景中仍难以部署的现状。

Cog-RAG: Cognitive-Inspired Dual-Hypergraph with Theme Alignment Retrieval-Augmented Generation

提出 Cog-RAG,用主题超图和实体超图构建双超图索引,模拟人类"自顶向下"的认知过程进行两阶段检索(先主题后细节),实现从全局语义到局部信息的对齐生成。

ComLQ: Benchmarking Complex Logical Queries in Information Retrieval

构建了首个面向复杂逻辑查询的信息检索基准 ComLQ(含合取、析取、否定等 14 种查询类型),并提出子图引导的 LLM 数据合成方法和否定一致性评估指标 LSNC,揭示现有检索器在逻辑推理尤其是否定建模上的严重不足。

ConInstruct: Evaluating Large Language Models on Conflict Detection and Resolution in Instructions

提出 ConInstruct 基准,评估 LLM 在指令包含冲突约束时的检测和解决能力,发现多数专有模型能较好检测冲突但很少主动告知用户,其中 DeepSeek-R1 和 Claude-4.5-Sonnet 在冲突检测上表现最佳(F1 分别达 91.5% 和 87.3%)。

Control Illusion: The Failure of Instruction Hierarchies in Large Language Models

系统性揭示了当前 LLM 中 system/user 提示分离机制无法有效建立指令优先级,并发现预训练习得的社会层级先验(权威、专业、共识)比显式的 system/user 角色对模型行为有更强的控制力。

Conversational Learning Diagnosis via Reasoning Multi-Turn Interactive Learning

提出 ParLD(Preview-Analyze-Reason 框架),通过多 Agent 协作实现对话式学习过程中学生认知状态的细粒度逐轮诊断,在性能预测上超越传统知识追踪方法 10%,并显著提升辅导效果。

ConvMix: A Mixed-Criteria Data Augmentation Framework for Conversational Dense Retrieval

提出 ConvMix 混合准则数据增强框架,从查询和文档双方向用 LLM 进行可扩展的相关性标注增强,并通过聚类多样性选择和 Fisher 信息近分布监督筛选,系统性提升对话式稠密检索性能。

Do Not Merge My Model! Safeguarding Open-Source LLMs Against Unauthorized Model Merging

提出MergeBarrier,一种即插即用的防御方法,通过对注意力层施加正交投影、对FFN层进行激活函数展开重参数化,破坏受保护模型与同源模型之间的线性模态连通性(LMC),从而在不损失模型性能的前提下主动阻止未授权的模型合并。

ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences

ELSPR 将 LLM 评估器的成对偏好建模为锦标赛图,通过强连通分量 (SCC) 识别非传递偏好,提出归一化有向图结构熵指标,并基于图重构过滤有问题的训练数据——过滤后的评估器非传递性降低 13.8%、结构熵降低 0.088,且丢弃数据的人类一致性仅 34.4%(vs 保留数据 52.6%)。

Emergent Persuasion: Will LLMs Persuade Without Being Prompted?

研究 LLM 在未被提示说服的情况下是否会自发产生说服行为:发现激活引导(steering)无法可靠诱发说服倾向,但在良性说服数据上的 SFT 微调会导致模型在有害话题上产生涌现性说服行为,揭示了后训练安全风险。

GloCTM: Cross-Lingual Topic Modeling via a Global Context Space

提出GloCTM,通过双路径VAE架构(局部语言路径+全局上下文路径)结合Polyglot Augmentation(跨语言近邻词扩充输入)、KL散度内部对齐、统一解码器结构对齐和CKA语义对齐四重机制,在3个跨语言数据集上全面超越现有方法的主题质量和跨语言对齐度。

Graph Out-of-Distribution Detection via Test-Time Calibration with Dual Dynamic Dictionaries

提出 BaCa 框架,在测试阶段通过 graphon 估计 + mixup 策略生成边界感知的合成图拓扑,结合双优先队列动态字典和注意力机制自适应校准 OOD 分数,无需微调预训练模型或引入辅助OOD数据,在全部 10 个数据集上超越 GOODAT,平均 AUC 提升 8.37%。

Guess or Recall? Training CNNs to Classify and Localize Memorization in LLMs

在 LLM 注意力权重上训练 CNN 来评估记忆化分类法与实际注意力机制的对齐程度,提出新的三类分类法(Guess/Recall/Non-Memorized),最小 F1 从 64.7% 提升至 89.0%,并定位了不同记忆类型分别依赖低层(Guess)和高层(Recall)注意力。

Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models

从计算复杂性角度分析LLM幻觉和能力局限,论证超过特定计算复杂度后LLM不仅无法正确执行任务,甚至无法验证其输出的正确性,为幻觉问题划定理论边界。

How Does Alignment Enhance LLMs' Multilingual Capabilities? A Language Neurons Perspective

提出三元神经元分类(语言特定/语言相关/通用),将 LLM 多语言推理分为四阶段分析,发现多语言对齐通过增加语言相关神经元(减少语言特定神经元)来提升性能,且在未训练语言上也产生"自发多语言对齐"效应。

HSKBenchmark: Modeling and Benchmarking Chinese Second Language Acquisition in Large Language Models through Curriculum Tuning

提出 HSKBenchmark,首个面向 LLM 中文二语习得(SLA)分阶段建模与写作评估的基准,包含 HSK 3-6 级教材(6.76M tokens)、16K 合成指令数据、30 个测试题目及语言学评估系统,配合课程式微调框架模拟人类习得轨迹。

Hypothesis Generation via LLM-Automated Language Bias for ILP

提出首个端到端框架:多Agent LLM系统(Actor/Critic)自动从原始文本构建ILP语言偏差(谓词系统+类型声明+模式约束),Translator将文本翻译为Prolog事实,再由MAXSYNTH求解器基于MDL原则归纳全局最优规则集。在SHOES和ZENDO任务上分别达88.3%和81.3%准确率,跨4种LLM方差<5%。

ICL-Router: In-Context Learned Model Representations for LLM Routing

提出 ICL-Router,通过两阶段训练(查询重建 + ICL模型路由)将 LLM 的能力画像编码为 in-context 向量,实现可扩展的动态模型路由——新增模型无需重训路由器,在分布内和分布外任务上均达到 SOTA。

Identifying and Analyzing Performance-Critical Tokens in Large Language Models

通过representation-level和token-level两种消融实验,发现LLM在ICL中直接依赖的"性能关键token"是模板和停用词token(如"Answer:"),而非人类会关注的内容token(如实际文本),并揭示了LLM通过将内容信息聚合到这些关键token的表示中来间接利用内容。

Improving Sustainability Of Adversarial Examples In Class-Incremental Learning

提出SAE框架解决类增量学习(CIL)中对抗样本因域漂移而失效的问题,通过语义校正模块(CLIP+CIL模型联合引导)和过滤增强模块(去除语义混淆样本),使对抗样本在类别数增长9倍后仍保持攻击效果,平均攻击成功率提升31.28%。

Induce, Align, Predict: Zero-Shot Stance Detection via Cognitive Inductive Reasoning

提出CIRF(Cognitive Inductive Reasoning Framework),受认知科学启发,从原始文本中无监督归纳一阶逻辑推理模式(schema),构建多关系schema图,用图核模型对齐输入与schema模板实现可解释的零样本立场推理,在SemEval-2016、VAST和COVID-19-Stance上达到SOTA,仅30%数据即可匹配全量。

Learning Spatial Decay for Vision Transformers

提出 Spatial Decay Transformer(SDT),首次将数据依赖的空间衰减机制从 1D 序列建模适配到 2D 视觉 Transformer,通过 Context-Aware Gating(CAG)生成动态的、内容相关的 patch 交互衰减强度,在 ImageNet-1K 分类和生成任务上一致超越 RMT 等强基线。

Llm-As-A-Judge For Scalable Test Coverage Evaluation Accuracy Operational Reliab

将LLM-as-Judge范式应用于Gherkin验收测试覆盖率评估,在20种模型配置x500次评估中系统量化准确性-可靠性-成本三维权衡,发现GPT-4o Mini以6.07 MAAE、96.6% ECR@1和$1.01/1K评估成为最优生产选择,成本仅为GPT-5高推理版的1/78。

LLM Circuit Analyses Are Consistent Across Training and Scale

本文首次系统追踪 decoder-only LLM 的内部电路(circuits)在 3000 亿 token 训练过程中和 70M–2.8B 参数规模间的演化,发现虽然具体注意力头会发生更替,但执行的算法保持稳定,且跨规模具有一致性,表明在小模型上做的电路分析可推广到更大模型和更长训练。

LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users

系统实验表明,主流LLM(GPT-4、Claude 3 Opus、Llama 3-8B)对英语水平较低、教育程度较低、非美国出身的用户,在信息准确性、真实性和拒绝回答方面存在显著的歧视性表现下降,使最脆弱的用户成为最不可靠的信息服务对象。

LoKI: Low-damage Knowledge Implanting of Large Language Models

提出LoKI,一种基于Transformer知识存储机制理解的参数高效微调方法,通过知识向量归因(KVA)评估FFN中各知识向量的贡献度,选择低贡献向量进行层均衡的知识植入,在获得强任务性能的同时显著缓解灾难性遗忘。

LoopLLM: Transferable Energy-Latency Attacks in LLMs via Repetitive Generation

提出LoopLLM,一种通过诱导LLM进入重复生成模式来发起能耗延迟攻击的框架,利用重复诱导提示优化和token对齐的集成优化,在12个开源和2个商业LLM上实现超过90%最大输出长度的攻击效果,跨模型迁移性提升约40%。

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

提出 PSN-IRT(Pseudo-Siamese Network for IRT),用增强版项目反应理论同时估计 LLM 能力参数和题目的四参数特征(难度/区分度/猜测率/可行性),在 11 个基准 41,871 题上发现当前基准存在广泛饱和、难度天花板不足、数据污染等系统性问题,PSN-IRT 选出的题目子集排名一致性达 Kendall τ=1.00。

Low-Rank Curvature for Zeroth-Order Optimization in LLM Fine-Tuning

提出 LOREN,一种曲率感知的零阶优化方法,通过低秩块对角预条件器捕获损失景观的各向异性曲率,并结合 REINFORCE Leave-One-Out 方差缩减技术,在 LLM 微调中实现了更高精度和更快收敛,同时相比 MeZO-Adam 节省高达 27.3% 的峰值内存。

MAPS: Multi-Agent Personality Shaping for Collaborative Reasoning

提出 MAPS 五 Agent 协作推理框架,基于大五人格理论为 4 个功能 Agent 赋予不同"性格"(Interpreter-开放性、Aligner-宜人性、Scholar-尽责性、Solver-外向性)实现异质化协作,加上 Critic Agent(神经质→苏格拉底式反思)做迭代修正,在 MathVista/OlympiadBench/EMMA 上超越 GPT-4o 基线 15.84%,首次超过人类专家 3.58%。

MCTS-SQL: Light-Weight LLMs can Master the Text-to-SQL through Monte Carlo Tree Search

提出MCTS-SQL,让轻量LLM(如Qwen-1.5B)通过蒙特卡洛树搜索实现强大的Text-to-SQL能力——三组件架构(Selector做Schema剪枝 + Direct Generator生成初始SQL + MCTS-Refiner迭代精化),配合前缀缓存机制减少53%推理时间,Qwen-1.5B在BIRD上达40.69%执行准确率(超ChatGPT-3.5)。

Mem-PAL: Towards Memory-based Personalized Dialogue Assistants for Long-term User-Agent Interaction

提出H2Memory四层分层异构记忆结构(日志图/背景记忆/主题大纲/原则),通过PAL-Set数据集(100用户×8.4个月交互)验证,在需求重述和方案建议任务上将BLEU-1从13.59提升至26.67。

MindVote: When AI Meets the Wild West of Social Media Opinion

提出 MindVote——首个基于真实社交媒体投票数据的 LLM 舆情预测基准,包含 Reddit/微博上 3,918 个自然投票(23 个话题),附带平台和话题上下文。评估 15 个 LLM 发现:最佳模型(o3-medium)1-Wasserstein 仅 0.892 vs 上界 0.972;在调查数据上微调的专用模型反而不如通用模型("调查特化陷阱");模型表现出强烈文化对齐——西方模型擅长 Reddit、中国模型擅长微博。

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

通过激活转向(activation steering)技术缓解 LLM 中的内容效应偏见——模型将内容可信度与形式逻辑有效性混淆的问题,提出 K-CAST(基于 kNN 的条件激活转向)方法,在不响应静态转向的模型上实现高达 15% 的形式推理准确率提升。

Multiplicative Orthogonal Sequential Editing for Language Models (MOSE)

提出 MOSE(乘法正交序列编辑),用正交矩阵左乘(而非加法更新)参数矩阵来注入新知识,严格保持编辑后矩阵的范数和条件数不变,在序列编辑中实现 12.08% 的性能提升并保留 95.73% 通用能力。

No-Regret Strategy Solving in Imperfect-Information Games via Pre-Trained Embedding

提出 Embedding CFR 算法,将不完美信息博弈中的信息集映射到连续低维嵌入空间(而非离散聚类),在相同空间开销下实现更快的可利用性收敛和更高质量的策略求解。

OptScale: Probabilistic Optimality for Inference-time Scaling

提出概率最优框架 OptScale,通过建模验证器分数的概率分布推导出最优采样数量的理论下界,动态决定每个问题所需的最少采样次数,在保持推理准确率的同时大幅减少计算开销。

ParetoHqD: Fast Offline Multiobjective Alignment of Large Language Models Using Pareto High-Quality Data

提出 ParetoHqD,将人类偏好表示为目标空间中的偏好方向(而非线性标量化),通过选取靠近 Pareto 前沿的高质量数据做两阶段 SFT,用仅 42% 的 GPU 时间实现优于 5 个基线的多目标 LLM 对齐效果。

PERSIST: Persistent Instability in LLM's Personality Measurements

PERSIST 框架系统评估 25 个开源 LLM(1B-685B)在 200 万+响应上的人格测量稳定性,发现即使 400B+模型在 5 分制量表上仍有 SD>0.3 的不稳定性,且 CoT 推理悖论性地增加变异性同时降低困惑度,LLM 适配问卷与传统人类问卷表现出相似的不稳定性。

Position on LLM-Assisted Peer Review: Addressing Reviewer Gap through Mentoring and Feedback

本文作为立场论文,提出将LLM在同行评审中的角色从"自动生成审稿意见"转向"增强人类审稿能力"——通过LLM驱动的导师系统(三阶段培训+认证)和反馈系统(违规检测+证据反馈+可靠性测试)来缩小审稿质量差距。

PRECISE: Reducing the Bias of LLM Evaluations Using Prediction-Powered Ranking Estimation

将Prediction-Powered Inference(PPI)框架扩展到子实例级别的排序指标(如Precision@K),通过仅30-100条人工标注+大量LLM评判结果获得无偏的排序指标估计,计算复杂度从 \(O(2^{|C|})\) 降至 \(O(2^K)\),在印度电商搜索场景中成功指导LLM查询改写系统上线。

Profuser Progressive Fusion Of Large Language Models

提出ProFuser,通过双模式优势评估(训练模式Min-CE + 推理模式Reward Model投票)全面识别各源模型在不同维度的优势,再用渐进式融合策略(先推理模式→后训练模式的easy-to-hard课程)将异构LLM的互补能力整合到单个目标模型中,在知识/推理/安全6个基准上平均提升1.65%。

Quiet Feature Learning in Algorithmic Tasks

在 10 个算法任务(18,544 次训练运行,\(10^9\)-\(10^{16}\) FLOPs)上发现,Transformer 的损失平台期并非学习停滞——模型在此期间悄悄学习了"安静特征"(中间算法子程序),这些特征不直接降低输出损失但对最终性能因果必要(消融后准确率下降 41-75%)。这挑战了用损失曲线判断训练进展的常规做法。

Rectification Reimagined: A Unified Mamba Model for Image Correction and Rectangling with Prompts

从统一畸变矫正视角出发,提出 UniRect 框架,通过 Residual Progressive TPS 处理几何形变 + Residual Mamba Blocks 补偿退化,统一处理肖像校正、广角矩形化、拼接矩形化、旋转校正四种任务,并通过 Sparse MoE 实现 four-in-one 多任务学习,拼接矩形化 PSNR 提升 3.82 dB,旋转校正提升 0.87 dB。

ReFeed: Retrieval Feedback-Guided Dataset Construction for Style-Aware Query Rewriting

提出一个检索反馈驱动的数据集生成框架,通过识别检索失败case、LLM风格化改写、重检索验证三步闭环,自动构建高质量的风格感知查询改写数据集,为训练检索对齐的改写模型提供数据基础。

Scalable and Accurate Graph Reasoning with LLM-Based Multi-Agents

提出 GraphAgent-Reasoner(GAR),受分布式图计算理论启发,将图问题分解为以节点为中心的子任务分配给多个 Agent,通过邻居消息传递协作求解,将 LLM 可处理的图规模从 100 个节点扩展到 1000 个,在多项式时间图推理任务上显著超越现有最佳方法。

Scaling and Transferability of Annealing Strategies in Large Language Model Training

提出模型无关的预测框架,分解训练损失为前向效应项(学习率积分S)、退火动量项(Adam-style动量积分M)和模型尺寸项N,证明退火策略可从小模型/小batch迁移到大模型/大batch,预测误差MAPE<2%。

Scaling Equitable Reflection Assessment in Education via Large Language Models

研究用 LLM 自动评估教育场景中学生的反思写作质量——在保持与人类评分者高一致性的同时,系统分析了 LLM 评估在种族、性别、社会经济背景等维度上的公平性,发现 LLM 评分可以达到甚至超越人类评分者间的一致性,但在某些人口统计维度上仍存在偏差。

TEMPLE: Incentivizing Temporal Understanding of Video LLMs via Progressive Pre-SFT Alignment

提出 TEMPLE,通过自动化的视频时间偏好数据生成管线(视频筛选→时间扰动→对比响应)和创新的 Progressive Pre-SFT Alignment 策略(课程学习 + DPO 先于 SFT),用少量自生成 DPO 数据显著提升 Video LLM 的时间推理能力,在 VideoMME、MLVU、Vinoground 等多个基准上一致改进。

TransMamba: A Sequence-Level Hybrid Transformer-Mamba Language Model

提出 TransMamba,一种序列级别的 Transformer-Mamba 混合架构,通过共享 QKV/CBx 参数和 Memory Converter 在不同 token 长度时动态切换 Attention 和 SSM,兼顾长短序列的效率。

Uncertainty Under the Curve: A Sequence-Level Entropy Area Metric for Reasoning LLMs

提出 Entropy Area Score (EAS)——通过单次前向传播积分 token 级预测熵来量化推理 LLM 的不确定性。EAS 无需外部模型或重复采样,与答案熵强相关(Pearson r=0.82),用于训练数据选择时比 Pass Rate 过滤多提升 1.2-2.3% Pass@1,是高效可解释的 LLM 不确定性工具。

Uncovering Pretraining Code in LLMs: A Syntax-Aware Attribution Approach

提出SynPrune——首个语法感知的代码成员推断攻击方法,通过识别47种Python语法约定并在计算成员推断分数时剪除语法决定的token(仅保留反映作者特征的token),平均AUROC提升15.4%,可有效检测代码LLM的预训练数据归属。

Vision Transformers are Circulant Attention Learners

发现 ViT 的自注意力内禁学习了 BCCB 模式,据此提出 Circulant Attention,通过 2D FFT 实现 \(O(N\log N)\) 复杂度,在 ImageNet 分类、COCO 检测、ADE20K 分割上一致提升。

VSPO: Validating Semantic Pitfalls in Ontology via LLM-Based CQ Generation

提出 VSPO 框架,通过构造"定义-公理"错位数据集并微调 LLaMA-3.1-8B-Instruct,生成能够验证本体语义陷阱(如 allValuesFrom 误用)的能力问题(CQ),精度和召回率分别超过 GPT-4.1 达 26% 和 28.2%。

Where Norms and References Collide: Evaluating LLMs on Normative Reasoning

提出 SNIC 诊断测试台(9,000 实例/51 场景),评估 LLM 能否利用隐式社会规范来解决歧义参考消解(如"递给我杯子"时存在多个杯子)。发现 LLM 在仅看场景描述时平均准确率仅 44%,加上 Prolog 形式逻辑无显著改善(44.2%),但显式提供规范列表后猛升到 70.5%(GPT-4.1 达 99.6%),证明 LLM 缺乏隐式物理规范知识但能有效利用显式规范。

X-MuTest: A Multilingual Benchmark for Explainable Hate Speech Detection

提出 X-MuTest,一个多语言可解释仇恨言论检测基准,覆盖多种语言和文化背景,评估 LLM 不仅检测仇恨言论的能力,更关注其提供可解释性理由的能力,发现当前模型在多语言和跨文化场景中存在显著性能差异。


🦾 LLM Agent

A2Flow: Automating Agentic Workflow Generation via Self-Adaptive Abstraction Operators

提出 A2Flow 框架,通过三阶段流水线(案例生成→功能聚类→深度提取)从专家数据中全自动提取可复用的抽象执行算子,替代人工预定义算子,并引入算子记忆机制累积中间输出辅助节点决策,在 8 个基准上整体超越 AFLOW 等 SOTA,资源消耗降低 37%。

A Multi-Agent Conversational Bandit Approach to Online Evaluation and Selection of User-Aligned LLM Responses

提出 MACO(Multi-Agent Conversational Online Learning),将 LLM 回复选择建模为多 Agent 对话式赌博机问题,通过本地 Agent 淘汰低质量回复 + 云端自适应关键词对话收集偏好,实现近似最优的在线回复评估和用户偏好对齐。

KDR-Agent: A Multi-Agent LLM Framework for Multi-Domain Low-Resource In-Context NER via Knowledge Retrieval

提出 KDR-Agent 多 Agent 框架,通过中央规划器协调知识检索、上下文消歧和反思纠错三个专用 Agent,结合自然语言类型定义和实体级正负对比示例,无需微调即可在 5 个领域 10 个低资源 NER 数据集上全面超越 zero-shot 和 few-shot 基线(GPT-4o 上 BC5CDR F1=82.47,WNUT-17 F1=80.78)。

A Multi-Agent LLM Framework for Multi-Domain Low-Resource In-Context NER via Knowledge Retrieval, Disambiguation and Reflective Analysis

提出 KDR-Agent 多智能体框架,通过知识检索(Wikipedia)、歧义消解和反思式自我纠错三个专业智能体协同工作,在仅使用少量静态标注示例的条件下,在5个领域10个NER数据集上显著超越现有零样本和少样本ICL NER方法。

AgentSense: Virtual Sensor Data Generation Using LLM Agents in Simulated Home Environments

利用LLM驱动的具身智能体在模拟智能家居中"生活",生成虚拟环境传感器数据用于预训练HAR模型,在低资源场景下显著提升活动识别性能。

AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search

提出AgentSwift框架,通过层次化搜索空间(同时优化agentic workflow和功能组件)、轻量级value model预测agent性能、以及不确定性引导的MCTS搜索策略,自动发现高性能LLM agent设计,在7个基准上平均提升8.34%。

AquaSentinel: Next-Generation AI System Integrating Sensor Networks for Urban Underground Water Pipeline Anomaly Detection via Collaborative MoE-LLM Agent Architecture

提出AquaSentinel,一个物理信息驱动的AI系统,通过稀疏传感器部署+物理增强虚拟传感器+MoE时空GNN集成+双阈值RTCA检测算法+因果流定位+LLM报告生成,仅用20-30%节点覆盖即可实现全网管道泄漏检测,在110个泄漏场景中达到100%检测率。

ARCANE: A Multi-Agent Framework for Interpretable and Configurable Alignment

提出ARCANE框架,将对齐建模为多智能体协作问题——manager agent通过与stakeholder对话学习生成自然语言rubric(加权可验证准则集),作为worker agent的可解释代理奖励函数,通过SFT+GSPO两阶段训练实现测试时可配置的对齐,在GDPVal基准上GSPO版本的mean return从0.58提升至0.74(N=8)。

AutoGLM: Autonomous Foundation Agents for GUIs

AutoGLM 基于 ChatGLM 构建了面向 Web 浏览器和 Android 手机的 GUI 基础智能体,通过中间接口设计分离规划与定位行为,并提出自进化在线课程强化学习框架,在 VAB-WebArena-Lite 上达到 55.2% 成功率,大幅超越 GPT-4o 的 18.2%。

Automating Complex Document Workflows Via Stepwise And Rollback-Enabled Operatio

提出AutoDW框架,通过逐步规划(每次生成一个API调用)+自适应回滚(参数级+API级两层回滚)实现复杂文档工作流自动化,在250会话/1708指令的DWBench上达到90%指令级和62%会话级完成率,分别超越最强基线40%和76%。

AutoTool: Efficient Tool Selection for Large Language Model Agents

提出AutoTool,一个基于图的免训练工具选择框架,通过发现并利用"工具使用惯性"(tool usage inertia)——即工具调用遵循可预测的顺序模式这一经验现象——构建工具惯性图(TIG),用统计方法代替部分LLM推理来高效选择工具和填充参数,在保持任务完成率的同时减少15-40%的推理成本。

AutoTool: Efficient Tool Selection for Large Language Model Agents

提出 AutoTool,一种基于图的工具选择框架,利用工具使用惯性(tool usage inertia)构建工具惯性图(TIG),通过统计结构绕过重复的 LLM 推理来选择工具和填充参数,在保持任务完成率的同时减少最多 30% 的推理开销。

BayesAgent: Bayesian Agentic Reasoning Under Uncertainty via Verbalized Probabilistic Graphical Modeling

提出 vPGM 框架,通过自然语言引导 LLM Agent 模拟概率图模型(PGM)的贝叶斯推理过程,发现隐变量并推断后验分布,再用 Dirichlet 先验做数值贝叶斯校准(BayesVPGM),在多个推理任务上同时提升准确率和置信度校准。

Beyond ReAct: A Planner-Centric Framework for Complex Tool-Augmented LLM Reasoning

提出以Planner为核心的Plan-Execute框架,将复杂查询转化为DAG执行计划,通过SFT+GRPO两阶段训练专门的Planner模型,在ComplexTool-Plan和StableToolBench上超越ReAct等反应式方法,用更少推理步骤实现更高成功率。

CausalTrace: A Neurosymbolic Causal Analysis Agent for Smart Manufacturing

提出 CausalTrace——一个集成于工业 CoPilot(SmartPilot)中的神经符号因果分析智能体,融合数据驱动因果发现与工业本体/知识图谱,实现了实时的根因分析、反事实推理和可解释决策支持。

Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents

提出Co-EPG框架,将GUI Agent解耦为Planning和Grounding两个模型,通过GRPO协同训练和基于置信度的动态奖励集成机制(C-DREM)建立正反馈循环,使两个模型自迭代协同进化,仅用基准数据集(无需外部数据)即在Multimodal-Mind2Web(58.4%)和AndroidControl(83.1%)上达到SOTA。

COACH: Collaborative Agents for Contextual Highlighting -- A Multi-Agent Framework for Sports Video Analysis

提出 COACH 框架——一个基于共享骨干模型的可重配置多智能体系统,通过意图驱动的策略编排和结构化 CoT 微调实现角色专业化,在羽毛球视频分析的 QA 和摘要两个任务上显著超越 Gemini 2.5 Pro 等通才模型。

Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

提出ORS3D任务——将运筹学(OR)知识引入具身AI的任务调度,要求智能体利用可并行子任务的等待时间执行其他任务以最小化总完成时间,同时在3D场景中定位目标物体;构建60K级数据集ORS3D-60K,并提出GRANT模型通过调度token机制连接外部动态规划求解器,在时间效率上比baseline提升30.53%。

COVR: Collaborative Optimization of VLMs and RL Agent for Visual-Based Control

提出 VLM 与 RL 双向协同优化框架 COVR:RL 生成的高质量交互数据用于微调 VLM,增强后的 VLM 反过来通过 action prior 指导 RL 策略学习,在 CARLA 和 DMControl 上取得 SOTA。

D-GARA: A Dynamic Benchmarking Framework for GUI Agent Robustness in Real-World Anomalies

提出 D-GARA,一个面向 Android GUI Agent 的动态鲁棒性评估框架,通过在实时交互过程中注入权限弹窗、电量警告、应用崩溃等真实世界异常,揭示现有 SOTA Agent(包括 UI-TARS-72B、GPT-4o)在中断场景下平均成功率下降超过 17.5%,最高达 33% 的严重脆弱性。

DEPO: Dual-Efficiency Preference Optimization for LLM Agents

提出双重效率(dual-efficiency)的概念,将 LLM Agent 的效率分解为 step 级(减少每步 token 数)和 trajectory 级(减少总步数),并基于 KTO 设计了 DEPO 方法,通过在 desirable 样本的 reward 中加入效率 bonus 来联合优化效率与性能。

EcoAgent: An Efficient Device-Cloud Collaborative Multi-Agent Framework for Mobile Automation

提出 EcoAgent,一个闭环设备-云端协作的多 Agent 移动自动化框架,通过 Dual-ReACT 双层推理规划 + 设备端轻量验证反馈 + Pre-Understanding 文本压缩模块,在 AndroidWorld 上达到与全云端 Agent 相当的成功率,同时大幅降低延迟(3.9s vs 15.3s)、云端调用(降89%)和上行数据量(降48.6倍)。

Extracting Events Like Code: A Multi-Agent Programming Framework for Zero-Shot Event Extraction

提出 Agent-Event-Coder (AEC),将零样本事件抽取类比为软件工程流程,用4个专职Agent(Retrieval→Planning→Coding→Verification)协作完成抽取,并将事件schema编码为可执行Python类实现编译器式确定性验证与双循环迭代修正,在5个领域、6个LLM上全面超越零样本基线。

Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

提出 Fact2Fiction,首个针对 Agent 化事实核查系统(如 DEFAME、InFact)的投毒攻击框架:通过 Planner Agent 模拟声明分解生成子问题,利用系统的 justification 反向工程关键推理点来制作定向恶意证据,并按重要性分配投毒预算,在仅 1% 投毒率下比 SOTA PoisonedRAG 高 8.9%-21.2% 的攻击成功率。

FinRpt: Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation

首次系统化地定义股票研究报告(ERR)自动生成任务——构建 FinRpt 数据集(6,825篇中英文高质量研报,整合7类金融数据),提出11指标评估体系和9 Agent协作的FinRpt-Gen生成框架(含评级修正/专家审查/润色三阶段增强),人类评估显示生成报告质量接近专家撰写。

From Biased Chatbots to Biased Agents: Examining Role Assignment Effects on LLM Agent Robustness

首个系统性案例研究,揭示基于人口统计学的 persona 分配会导致 LLM Agent 在 5 个操作领域的任务执行中出现最高 26.2% 的性能下降,证明 persona 诱导的偏见从文本生成延伸到了行动决策层面。

History-Aware Reasoning for GUI Agents

提出 HAR 框架,通过构建反思学习场景、合成纠错指南、设计混合 RL 奖励函数(含 Memory-Augmented Reward),将 GUI Agent 的推理模式从"历史无感知"转变为"历史感知",3B 模型在 AITW/Mind2Web/GUI-Odyssey 等多个 benchmark 上超越更大模型。

iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference

iMAD 提出选择性触发多Agent辩论的框架:先让单Agent生成带自我批判的结构化响应,从中提取 41 个可解释的语言/语义特征,用轻量 MLP 分类器(FocusCal 损失训练)判断是否需要触发 MAD,在 6 个 QA/VQA 数据集上减少高达 92% 的 Token 开销,同时提升准确率高达 13.5%。

LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models

设计LieCraft多人隐藏角色博弈框架(约束满足问题确保平衡),评估12个LLM的战略欺骗能力,发现所有测试的前沿LLM(含GPT-4)在激励下都展现90%+的欺骗率——安全训练未消除策略性撒谎能力。

Llandmark A Multi-Agent Framework For Landmark-Aware Multimodal Interactive Vide

提出 LLandMark 模块化多 Agent 框架,通过地标知识增强、LLM 辅助图像检索和 OCR 精炼模块,在越南大规模视频检索挑战赛(HCMAIC 2025)中实现地标感知的多模态交互式视频检索,总分 77.40/88。

LLMTM: Benchmarking and Optimizing LLMs for Temporal Motif Analysis in Dynamic Graphs

提出 LLMTM——首个评估 LLM 处理动态图中时序 motif 分析能力的综合基准,包含 6 类任务覆盖 9 种时序 motif 类型,评估 9 个模型后发现 LLM 对时序 motif 的识别能力随 motif 复杂度快速下降。提出结构感知分派器(Structure-Aware Dispatcher),根据图的结构属性和认知负荷智能路由查询到标准 LLM 提示或工具增强 Agent,在维持高准确率的同时降低计算成本。

Loss-Guided Auxiliary Agents for Overcoming Mode Collapse in GFlowNets

提出 LGGFN(Loss-Guided GFlowNets),用辅助 GFlowNet 的探索直接由主 GFlowNet 的训练损失驱动——辅助 Agent 的奖励 = 原始奖励 + λ·主模型损失,优先采样主模型理解不足的区域,在网格/序列/贝叶斯结构学习任务上分别发现 40× 更多唯一模式、99% 探索误差降低。

MedLA: A Logic-Driven Multi-Agent Framework for Complex Medical Reasoning with Large Language Models

提出 MedLA,首个基于三段论逻辑树的医学多 Agent 推理框架:每个 Agent 将推理组织为显式的逻辑树(大前提-小前提-结论三段论节点),多个 Agent 通过图引导的多轮讨论在前提级别对齐和修正逻辑树,在 MedDDx 上超越所有基线 7.4%(8B 模型),在医学 QA 上以 8B 模型达到 69.9% 平均准确率(超 70B RAG 模型)。

MoralReason: Generalizable Moral Decision Alignment For LLM Agents Using Reasoning-Level Reinforcement Learning

使用Group Relative Policy Optimization (GRPO)在推理层面训练LLM进行道德框架对齐,在Moral-Reason-QA数据集(680个高歧义场景)上实现功利主义对齐分数从0.207提升到0.964的分布外泛化。

Parallelism Meets Adaptiveness Scalable Documents Understanding In Multi-Agent L

提出自适应协调的多 Agent LLM 框架,通过并行竞争评估、动态任务路由和双向反馈机制,在高复杂度金融文档分析任务中实现 27% 的合规准确率提升和 74% 的修订率降低。

Pertouch Vlm-Driven Agent For Personalized And Semantic Image Retouching

提出 PerTouch 框架,结合基于 Stable Diffusion + ControlNet 的语义区域级修图模型和 VLM 驱动的 Agent(含反馈重思考机制和场景感知记忆),实现精细化、个性化的图像修图。

Physics-Informed Autonomous LLM Agents for Explainable Power Electronics Modulation Design

提出PHIA系统:LLM规划器通过聊天接口收集设计需求,协调物理信息神经网络代理模型(层次化PINN)和优化算法自主迭代生成电力转换器调制设计方案,MAE降低63.2%、设计速度提升33倍、20位专家验证可用性。

ProBench: Benchmarking GUI Agents with Accurate Process Information

提出 ProBench,首个同时评估"最终状态"和"操作过程"的移动端 GUI Agent benchmark:200+ 挑战性任务覆盖 34 个中英文主流 App,通过 Process Provider(Structure Description Converter + MLLM Summarizer)自动捕获精确的中间过程信息,评估发现最强模型 Gemini 2.5 Pro 也仅完成 40.1% 任务,暴露了 grounding 不足、历史操作感知差、任务规划过于简化三大普遍问题。

Promoting Sustainable Web Agents: Benchmarking and Estimating Energy Consumption Through Empirical and Theoretical Analysis

首次系统性地从实证基准测试和理论估算两个角度量化了 Web Agent 的能耗与碳排放,发现更高能耗并不等于更好性能,并倡导在评测中引入能效指标。

Prune4Web: DOM Tree Pruning Programming for Web Agent

提出 Prune4Web,通过"LLM 生成评分函数参数 + 固定启发式模板执行"的编程式 DOM 剪枝方法实现 25-50 倍候选元素缩减:三阶段 pipeline(Planner 分解子任务 → Programmatic Filter 生成评分函数剪枝 DOM → Grounder 执行操作),3B 模型在 Multimodal-Mind2Web 上达到 52.4% Step SR(超越所有同参数量基线甚至部分 9.6B/32B 模型),低级 grounding 准确率从 46.8% 提升至 88.28%。

Real-Time Trust Verification For Safe Agentic Actions Using Trustbench

提出TrustBench双模式框架:(1) 基准模式——结合传统指标和LLM-as-a-Judge评估8个信任维度,学习Agent置信度与实际正确率的校准映射;(2) 验证模式——在Agent制定行动后、执行前实时计算信任分数,阻止87%的有害行动,延迟低于200ms,通过领域插件(医疗/金融/QA)实现专业化验证。

Reflection-Driven Control for Trustworthy Code Agents

提出 Reflection-Driven Control 模块,将"自我反思"从事后补丁提升为 Agent 推理过程中的一等控制回路,通过轻量自检、证据驱动修复和反思记忆库三个组件,在安全代码生成任务上显著提升代码安全率。

SoMe: A Realistic Benchmark for LLM-based Social Media Agents

提出 SoMe,首个全面评估 LLM 社交媒体 Agent 的 benchmark:8 个任务覆盖帖子分析、用户理解、综合推理,917 万帖子 + 6591 用户 + 1.7 万标注查询,配套 8 个 MCP 兼容工具,评估 13 个主流 LLM 发现最强模型仅 54.33 分(满分 100),揭示了推理能力≠Agent能力、工具调用幻觉普遍存在等关键发现。

SPAN: Benchmarking and Improving Cross-Calendar Temporal Reasoning of Large Language Models

提出SPAN跨日历时间推理基准(6种日历×10推理方向×100年范围×37380实例),发现基础LLM平均仅34.5%准确率(无一超过80%),揭示Future-Date Degradation和Calendar Asymmetry Bias两种系统性失败模式,工具增强的Time Agent达95.31%——证明跨日历推理需要外部工具而非参数化知识。

Structured Personalization: Modeling Constraints as Matroids for Data-Minimal LLM Agents

将 LLM Agent 个性化中的结构化约束(逻辑依赖 + 层级配额)形式化为层叠拟阵(laminar matroid),证明贪心算法在此约束下仍具有常数因子近似保证,解决了有依赖关系和层级限制的数据最小化选择问题。

Thucy: An LLM-based Multi-Agent System for Claim Verification across Relational Databases

提出首个跨数据库、跨表的多 Agent 声明验证系统 Thucy,由 Verifier 领导三个专家 Agent(Data/Schema/SQL Expert),对数据源完全无先验知识,能自主发现、推理并生成 SQL 证据,在 TabFact 上超越 SOTA 5.6 个百分点(94.3%)。

TongUI: Internet-Scale Trajectories from Multimodal Web Tutorials for Generalized GUI Agents

TongUI 提出从互联网上的多模态教程(视频+图文)自动转化为 GUI 操作轨迹数据的框架,构建了百万级的 GUI-Net-1M 数据集,用于微调 Qwen2.5-VL 模型,在多个 grounding 和 navigation 基准上超越或接近 UI-TARS 等 SOTA。

Towards Trustworthy Multi-Turn Llm Agents Via Behavioral Guidance

提出任务完成框架,通过任务分析器(Task Profiler)、推理模块(Reasoning Module)和生成模块(Generation Module)三组件协同进化,使 LLM Agent 在多轮交互环境中实现可验证和可靠的行为引导。

When Refusals Fail: Unstable Safety Mechanisms in Long-Context LLM Agents

系统研究 LLM Agent 在长上下文填充下的安全行为变化:发现声称支持 1M-2M token 的模型在 100K token 时已出现 >50% 的性能崩溃,拒绝率以不可预测的方式波动(GPT-4.1-nano 从 5% 升至 40%,Grok 4 Fast 从 80% 降至 10%),揭示了长上下文 Agent 系统的严重安全隐患。

With Great Capabilities Come Great Responsibilities: Introducing the Agentic Risk & Capability Framework for Governing Agentic AI Systems

提出 Agentic Risk & Capability (ARC) 框架,从能力(Capability)视角系统化地识别、评估和缓解智能体 AI 系统的安全与安全风险,为组织级治理提供可操作的结构化方法论。


💡 LLM 推理

A Reasoning Paradigm for Named Entity Recognition

提出 ReasoningNER,将命名实体识别从"隐式模式匹配"转变为"显式推理"范式,通过三阶段流程(CoT数据构建→CoT微调→GRPO强化增强)让模型先推理再抽取实体,在零样本设定下F1超GPT-4达12.3个百分点,8B模型在CrossNER上达72.4平均F1。

Answering the Unanswerable Is to Err Knowingly: Analyzing and Mitigating Abstention Failures in Large Reasoning Models

系统分析大推理模型(LRM)面对不可回答数学题时的弃权失败现象,发现LRM内部有足够认知能力识别问题不可解(探针分类准确率>80%)但外部行为仍偏向强答,提出认知监控+推理时干预的两阶段方法,将弃权率从16-54%提升至60-92%且不损害可回答题的推理性能。

ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction

提出潜在推理链提取 (ARCHE) 任务,要求 LLM 将科学论文中的论证分解为基于 Peirce 三种推理范式的推理逻辑树 (RLT),并通过 Entity Coverage 和 Reasoning Edge Accuracy 两个指标揭示了 10 个主流 LLM 在内容完整性与逻辑正确性之间的本质权衡。

BadThink: Triggered Overthinking Attacks on Chain-of-Thought Reasoning in Large Language Models

提出 BadThink——首个针对 CoT 推理效率的训练时后门攻击,通过 LLM 迭代优化生成自然的冗长推理模板进行数据投毒,触发后模型生成膨胀 17× 以上的推理链(MATH-500),同时保持最终答案正确和良好隐蔽性。

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

提出 BLM-Guard,一个面向短视频商业广告的可解释多模态审核框架:先通过 Rule-driven ICoT 数据合成 + SFT 冷启动建立结构化推理能力,再用 Self-Adaptive GRPO 强化学习(结合规则正确性奖励 + 自适应一致性奖励 SCA-R)优化策略对齐,在真实广告 benchmark 上达到 91.4% 严格准确率和 0.845 推理一致性分数。

Chain-of-Thought Driven Adversarial Scenario Extrapolation for Robust Language Models

提出 ASE(Adversarial Scenario Extrapolation),一种推理时 CoT 防御框架,让 LLM 在回答前自主模拟对抗场景并制定防御策略,在四类安全威胁(越狱、毒性、幻觉、偏见)上实现近零攻击成功率,同时将直接拒绝率降至≤4%,兼顾鲁棒性和用户体验。

CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation

提出 CMMCoT 框架,通过构建交错的多模态多步推理链(含视觉区域 token 监督)和测试时检索式记忆增强模块(RIFREM),在不增加参数的前提下提升多图场景下的慢思考推理能力,基于 Qwen2.5-VL-7B 在多图基准上平均提升 1.4 分。

Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning

本文发现 LLM 在 CoT 推理过程中,中间层的注意力头激活值隐式编码了推理步骤的真实性信息(最高 85% 探测准确率),据此训练置信度预测器引导 Beam Search 动态选择高置信度推理路径,在数学/符号/常识推理任务上超越 Self-Consistency 和 PRM Guided Search。

Dropouts in Confidence: Moral Uncertainty in Human-LLM Alignment

系统研究 32 个开源 LLM 在道德困境(电车问题)中的决策不确定性,发现不确定性主要受模型架构而非道德维度驱动;在推理时引入 attention dropout 增加随机性后,模型的互信息显著上升,human-LLM 道德对齐度也随之改善——表明降低 LLM 在道德场景中的过度自信可以改善与人类偏好的一致性。

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

构建 ESG-Bench——270 个人工标注 QA 对来自 94 份真实 ESG 报告(2020-2024),提出三阶段幻觉缓解:SFT(有基础答案+「不提供」弃权标签)→ CoT Prompting(2/4步提示模板)→ CoT 微调(人工推理链),其中 4 步 CoT 微调的 Llama-3 达到 92.52% 有答案准确率 + 99.37% 无答案准确率(平衡 96%),且迁移到 HaluEval/BioASQ 也有提升。

Evaluating, Synthesizing, and Enhancing for Customer Support Conversation

基于COPC行业标准定义客服对话的5个阶段和12种策略,通过5个LLM Agent角色扮演生成11232条策略丰富的合成对话(RoleCS),并构建1855条真实对话改写的评估集(CSConv),微调后显著提升策略对齐的回复质量和问题解决率。

Exposing the Cracks: Vulnerabilities of Retrieval-Augmented LLM-Based Machine Translation

开发受控噪声注入框架系统评估检索增强翻译(REAL-MT),引入Fidelity和CAR两个新指标,在10语言对×4种噪声类型上揭示模型即使面对矛盾上下文仍盲目采纳(CAR保持65-78%),大推理模型(LRM)反而更脆弱(会"合理化"错误上下文),且噪声鲁棒性与干净上下文利用率存在根本性trade-off。

ExtendAttack: Attacking Servers of LRMs via Extending Reasoning

提出 ExtendAttack,一种针对大推理模型(LRM)的资源耗尽攻击:通过将 prompt 中的字符随机转换为多进制 ASCII 编码,迫使模型在回答问题前先执行大量逐字符解码推理,使 o3 的响应长度增加 2.7 倍以上、延迟翻倍,同时保持答案准确率基本不变。

Graph of Verification: Structured Verification of LLM Reasoning with Directed Acyclic Graphs

提出 Graph of Verification (GoV),一种将 LLM 推理过程建模为有向无环图 (DAG) 的结构化验证框架,通过灵活的节点块(Node Block)架构实现多粒度验证——从形式化任务的原子步骤到自然语言叙述的段落级验证——在结构化和松散结构化推理基准上均显著优于整体验证和其他分解验证方法。

Improving Value-based Process Verifier via Low-Cost Variance Reduction

针对基于值的过程验证器(PRM)训练中蒙特卡罗(MC)估计因采样数有限导致的高方差问题,提出Compound Monte Carlo Sampling (ComMCS)方法,通过线性组合当前步和后续步的MC估计量来无偏地降低方差,无需额外LLM推理开销,在MATH-500上Best-of-32实验中提升2.2个点。

Incorporating Self-Rewriting into Large Language Model Reasoning Reinforcement

提出Self-Rewriting框架,让LRM在RL训练中对"简单"样本(全部回答正确的query)重写自身推理文本并从中学习,仅增加约10%训练开销即可在保持准确率的同时将推理长度减少46%,内部推理质量(LLM-as-Judge)提升7.2分,有效缓解过度思考、冗余思考等问题。

Intention Chain-of-Thought Prompting with Dynamic Routing for Code Generation

提出 RoutingGen——基于认知经济原则的难度感知代码生成框架:用 Qwen3-8B 分类器动态路由任务到简单路径(few-shot 直接生成)或复杂路径(Intention CoT = 规格约束 + 算法意图 + 复杂度分析),在 McEval 上提升 +45.15% 同时平均减少 46.37% token 消耗。

Jupiter: Enhancing LLM Data Analysis Capabilities via Notebook and Inference-Time Value-Guided Search

构建NbQA数据集(从真实Jupyter Notebook提取3.8万task-solution对)+ 提出Jupiter框架(将数据分析建模为状态级搜索问题,用值模型引导PUCT搜索),使Qwen2.5-14B在InfiAgent-DABench上达86.38%超越GPT-4o(85.99%),Qwen2.5-7B在DSBench上从63.51%提升至89.19%。

L2V-CoT: Cross-Modal Transfer of Chain-of-Thought Reasoning via Latent Intervention

通过 LAT 分析发现 LLM 和 VLM 的低频 CoT 方向表示具有相似分布,提出 L2V-CoT:从 LLM 提取 CoT 方向表示 → 低通滤波 → 频域重采样匹配维度 → 注入 VLM 隐藏层,training-free 地将 LLM 的推理能力迁移到 VLM,平均提升 3.7%,最高 8.6%。

N2N-GQA: Noise-to-Narrative for Graph-Based Table-Text Question Answering Using LLMs

提出 N2N-GQA——首个用于开放域混合表格-文本问答的零样本框架,核心思路是将检索到的嘈杂文档构建为动态证据图(文档为节点、TF-IDF共享词为边),通过图中心性剪枝识别"桥接文档"连接多跳推理链,在 OTT-QA 上比 Vanilla RAG 提升 +39.6 EM(从 8.0 到 48.8),零样本即接近微调系统 CORE (49.0 EM)。

PRIME: Planning and Retrieval-Integrated Memory for Enhanced Reasoning

受双系统认知理论启发,提出PRIME多Agent推理框架——Quick Thinking Agent(System 1)快速生成直觉答案,Reflection Agent评估可信度,不确定时触发System 2的6个专门化Agent(规划/搜索/阅读/假设/整合/决策)进行深度知识检索推理,使开源LLaMA 3在医学/多跳QA上接近GPT-4o性能。

ReCode: Updating Code API Knowledge with Reinforcement Learning

提出 ReCode 框架,通过基于规则的强化学习(而非 SFT)训练 LLM 在 prompt 中正确利用 API 更新文档完成代码版本迁移,使 7B 模型在 CodeUpdateArena 上超越 32B 模型。

Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension

提出 Relation-R1,首个统一二元和 N 元关系理解的框架,通过渐进式认知 CoT 引导的 SFT + GRPO 多奖励优化,仅 3B 参数即超越 13B 模型,在 PSG 上 Mean 达 21.20%(+6.87%),SWiG 全指标 SOTA(Grnd-all 30.18%,+14.48%)。

RPM-MCTS: Knowledge-Retrieval as Process Reward Model with Monte Carlo Tree Search for Code Generation

提出 RPM-MCTS——用知识库检索替代训练的过程奖励模型(PRM)来指导代码生成的 MCTS 搜索。利用同类算法实现的同质性,从知识库中检索正确算法步骤作为评估信号,配合相似度过滤去除冗余扩展节点和沙箱执行定位错误,实现 ~15% token 减少同时超越 SOTA。

SAPO: Self-Adaptive Process Optimization Makes Small Reasoners Stronger

受神经科学中Error-Related Negativity启发,提出自适应过程优化方法SAPO,通过首错检测+局部后验估计替代低效的逐步蒙特卡洛rollout,在降低2-3倍计算成本的同时实现推理器-验证器协同优化,使小语言模型(≤2B)在数学和代码推理任务上超越多数自演化方法。

SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling

基于认知科学的双过程理论,提出SCALE框架将数学问题分解为子问题后按难度分配不同计算资源(System 1快速计算 vs System 2深度推理),在AIME25上将Qwen3-32B从57.50%提升至71.25%,同时比InftyThink节省33-53%的token。

SERL: Self-Examining Reinforcement Learning on Open-Domain

提出SERL自我改进框架,LLM同时作为Actor(生成者)和Judge(评估者),用Copeland成对比较方法从自身判断中推导奖励信号,无需外部奖励模型或人工标注,使Qwen3-8B在AlpacaEval 2.0上从52.37%提升到59.90%(+7.53%),接近Qwen3-32B水平。

SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision

提出 SPARE 框架,通过单次结构化生成同时完成解题步骤与参考解的对齐和准确性判断(含显式推理),无需额外训练数据,比 MCTS 方法快 2.3 倍且仅需 16% 训练样本即可实现 OOD 泛化。

Stable Voting and the Splitting of Cycles

研究Simple Stable Voting (SSV)——已在数百次实际选举中使用的递归投票规则——是否总是精化(refine)Split Cycle (SC)方法的猜想,通过数学证明(≤5候选人)和SAT求解(6-7候选人)确定:猜想在≤6候选人时成立,≥7候选人时被反驳,并通过构造性证明推广到任意多候选人。

Text-To-Scene With Large Reasoning Models

提出Reason-3D,利用大推理模型(LRM)的多步空间推理能力,通过语义投票式物体检索+双阶段布局(自回归放置+碰撞感知优化)实现从文本到3D场景的零样本生成,在人工评价中Elo评分达2248(远超Holodeck的1500和LayoutVLM的1650)。

The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models

通过 Patchscopes、注意力屏蔽和线性探针等机制可解释性工具,系统揭示了 LLM 类比推理的内部机制:模型能在中上层有效编码关系信息,但应用关系信息到新实体是比提取更大的瓶颈;成功的类比推理与故事间强结构对齐相关联,失败则反映弱化或错位的对齐。

ToC: Tree-of-Claims Search with Multi-Agent Language Models

提出 Tree-of-Claims (ToC) 框架,将专利权利要求编辑建模为结构化搜索问题,通过 MCTS 与 EditorAgent/ExaminerAgent 多智能体协作,在新颖性、范围保持和语义一致性之间联合优化,比零/少样本 LLM 基线平均提升约 8% 综合分。

Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities

系统评估了LRM(如DeepSeek-R1、QwQ、OpenThinker等)在获取深度推理能力后对基础能力(helpfulness和harmlessness)的负面影响,发现deliberative reasoning显著降低指令遵循和安全性能力,并提出Zero-Thinking、Less-Thinking、Summary-Thinking等自适应推理模式可有效缓解这些缺陷。


🧩 多模态 VLM

Aligning the True Semantics: Constrained Decoupling and Distribution Sampling for Cross-Modal Alignment

提出 CDDS 算法,通过双路径 UNet 将嵌入解耦为语义和模态分量,并利用分布采样方法间接实现跨模态语义对齐,避免直接调整嵌入导致的分布扭曲,在 Flickr30K 和 MS-COCO 上超越 SOTA 6.6%~14.2%。

anyECG-chat: A Generalist ECG-MLLM for Flexible ECG Input and Multi-Task Understanding

构建anyECG数据集(含报告生成、波形定位、多ECG比较三大任务)并提出anyECG-chat模型,通过动态ECG输入机制支持变长/少导联/多ECG输入,采用三阶段课程学习训练,在报告生成的OOD泛化、秒级异常波形定位和多ECG对比分析上全面超越现有ECG-MLLM。

"Are We Done Yet?": A Vision-Based Judge for Autonomous Task Completion of Computer Use Agents

提出基于 VLM 的自主任务完成评估框架,通过截图+任务描述判断 CUA 是否完成任务,并将评估反馈回传给 Agent 实现自我纠正,在 macOS 环境上达到 73% 评估准确率和 27% 的任务成功率相对提升。

AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

提出AStar,一种training-free的多模态推理范式,通过从500个种子样本中构建高层"thought cards"推理模板库,在推理时自适应检索最优模板引导MLLM结构化推理,7B模型在MathVerse上达53.9%准确率(超越GPT-4o的50.2%),仅需50分钟预处理时间且无需训练。

BiPrompt: Bilateral Prompt Optimization for Visual and Textual Debiasing in Vision-Language Models

提出 BiPrompt,一种双边 prompt 优化框架,在测试时同时缓解 CLIP 等 VLM 中视觉侧(结构化注意力擦除)和文本侧(平衡 prompt 归一化)的虚假偏差,无需重训练即可提升 OOD 鲁棒性。

BOFA: Bridge-Layer Orthogonal Low-Rank Fusion for CLIP-Based Class-Incremental Learning

提出BOFA框架,仅微调CLIP已有的跨模态投影层(bridge-layer),通过正交低秩融合(Orthogonal Low-Rank Fusion)将参数更新约束在与旧任务特征正交的低秩"安全子空间"中,配合跨模态混合原型分类器,在不增加任何额外参数和推理开销的前提下实现了SOTA的无样本存储类增量学习。

Branch, or Layer? Zeroth-Order Optimization for Continual Learning of Vision-Language Models

本文系统探索了零阶(ZO)优化在基于PEFT的视觉-语言持续学习(VLCL)中的应用,发现全ZO替换会导致训练不稳定,提出从分支级(branch-wise)到层级(layer-wise)的渐进式ZO-FO混合策略,并基于视觉模态方差更大的理论发现提出MoZO策略(梯度符号归一化+视觉扰动约束),在四个benchmark上达到SOTA。

Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation (BriMPR)

提出 BriMPR 框架,通过"分而治之"策略将多模态测试时自适应(MMTTA)分解为多个单模态特征对齐子问题,先用 prompt tuning 校准各模态全局特征分布实现初始跨模态语义对齐,再通过跨模态掩码嵌入重组和实例级对比学习精细化对齐。

Bridging the Copyright Gap: Do Large Vision-Language Models Recognize and Respect Copyrighted Content?

首次系统评估 LVLM 在多模态上下文中对版权内容的识别和遵守能力,构建了 50,000 对多模态查询-内容的大规模 benchmark,发现 11/12 个 SOTA LVLM 即使面对明确版权声明也无法有效拒绝侵权请求,并提出 CopyGuard 工具增强框架将侵权拒绝率从 ~3% 提升至 ~62%。

Concept-RuleNet: Grounded Multi-Agent Neurosymbolic Reasoning in Vision Language Models

提出Concept-RuleNet——一个三智能体协作的神经符号推理框架,通过从训练图像中提取视觉概念来条件化符号生成和规则构建,解决了现有方法(如Symbol-LLM)仅依赖标签导致的符号幻觉和不代表性问题,在5个OOD基准上平均提升~5%准确率,幻觉符号减少达50%。

Concepts from Representations: Post-hoc Concept Bottleneck Models via Sparse Decomposition of Visual Representations

提出 PCBM-ReD,通过从预训练视觉编码器中自动提取概念、MLLM 标注/过滤、重建引导选择,再利用 CLIP 视觉-文本对齐将图像表示稀疏分解为概念嵌入的线性组合,构建事后概念瓶颈模型,在 11 个分类任务上达到 SOTA 精度且保持可解释性。

Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models

提出 CoEvo,一个 training-free 和 annotation-free 的 test-time 框架,通过双向 sample-conditioned 的文本/视觉 proxy 协同演化机制动态更新正负代理缓存,在 ImageNet-1K 上比最强负标签基线 AUROC 提升 1.33%、FPR95 降低 45.98%(从 18.92% 降至 10.22%),实现 SOTA 的 zero-shot OOD 检测。

Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models

提出 MIP-Editor,通过跨层梯度积分(文本)和 Fisher 积分(视觉)定位多模态大语言模型中编码待遗忘知识的影响力神经元路径,再用基于路径的表示误导(RMisU)编辑这些神经元,在 MLLMU-Bench 上实现最高 87.75% 的遗忘率和 54.26% 的通用知识保留提升。

CrossCheck-Bench: Diagnosing Compositional Failures in Multimodal Conflict Resolution

构建CrossCheck-Bench——首个专注于多模态矛盾检测与解决的诊断基准,包含15K QA对、3层推理复杂度和7种原子能力,发现13个SOTA VLM从感知匹配到逻辑矛盾检测性能一致下降,CoT/SoM等提示策略收效甚微,仅交错符号推理+视觉grounding的方法才有稳定提升。

CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models

提出首个系统评估多模态大语言模型(MLLM)跨视频推理(Cross-Video Reasoning, CVR)能力的综合基准CrossVid,涵盖4个维度10个任务、5,331个视频和9,015个QA对,实验揭示当前最佳模型Gemini-2.5-Pro仅达50.4%准确率,远低于人类89.2%。

Difference Vector Equalization for Robust Fine-tuning of Vision-Language Models

提出DiVE方法,通过约束预训练和微调模型嵌入之间的"差异向量"在各样本间保持相等,从而在CLIP微调过程中保持嵌入空间的几何结构,同时在ID、OOD、零样本三个指标上取得全面优于现有方法的结果(零样本平均提升8+点)。

EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens

提出EM-KD框架,通过Hungarian算法解决teacher-student间视觉token数量不平衡问题,结合视觉语义蒸馏(VSD)和视觉-语言亲和力蒸馏(VLAD)将vanilla teacher的知识迁移到高效student MLLM,在11个benchmark上以144 token/patch达到50.4均分,超越576 token的LLaVA-NeXT(49.4)同时推理速度提升近2倍。

Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding

提出 Exo2Ego 框架,通过学习外中心(第三人称)与自中心(第一人称)域之间的映射关系,将 MLLM 中丰富的外中心知识迁移到自中心视频理解,结合新构建的 110万同步 ego-exo clip-text 对数据集 Ego-ExoClip 和 60万指令微调数据集 EgoIT,在 8 个自中心视频基准上取得了领先的开源模型性能。

Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration

提出FiCoCo三阶段框架(Filter-Correlate-Compress),通过集成视觉感知+语义感知冗余度量筛选丢弃token,利用token间相关性自适应回收信息,实现training-free的MLLM加速。在LLaVA-NeXT上达14.7×FLOPs压缩同时保留93.6%性能,在5种MLLM架构上全面超越FastV、SparseVLM等SOTA。

Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models

提出GlobalCom²,一个即插即用、无需训练的token压缩框架,专为动态裁剪(dynamic cropping)结构的高分辨率VLM设计:利用全局缩略图(thumbnail)作为"指挥官"引导局部裁剪区域(crop)的差异化压缩,在压缩90%视觉token的同时保持>90%原始性能。

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

提出 Graph-of-Mark (GoM),一种无需训练的像素级视觉提示方法,通过在输入图像上直接叠加深度感知的场景图(包含节点和有向边),显式编码物体间的空间关系,使多模态语言模型在 VQA 和定位任务中的零样本空间推理准确率最高提升 11 个百分点。

HeadHunt-VAD: Hunting Robust Anomaly-Sensitive Heads in MLLM for Tuning-Free Video Anomaly Detection

提出HeadHunt-VAD,不用MLLM的文本输出,而是直接从冻结MLLM中"猎取"一小批对异常敏感且跨prompt鲁棒的注意力头,配合轻量逻辑回归scorer,在仅用1%数据、零微调的条件下,在UCF-Crime(87.03% AUC)和XD-Violence(82.63% AP)上达到tuning-free方法SOTA。

HiMo-CLIP: Modeling Semantic Hierarchy and Monotonicity in Vision-Language Alignment

提出 HiMo-CLIP,通过对文本嵌入做 batch 内 PCA 分解(HiDe)提取多粒度语义成分,配合双分支单调性感知对比损失(MoLo),在不修改编码器的前提下让 CLIP 学会"文本越完整、对齐分数越高"的语义单调性,在长文本检索上显著超越现有方法。

InEx: Hallucination Mitigation via Introspection and Cross-Modal Multi-Agent Collaboration

提出 InEx 框架,通过内部自省推理(TVER 驱动的不确定性感知视觉增强)和外部跨模态多智能体协作(文本自反思 + 图像编辑验证 + 视觉自反思)迭代验证和修正 MLLM 输出,在 POPE 上提升 8.9%,在多个幻觉和通用 benchmark 上持续超越 OPERA/VCD/ICD。

Information Theoretic Optimal Surveillance For Epidemic Prevalence In Networks

本文首次提出以互信息作为优化准则的流行病监测框架 TestPrev,旨在选择网络中的最优节点子集以最大化与疾病流行度分布的互信息,从而提供传统方法无法给出的暴发规模分布级别洞察,并证明了其 NP-hard 性质,设计了贪心算法 GreedyMI 在合成与真实网络上优于基线方法。

LLM-CAS: Dynamic Neuron Perturbation for Real-Time Hallucination Correction

LLM-CAS 首次将 LLM 实时幻觉纠正建模为层次强化学习(HRL)问题,训练 RL Agent 在推理时动态选择最优的神经元扰动策略(高层选择功能网络类别,低层选择扰动类型和幅度),结合自适应掩码+因果追踪精确定位目标神经元,在 StoryCloze 上提升 10.98%,超越 ITI/CAA/SADI 等静态/动态基线。

Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

提出 Multimodal DeepResearcher,一个四阶段 Agent 框架从零生成图文交替研究报告:通过形式化可视化描述(FDV)让 LLM 学习和生成多样化图表,结合 Actor-Critic 迭代精炼机制(LLM生成D3.js代码→浏览器渲染→多模态LLM评审),在自建 MultimodalReportBench 上达到 82% 整体胜率(Claude 3.7),人类评估 100% 胜率。

RMAdapter: Reconstruction-based Multi-Modal Adapter for Vision-Language Models (Oral)

提出 RMAdapter,一种双分支适配器架构:在标准 adapter 的适应分支旁增加重建分支(类 AutoEncoder),通过共享下投影层和逐层本地重建损失,在 CLIP 少样本微调中实现任务特定适应与通用知识保持的最佳平衡,在 Base-to-Novel 泛化、跨数据集和领域泛化三个任务上全面超越 SOTA(含 Prompt-based 方法)。

SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge

提出SafeR-CLIP框架,通过近邻感知重定向(将不安全嵌入重定向到语义最近的安全目标而非固定配对)和相对跨模态重定向损失(仅以不安全表示作为负样本而非随机批内负样本),在保持安全性的同时将零样本分类精度比Safe-CLIP恢复8.0%。

TOFA: Training-Free One-Shot Federated Adaptation for Vision-Language Models

提出TOFA框架,在联邦学习场景下通过层次贝叶斯模型学习个性化视觉prototype分布 + 全局对齐的LLM文本增强 + 自适应模态融合,实现无需训练、仅一轮通信的CLIP高效适配,在9个数据集上超越one-shot基线甚至部分多轮训练方法。

URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding

URaG 发现 MLLM 处理长文档时存在类人的"粗到细"推理模式(浅层注意力均匀分散、深层集中于证据页),基于此洞察在第 6 层插入轻量跨模态检索模块(仅占参数 0.05%),选取 Top-5 相关页面丢弃其余内容,实现 SOTA 性能的同时减少 44-56% 计算量。

VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use

VipAct 提出了一个多Agent协作框架,通过编排器Agent(任务分析+规划+协调)、专用Agent(描述/比较/视觉提示解读)和视觉专家模型(深度估计/目标检测/分割等)三层协作,显著提升 VLM 在细粒度视觉感知任务上的表现,在 Blink 上从 63.74% (zero-shot GPT-4o) 提升到 73.79%。

VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models

VP-Bench 提出了首个系统评估 MLLM 视觉提示(Visual Prompt)理解能力的两阶段 Benchmark:Stage 1 用 30K+ 图像覆盖 8 种 VP 形状×355 种属性组合评测 VP 感知能力,Stage 2 评测 VP 对 6 个下游任务的实际效果。在 28 个 MLLM 上的评测揭示了 VP 形状选择对性能的关键影响。


🚗 自动驾驶

A Data-Driven Model Predictive Control Framework for Multi-Aircraft TMA Routing Under Travel Time Uncertainty

提出面向终端管制区(TMA)多机冲突解脱和着陆调度的闭环 MPC 框架——集成 XGBoost 到达时间预测、MILP 优化模型(路径选择+速度调整+等待约束)和交通仿真器,在樟宜机场 50 海里 STAR 网络上实现实时无冲突调度,高峰期计算时间比一次性优化降低 7 倍,Monte Carlo 仿真验证鲁棒性。

AI-based Traffic Modeling for Network Security and Privacy: Challenges Ahead

一篇面向网络安全与隐私(NetS&P)任务的 AI 流量建模综述与展望,系统梳理了异常检测、攻击分类、IoT 设备识别、网站指纹攻击等任务的 AI 方案,并深入讨论了数据质量、实际部署、可解释性和基础模型四大前沿挑战。

Backdoor Attacks on Open Vocabulary Object Detectors via Multi-Modal Prompt Tuning

首次研究开放词汇目标检测器(OVOD)的后门攻击,提出 TrAP(Trigger-Aware Prompt tuning),通过联合优化视觉和文本分支的 learnable prompt 与可学习触发器,在不修改模型权重的前提下注入高成功率后门。

Beta Distribution Learning for Reliable Roadway Crash Risk Assessment

提出基于 Beta 分布学习的地理空间深度学习框架,利用多尺度卫星图像预测道路致命事故风险的完整概率分布(而非点估计),在 Recall 上提升 17-23%,并通过分布形状自然表达不确定性。

Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation

首次系统性解决无配对日→夜图像翻译中的"目标类幻觉"问题,通过双头判别器(风格头+SAM2伪标签分割头)检测幻觉 + 类原型对比学习抑制幻觉,在BDD100K日夜域适应检测上将mAP从15.08提升到17.40(+15.5%),交通灯AP提升31.7%。

CaTFormer: Causal Temporal Transformer with Dynamic Contextual Fusion for Driving Intention Prediction

提出 CaTFormer,通过因果时序 Transformer 显式建模驾驶员行为与环境上下文之间的因果交互,在 Brain4Cars 数据集上以 98.6% F1 达到 SOTA。

Cheating Stereo Matching in Full-Scale: Physical Adversarial Attack against Binocular Depth Estimation

提出首个针对立体匹配模型的3D全表面纹理物理对抗攻击,通过立体对齐渲染模块和区域感知的融合攻击(merging attack),使对抗车辆在深度图中与背景无缝融合,导致自动驾驶感知系统严重失效。

CompTrack: 信息瓶颈引导的低秩动态Token压缩用于点云跟踪 (Oral)

针对LiDAR点云3D单目标跟踪中的"双重冗余"问题(空间冗余:大量背景噪声;信息冗余:前景中大量不具区分性的平面点),提出SFP前景预测器+IB-DTC信息瓶颈引导动态Token压缩两个模块,在KITTI/nuScenes/Waymo上达到SOTA,90 FPS实时运行(比P2P快1.4倍)。

Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification

系统识别出行人ReID对抗防御的两大独特挑战(模型偏差和复合泛化需求),提出去偏双不变防御框架:数据平衡阶段用扩散模型重采样缓解偏差,双对抗自元防御阶段通过最远负样本扩展软化的度量对抗训练和对抗增强的自元学习实现对未见ID和未见攻击的双重泛化。

AdaptiveAD: Decoupling Scene Perception and Ego Status for End-to-End Autonomous Driving

识别出端到端自动驾驶中ego status过度依赖的架构根源(BEV编码器中ego status的过早融合),提出AdaptiveAD双分支架构:场景驱动分支(去除ego status)和自我驱动分支独立生成决策,再通过场景感知融合模块自适应整合,配合路径注意力、BEV单向蒸馏和自回归在线建图辅助任务,在nuScenes上达到SOTA规划性能。

SAML: 可微语义元学习框架用于长尾运动预测

提出SAML框架,首次给出运动预测中"长尾性"(tailness)的可微语义定义——通过内在属性(运动学动态性、几何复杂度、时间不规则性)和交互属性(局部/全局风险)量化稀有度,经贝叶斯尾部感知器融合为连续Tail Index驱动MAML元学习适配,在nuScenes/NGSIM/HighD上取得SOTA,尤其在worst-case top 1-5%子集上大幅领先。

Difficulty-Aware Label-Guided Denoising for Monocular 3D Object Detection

提出 MonoDLGD,通过根据实例级检测难度自适应扰动并重建 ground-truth 标签,为单目 3D 检测提供显式几何监督,在 KITTI 上取得 SOTA。

DiffRefiner: Coarse to Fine Trajectory Planning via Diffusion Refinement with Semantic Interaction for End to End Autonomous Driving

提出 DiffRefiner,通过"粗到精"两阶段框架——先用判别式 Proposal Decoder 生成粗轨迹,再用扩散模型迭代精炼——结合细粒度语义交互模块,在 NAVSIM v2 和 Bench2Drive 两个基准上均达到 SOTA。

Drive As You Like Strategy-Level Motion Planning Based On A Multi-Head Diffusion

提出 M-Diffusion Planner,基于多头扩散模型和 GRPO 后训练,实现策略级(strategy-level)运动规划,允许用户通过自然语言切换激进/保守/舒适等驾驶风格,同时保持 SOTA 规划性能。

DriveFlow: Rectified Flow Adaptation for Robust 3D Object Detection in Autonomous Driving

提出 DriveFlow,一种基于预训练 T2I Flow 模型的 rectified flow 适配方法,通过频率分解对前景高频保持和背景双频优化,实现无需训练的驾驶场景图像编辑数据增强,大幅提升视觉 3D 检测器在 OOD 场景下的鲁棒性。

DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning

提出 DriveSuprim,通过粗到精的轨迹筛选范式、旋转数据增强和自蒸馏软标签框架,解决选择式端到端规划中难以区分相似轨迹、方向偏差和硬标签不稳定的问题,在 NAVSIM v1/v2 和 Bench2Drive 上达到 SOTA。

Dual-branch Spatial-Temporal Self-supervised Representation for Enhanced Road Network Learning

提出 DST(Dual-branch Spatial-Temporal)路网表示学习框架,通过空间分支(mix-hop 转移矩阵 + 图-超图对比学习)和时间分支(Transformer 编码器 + 下一 token 预测 + 工作日/周末分类)两条支路联合建模路网的空间异质性和时间动态性,在三个城市的三项下游任务上取得 SOTA。

ExpertAD: Enhancing Autonomous Driving Systems with Mixture of Experts

提出 ExpertAD,将混合专家(MoE)架构引入端到端自动驾驶系统的感知和预测模块——Perception Adapter 动态重加权 BEV 特征以放大任务关键语义,Mixture of Sparse Experts 通过路由器动态激活相关驾驶任务专家并用稀疏注意力降低计算量,在保持或提升规划效果的同时降低约 25% 推理延迟。

FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning

提出 FastDriveVLA,通过 MAE 风格的前景像素重建训练轻量级 plug-and-play 的 ReconPruner 模块(仅 0.07B),利用对抗前景-背景重建策略优先保留驾驶决策所需的前景 token,在 nuScenes 开环规划基准上各剪枝率均达 SOTA,一次训练可迁移至同一视觉编码器的不同 VLA 模型。

FQ-PETR: Fully Quantized Position Embedding Transformation for Multi-View 3D Object Detection

首次实现PETR系列3D检测器的全INT8量化部署,通过量化友好的LiDAR-ray位置编码(QFPE)解决多模态特征幅度不匹配问题、双查找表(DULUT)高效逼近非线性算子、数值稳定后量化(QANS)避免softmax注意力失真,在PETR/StreamPETR/PETRv2/MV2D上W8A8精度损失<1%且延迟降低75%(3.9×加速)。

Generalising Traffic Forecasting To Regions Without Traffic Observations

本文提出 GenCast 模型,通过物理信息神经网络(引入 LWR 交通方程作为软约束)、动态外部天气信号融合和空间分组模块三大创新,实现了从有传感器区域到无传感器连续区域的交通预测泛化,在五个真实数据集上一致性地超越了现有最优方法。

LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences

提出LiDARCrafter,首个专用于LiDAR的4D生成世界模型,通过Text2Layout(LLM解析文本→场景图→三分支扩散生成4D布局)→Layout2Scene(Range-image扩散生成高保真单帧)→Scene2Seq(自回归warp+扩散生成时序一致的序列)三阶段流程,在nuScenes上取得SOTA。

MambaSeg: Harnessing Mamba for Accurate and Efficient Image-Event Semantic Segmentation

提出 MambaSeg,用双分支并行 Mamba 编码器分别处理 RGB 图像和事件流,通过空间-时间双维度交互模块 (DDIM) 实现细粒度跨模态融合,在 DDD17 和 DSEC 数据集上以 25.44M 参数取得 77.56%/75.10% mIoU 的 SOTA,效率远优于 Transformer 方案。

SPARC: 用单一策略驾驶100辆未见车辆的OOD泛化

提出 SPARC(Single-Phase Adaptation for Robust Control),将 RMA 的两阶段上下文编码与历史适应统一为单阶段训练,在 Gran Turismo 7 高保真赛车模拟器中用单一策略驾驶100+未见车辆实现SOTA OOD泛化性能。

PriorDrive: 用统一向量先验增强在线HD地图构建

提出 PriorDrive 框架,通过 Unified Vector Encoder (UVE) 和 Hybrid Prior Representation (HPQuery) 将多种向量化先验地图(SD地图、旧HD地图、历史预测地图)统一编码并集成到各种在线建图模型中,在 nuScenes 上 mAP 提升 14.3,兼容 query-based 和 non-query-based 两类建图架构。

ReflexDiffusion: 反思增强的高侧向加速度自动驾驶轨迹规划

提出 ReflexDiffusion,在扩散模型推理阶段引入物理感知的反思机制,通过梯度注入强化曲率-速度-加速度耦合约束(a_y = κv²),在 nuPlan 高侧向加速度长尾场景中驾驶分数提升 14.1%,架构无关可直接部署到现有扩散规划器。

Task Prototype-Based Knowledge Retrieval for Multi-Task Learning from Partially Annotated Data

提出基于任务原型的知识检索框架,通过可学习 Task Prototype 嵌入任务特性并量化任务关联、Knowledge Retrieval Transformer 基于 task-affinity score 自适应精炼特征表示,在部分标注多任务学习(MTPSL)中避免依赖未标注任务的预测,PASCAL-Context 和 NYUD-v2 上全面超越 SOTA。

VILTA: A VLM-in-the-Loop Adversary for Enhancing Driving Policy Robustness

VILTA 将 VLM(Gemini-2.5-Flash)直接嵌入自动驾驶 RL 训练循环中,通过"Vision-Language-Editing"(VLE)范式让 VLM 编辑周围车辆的未来轨迹来生成具有挑战性的危险场景,训练出的驾驶策略在 CARLA 挑战场景中路线完成率提升 13.3%、碰撞率降低 28.5%。

Vision-Only Gaussian Splatting for Collaborative Semantic Occupancy Prediction (Oral)

首次将 3D 高斯 Splatting 作为多智能体协同感知的通信媒介和中间表征,利用高斯基元的刚体变换可解析性和稀疏性,通过高斯打包(ROI 裁剪+刚体变换)和跨智能体邻域融合模块,实现了高效且可解释的视觉协同语义占用预测。


🎨 图像生成

AbductiveMLLM: Boosting Visual Abductive Reasoning Within MLLMs

模仿人类的"语言溯因+图像想象"双模式认知,提出AbductiveMLLM,通过Reasoner(因果感知假设生成+筛选)和Imaginer(扩散模型引导的图像想象)两个组件端到端联合训练,在VAR和YouCookII两个benchmark上显著超越传统方法和通用MLLM,设置新的SOTA。

AEDR: Training-Free AI-Generated Image Attribution via Autoencoder Double-Reconstruction

提出一种基于自编码器双重重建损失比值的免训练图像归因方法,通过图像均匀度校准消除纹理复杂度偏差,在8个主流扩散模型上平均准确率达95.1%,比最强基线高24.7%,且速度快约100倍。

Aggregating Diverse Cue Experts for AI-Generated Image Detection

提出Multi-Cue Aggregation Network (MCAN),通过混合编码器适配器(MoEA)将原始图像、高频信息和新提出的色度不一致性(CI)三种互补线索统一融合,实现跨生成模型的鲁棒AI生成图像检测。

Annealed Relaxation of Speculative Decoding for Faster Autoregressive Image Generation

提出Cool-SD,一种有理论支撑的退火松弛speculative decoding框架:通过推导TV距离上界得到最优重采样分布,并证明接受概率递减调度比均匀调度产生更小的分布偏移,在LlamaGen和Lumina-mGPT上实现了比LANTERN++更优的速度-质量权衡。

AnoStyler: Text-Driven Localized Anomaly Generation via Lightweight Style Transfer

将零样本异常生成建模为文本引导的局部风格迁移问题,通过轻量级U-Net + CLIP损失将正常图像的掩码区域风格化为语义对齐的异常图像,在MVTec-AD和VisA上以263M参数(仅0.61M可训练)超越扩散模型基线,同时显著提升下游异常检测性能。

Backdoors in Conditional Diffusion: Threats to Responsible Synthetic Data Pipelines

揭示了 ControlNet 条件分支的后门攻击漏洞:仅需 1–5% 的投毒数据即可在不修改扩散主干的前提下植入后门,触发时无视文本 prompt 生成攻击者指定内容,并提出 clean fine-tuning (CFT) 作为实用防御。

Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images

揭示扩散模型在生成图像中嵌入 NSFW 文字的新威胁,提出基于文本生成层定向 LoRA 微调的 NSFW-Intervention 方法,并发布 ToxicBench 基准。

Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra

提出 GLMR 两阶段框架(对比学习预检索 + 生成式语言模型重排),通过生成与输入质谱对齐的分子结构将跨模态检索转化为单模态检索,在 MassSpecGym 上 Recall@1 提升超 40%。

CAD-VAE: Leveraging Correlation-Aware Latents for Comprehensive Fair Disentanglement

提出CAD-VAE,引入"相关隐变量" \(z_R\) 显式建模目标属性和敏感属性之间的共享信息,通过最小化条件互信息 \(I(z_Y;z_S|z_R)\) 实现公平解缠绕,无需领域知识即可产生公平表示和高质量反事实样本。

CausalCLIP: Causally-Informed Feature Disentanglement and Filtering for Generalizable Detection of Generated Images

提出 CausalCLIP,通过 Gumbel-Softmax 掩码 + HSIC 约束将 CLIP 特征解耦为因果/非因果子空间,结合对抗掩码和反事实干预保留稳定取证线索,跨生成器泛化准确率提升 6.83%。

Conditional Diffusion Model for Multi-Agent Dynamic Task Decomposition

提出 CD3T,一个两层层次化 MARL 框架:用条件扩散模型学习动作语义表示(以观测和他人动作为条件,预测下一观测和奖励),通过 k-means 聚类得到子任务划分,高层选择子任务、低层在受限动作空间执行策略,在 SMAC 的 Super Hard 场景上显著超越所有基线。

Constrained Particle Seeking: Solving Diffusion Inverse Problems with Just Forward Passes

提出 Constrained Particle Seeking (CPS),一种无梯度的扩散模型反问题求解方法,通过利用所有候选粒子信息构建前向过程的局部线性代理模型,并在转移核高密度区域的超球面约束下寻找最优粒子,性能可与梯度方法媲美。

Continuous Degradation Modeling via Latent Flow Matching for Real-World Super-Resolution

提出 DegFlow,通过残差自编码器 + 潜空间 Flow Matching 从离散尺度的真实 HR-LR 对学习连续退化轨迹,仅需单张 HR 图像即可合成任意连续尺度的逼真 LR 图像,用于训练超分模型达到 SOTA。

Copyright Infringement Detection in Text-to-Image Diffusion Models via Differential Privacy

从差分隐私(Differential Privacy)角度形式化版权侵权的定义,提出 D-Plus-Minus(DPM)框架,通过对扩散模型分别进行"学习"和"遗忘"两个方向的微调,测量条件敏感度差异来事后检测文本到图像模型中的版权侵权行为。

CountSteer: Steering Attention for Object Counting in Diffusion Models

提出 CountSteer,一种免训练的推理时方法,通过在扩散模型的 cross-attention 隐状态中注入自适应 steering vector,将物体计数准确率提升约 4%,且不损害图像质量。

Creating Blank Canvas Against AI-Enabled Image Forgery

提出"空白画布"机制,通过对抗扰动使 SAM 对受保护图像"视而不见",当图像被篡改后篡改区域会被 SAM 自动识别,实现无需篡改训练数据的主动式篡改定位。

DICE: Distilling Classifier-Free Guidance into Text Embeddings

提出 DICE,训练一个仅 2M 参数的轻量 sharpener 将 CFG 的引导效果蒸馏进 text embedding,使无引导采样达到与 CFG 同等的生成质量、推理计算量减半,在 SD1.5 多个变体、SDXL 和 PixArt-α 上全面验证有效,是 AAAI 2026 口头报告论文。

Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation

提出 Diff-V2M,一个基于层次条件扩散 Transformer 的视频到音乐生成框架,通过显式节奏建模(低分辨率 ODF)和层次交叉注意力机制整合情感/语义/节奏特征,在域内和域外数据集上均达到 SOTA。

DiffA: Large Language Diffusion Models Can Listen and Understand

提出 DIFFA——首个基于扩散语言模型的大型音频-语言模型,通过冻结 LLaDA-8B 骨干网络 + 轻量双适配器架构 + 两阶段训练管线,仅用 960 小时 ASR 数据和 127 小时合成指令数据就在 MMSU、MMAU、VoiceBench 上达到与自回归 baseline 竞争的性能。

DiffBench Meets DiffAgent: End-to-End LLM-Driven Diffusion Acceleration Code Generation

提出DiffBench(604个扩散模型加速任务的评估基准,分5个难度等级)和DiffAgent(集成规划-编码-调试三Agent + 遗传算法选择器的闭环框架),在Claude Sonnet 4上将扩散加速代码生成通过率从54.30%提升到81.59%,复杂优化任务达成率68.27%。

Difficulty Controlled Diffusion Model for Synthesizing Effective Training Data

在Stable Diffusion中引入难度编码器(MLP,输入类别+难度分数),通过LoRA微调解耦"域对齐"和"难度控制"两个目标,使生成数据的学习难度可控——仅用10%额外合成数据即超过Real-Fake的最佳结果,节省63.4 GPU小时。

Diffusion Reconstruction-Based Data Likelihood Estimation for Core-Set Selection

提出利用扩散模型的部分反向去噪重建偏差作为数据似然的理论近似信号,配合信息瓶颈理论选择最优重建时间步,实现分布感知的核心集选择,在 ImageNet 上仅用 50% 数据即可逼近全量训练性能。

DOS: Directional Object Separation in Text Embeddings for Multi-Object Image Generation

识别出多物体生成失败的四种场景(相似形状/纹理、不同背景偏好、多物体),通过构建方向性分离向量修改CLIP的三类文本嵌入(语义token/EOT/pooled),在SDXL上将成功率提升16-25%并将融合率降低3-12%,推理速度接近baseline(约4×快于Attend-and-Excite)。

HACK: Head-Aware KV Cache Compression for Efficient Visual Autoregressive Modeling

发现VAR模型中attention head天然分为Contextual Heads(语义一致性,垂直注意力模式)和Structural Heads(空间连贯性,多对角线模式),提出HACK框架通过非对称预算分配和模式特定压缩策略,在70%压缩率下实现无损生成质量,Infinity-8B上1.75×显存减少和1.57×加速。

Infinite-Story: A Training-Free Consistent Text-to-Image Generation

基于 scale-wise 自回归模型(Infinity),通过三个 training-free 技术——Identity Prompt Replacement(消除文本编码器的上下文偏差)、Adaptive Style Injection(参考图像特征注入)和 Synchronized Guidance Adaptation(同步 CFG 两个分支),实现了身份与风格一致的多图像生成,速度比扩散模型快 6 倍(1.72 秒/张)。

Laytrol: Preserving Pretrained Knowledge in Layout Control for Multimodal Diffusion Transformers

通过从 MM-DiT 复制参数初始化布局控制网络、设计专用初始化方案(布局编码器初始化为纯文本编码器 + 输出零初始化)、并用 FLUX 自己生成的图像构建 LaySyn 数据集来缓解分布偏移,实现了在 FLUX 上高质量的布局到图像生成。

ORVIT: Near-Optimal Online Distributionally Robust Reinforcement Learning

本文研究在线分布鲁棒强化学习,提出了基于 \(f\)-散度不确定性集的 RVI-\(f\) 算法,在 \(\chi^2\) 和 KL 散度下均实现了近似极小极大最优的遗憾界,且不依赖任何结构性假设。

T2I-RiskyPrompt: A Benchmark for Safety Evaluation, Attack, and Defense on Text-to-Image Model

构建T2I-RiskyPrompt——一个包含6,432条有效风险prompt的综合基准,涵盖6大类14细分风险类别,每条prompt带有层次化标注和详细风险原因,并提出reason-driven的MLLM风险检测方法(3B模型达91.8%准确率),系统评估了8个T2I模型、9种防御方法、5种安全过滤器和5种攻击策略。


⚖️ 对齐 / RLHF

Align to Structure: Aligning Large Language Models with Structural Information

提出 Structural Alignment 方法,通过将语言学篇章结构框架(表层文本结构评分 + 基于RST的篇章motif分类器)融入PPO强化学习训练,并设计基于篇章motif的密集奖励机制,使LLM生成更连贯、更具人类写作风格的长文本,在论文写作和长文档摘要任务上均优于标准RLHF模型。

AlignTree: Efficient Defense Against LLM Jailbreak Attacks

AlignTree 利用 LLM 内部激活特征(线性 refusal direction + 非线性 SVM 信号)训练轻量级随机森林分类器,在几乎不增加计算开销的情况下高效检测越狱攻击,实现了 SOTA 的攻击成功率(ASR)降低效果。

AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment

提出AMaPO算法,通过实例级自适应margin(结合Z-normalization和指数缩放)动态调节梯度幅度,解决DPO等离线偏好优化方法中对已正确排序样本过拟合、对错误排序样本欠拟合的核心矛盾,显著提升排序准确率和下游对齐性能。

BiasJailbreak: Analyzing Ethical Biases and Jailbreak Vulnerabilities in Large Language Models

揭示LLM安全对齐中引入的伦理偏见可被反向利用作为越狱攻击向量——边缘化群体关键词的越狱成功率比优势群体高出20%,并提出基于提示词的轻量防御方法BiasDefense。

DeCoRL: Decoupling Reasoning Chains via Parallel Sub-Step Generation and Cascaded Reinforcement for Interpretable and Scalable RLHF

DeCoRL 将 CoT 推理从单体顺序处理转变为"交响乐团式"的模块化并行协作——9 个专用子模型(解析/语义/实体/事实核查/风格/质量/计算/验证/整合)并行生成推理子步骤,通过双重奖励归因(本地质量+贡献度)+ 级联 DRPO 优化协调,在 RM-Bench 上达到 80.8%(超越所有基线),同时实现 3.8 倍推理加速和 22.7% 的可解释性提升。

Differentiated Directional Intervention: A Framework for Evading LLM Safety Alignment

将 LLM 安全对齐的内部表征从传统的"单一拒绝方向"解构为功能独立的"危害检测方向"和"拒绝执行方向",在此基础上提出 DBDI 框架,分别用自适应投影消除和直接引导两种策略精准干预两个方向,在 Llama-2 上实现 97.88% 的越狱成功率。

EASE: Practical and Efficient Safety Alignment for Small Language Models

提出 EASE——面向边缘部署小语言模型(SLM)的安全对齐框架,通过两阶段设计解决"浅层拒绝不够安全 vs 深度推理太贵"的矛盾:第一阶段从大型推理模型蒸馏安全推理能力到 SLM,第二阶段用选择性推理激活(仅对脆弱语义区域的对抗查询启用推理,良性查询直接响应),越狱攻击成功率降低 17%(vs 浅层对齐)同时推理开销降低 90%(vs 全推理)。

Enhancing Uncertainty Estimation In Llms With Expectation Of Aggregated Internal

提出EAGLE方法,通过聚合LLM多个中间层隐藏状态的logits并计算置信度分布的期望值来估计不确定性,无需训练额外参数,在多个数据集和模型上ECE从12.6%降至3.2%,AUROC从59.0%提升至61.6%。

EPO: Diverse and Realistic Protein Ensemble Generation via Energy Preference Optimization

提出EPO(Energy Preference Optimization),将反向SDE采样与listwise能量排序偏好优化结合,用能量信号对齐预训练蛋白质生成器与目标Boltzmann分布,在Tetrapeptides/ATLAS/Fast-Folding三个基准9个指标上达到SOTA,完全消除了昂贵的分子动力学(MD)模拟需求。

EquaCode: A Multi-Strategy Jailbreak Approach for Large Language Models via Equation Solving and Code Completion

提出EquaCode多策略越狱方法,将恶意查询分解为方程求解(B+C+x=A)和代码补全(补全Solver类的solve()方法)的跨域组合,在GPT系列上平均攻击成功率92.78%,在最新模型(Gemini/DeepSeek/Grok)上接近100%。

Exploring the Effects of Alignment on Numerical Bias in Large Language Models

系统揭示了LLM对齐过程(指令调优+偏好调优)是LLM评估器产生数值偏差的根本原因,并验证分数范围调整是最有效的缓解策略。

From Classification to Ranking: Enhancing LLM Reasoning for MBTI Personality Detection

将MBTI人格检测从传统的四维二分类重构为listwise排序任务,通过SFT冷启动+GRPO强化学习(NDCG+维度相似度双奖励),在Kaggle和PANDORA数据集上以7B模型达到SOTA。

Importance-Aware Data Selection for Efficient LLM Instruction Tuning

提出MIWV(Model Instruction Weakness Value)指标,通过比较LLM在有/无one-shot ICL示例下的损失差来衡量每条指令数据对模型能力提升的重要性,在Alpaca数据集上仅用1%(520条)数据即全面超越全量52002条的微调效果。

Margin-aware Preference Optimization for Aligning Diffusion Models without Reference

提出 MaPO(Margin-aware Preference Optimization),一种无需参考模型的偏好对齐方法,通过直接优化 Bradley-Terry 模型下偏好/非偏好输出的似然 margin 来对齐 T2I 扩散模型,在风格适配、安全生成、通用偏好对齐等 5 个领域均超越 DPO 和专用方法。

MetaGDPO: Alleviating Catastrophic Forgetting with Metacognitive Knowledge through Group Direct Preference Optimization

提出MetaGDPO方法,从数据侧(基于元认知知识的5K数据构建MetaKL)和训练侧(GDPO——将GRPO的在线采样替换为大模型离线response group的DPO变体)两方面缓解小模型(<8B)在推理能力蒸馏中的灾难性遗忘问题。

On the Exponential Convergence for Offline RLHF with Pairwise Comparisons

在离线RLHF的成对比较设定下,提出RL-LOW算法实现了simple regret的指数收敛 \(\exp(-\Omega(n/H))\),并首次导出实例依赖下界证明该速率在指数意义上是最优的。

Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models

提出 MRMBench 基准,通过 6 个维度(无害性、有帮助性、正确性、连贯性、复杂性、冗长性)的探针任务评估奖励模型是否有效捕获多维偏好,发现探针性能与 PPO 对齐质量强相关(Pearson \(r > 0.8\)),并提出推理时探针方法将 AlpacaEval win rate 从 57.3% 提升至 62.5%。

Reducing the Scope of Language Models

系统评估 LLM "范围限制"(scoping)方法——让部署在特定用途的 LLM 只响应域内查询、拒绝所有域外请求。在 3 个模型家族×多种任务上比较 prompting / SFT / DPO / 探针 / Circuit Breakers (CB),发现 SFT 在高数据多样性下最强、CB 在低多样性下最强、分层组合 (SFT→CB) 保留两者优势——关键发现是范围限制的可行性高度依赖训练数据多样性。

Rethinking Direct Preference Optimization in Diffusion Models

提出两个正交改进增强扩散模型偏好优化:(1) 稳定参考模型更新策略放松冻结参考模型并通过正则化鼓励探索;(2) 时间步感知训练策略缓解跨时间步奖励尺度不平衡。二者可嵌入多种偏好优化算法,在人类偏好评估基准上提升SOTA。

SafeNlidb: A Privacy-Preserving Safety Alignment Framework for LLM-based Natural Language Database Interfaces

提出SafeNlidb框架,通过安全感知数据合成管线和交替偏好优化策略,实现LLM驱动的自然语言数据库接口(NLIDB)在安全推理与SQL生成之间的联合优化,有效防御隐式推理攻击下的隐私泄露。

SceneJailEval: A Scenario-Adaptive Multi-Dimensional Framework for Jailbreak Evaluation

提出SceneJailEval,一个场景自适应的多维度越狱评估框架,定义14个越狱场景和10个评估维度,通过场景分类→维度动态选择→多维检测→加权危害评分的流程,在自建数据集上F1达0.917(超SOTA 6%),在JBB上达0.995(超SOTA 3%),同时支持危害程度量化而非仅二分类。

SOM Directions are Better than One: Multi-Directional Refusal Suppression in Language Models

证明LLM的拒绝行为并非由单一方向编码,而是形成低维流形,利用自组织映射(SOM)提取多个拒绝方向并通过贝叶斯优化搜索最优消融组合,在多个模型上超越单方向基线和专用越狱算法。

Canoe: Teaching LLMs to Maintain Contextual Faithfulness via Synthetic Tasks and RL

提出 Canoe 框架,通过从 Wikidata 三元组合成四类可验证的短形式 QA 数据,配合 Dual-GRPO(含准确率奖励、长形式代理奖励和格式奖励)同时优化短/长形式生成的忠实度,使 Llama-3-8B 在 11 个下游任务上平均提升 22.6%,超越 GPT-4o。

Towards Inference-Time Scaling for Continuous Space Reasoning

首次系统研究离散文本推理中的inference-time scaling技术能否迁移到连续潜空间推理模型(COCONUT),发现dropout采样能生成多样推理路径(Pass@32达44.43%),但PRM/ORM仅带来不足2.3%提升,根因在于连续思维表示缺乏区分正误推理的几何归纳偏置。

When Human Preferences Flip: An Instance-Dependent Robust Loss for RLHF

针对人类偏好标注中普遍存在的"偏好翻转"问题,提出 FA-DPO(Flipping-Aware DPO),将标注过程建模为"真实意图 + 实例依赖翻转概率"两阶段,通过修正 BT 模型损失和迭代优化翻转估计模块,在多种噪声场景下显著提升对齐鲁棒性,实例依赖翻转率高时比 DPO 提升 16.7%。


📦 模型压缩

A Closer Look at Knowledge Distillation in Spiking Neural Network Training

针对ANN→SNN知识蒸馏中教师ANN连续特征/logits与学生SNN离散稀疏spike特征/logits之间分布差异被忽视的问题,提出基于显著性缩放激活图蒸馏(SAMD)和噪声平滑logits蒸馏(NLD)的CKDSNN框架,在CIFAR-10/100、ImageNet-1K和CIFAR10-DVS上均取得SNN训练的新SOTA。

AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization

针对动态MoE-LoRA适配器推理延迟暴增(250%-950%)的问题,提出了一种token级预门控架构,只在第一层做一次全局路由决策,配合自研的SGMM融合CUDA内核将所有激活的LoRA适配器一次性合并进骨干网络,在保持精度的同时将解码延迟降低2.4倍。

AgentODRL: A Large Language Model-based Multi-agent System for ODRL Generation

提出AgentODRL,一个基于Orchestrator-Workers架构的LLM多智能体系统,通过任务分解、语法验证循环和LoRA驱动的语义反思机制,将自然语言数据权限规则高质量地转换为ODRL格式。

ALTER: Asymmetric LoRA for Token-Entropy-Guided Unlearning of LLMs

提出ALTER框架,利用非对称LoRA架构结合Token级别的Tsallis熵引导,实现LLM中目标知识的精准遗忘,同时通过参数隔离机制保留模型基础能力,在TOFU、WMDP和MUSE三个基准上达到SOTA。

Beyond Sharpness: A Flatness Decomposition Framework for Efficient Continual Learning

提出 FLAD 框架,将 sharpness-aware 扰动方向分解为梯度对齐分量与随机噪声分量,仅保留噪声分量进行正则化,结合零阶与一阶 sharpness 以极低额外开销提升持续学习的泛化能力。

Break the Tie: Learning Cluster-Customized Category Relationships for Categorical Data Clustering

提出 DISC 方法,为每个聚类簇学习定制化的属性类别关系(而非全局统一距离),通过关系树建模与聚类联合优化,在 12 个数据集上以平均排名 1.25 大幅超越现有最佳方法(5.21)。

Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages

本文综合多项实证研究,揭示LLM安全机制在低资源语言和代码混合场景下的严重失效,并提出基于参数高效安全引导、文化驱动偏好数据和社区参与式对齐的资源感知蓝图。

CAMERA: Multi-Matrix Joint Compression for MoE Models via Micro-Expert Redundancy Analysis

提出"micro-expert"概念将MoE层的输出分解为跨矩阵(up/gate/down_proj)的微专家线性组合,基于能量排序进行结构化剪枝(Camera-P)和混合精度量化(Camera-Q),在Deepseek-MoE-16B/Qwen2-57B/Qwen3-30B上20%-60%剪枝率全面超越NAEE和D²-MoE,且分析Qwen2-57B仅需单卡A100不到5分钟。

Can You Tell the Difference? Contrastive Explanations for ABox Entailments

提出对比式ABox解释(Contrastive ABox Explanations)的形式化框架,用于回答"为什么a是C的实例而b不是"的问题,在描述逻辑知识库中同时考虑正向蕴涵和缺失蕴涵,并分析不同描述逻辑和优化准则下的计算复杂度。

Catastrophic Forgetting in Kolmogorov-Arnold Networks

首个系统性研究KAN(Kolmogorov-Arnold Networks)中灾难性遗忘行为的工作:建立了遗忘与激活支持重叠和数据内禀维度之间的理论框架,并提出KAN-LoRA用于语言模型的持续微调知识编辑。

CoEvo: Continual Evolution of Symbolic Solutions Using Large Language Models

提出CoEvo框架,结合LLM与进化搜索方法论,通过动态知识库和多表示空间(自然语言/数学公式/代码)实现符号解的持续开放式进化,在AI Feynman基准上大幅超越现有符号回归方法。

ComoRAG: A Cognitive-Inspired Memory-Organized RAG for Stateful Long Narrative Reasoning

受人脑前额叶皮层元认知调控机制启发,提出 ComoRAG 框架,通过动态记忆工作空间和迭代探测查询实现有状态的多步推理,在长篇叙事理解(200K+ tokens)任务上显著超越现有 RAG 方法。

Compensating Distribution Drifts in Class-incremental Learning of Pre-trained Vision Transformers

提出 Sequential Learning with Drift Compensation (SLDC),通过学习潜在空间转换算子(线性/弱非线性)来补偿预训练 ViT 在类增量学习中因序列微调导致的分布漂移,结合知识蒸馏后性能接近联合训练上界。

Distilling Cross-Modal Knowledge via Feature Disentanglement

提出频域解耦跨模态知识蒸馏(FD-CMKD),通过傅里叶变换将特征分解为低频(模态共享语义)和高频(模态特有细节)分量,分别施加强一致性 MSE 和弱一致性 logMSE 损失,并引入尺度标准化与共享分类器对齐特征空间,在音频-视觉、图像-文本、语义分割等多个跨模态场景全面超越现有蒸馏方法。

DP-GenG: Differentially Private Dataset Distillation Guided by DP-Generated Data

提出 DP-GenG 框架,利用差分隐私生成数据(DP-generated data)引导数据集蒸馏的初始化、特征匹配和专家校准三个阶段,在有限隐私预算下显著提升蒸馏数据集的实用性和隐私保护能力。

DynaQuant: Dynamic Mixed-Precision Quantization for Learned Image Compression

针对学习图像压缩(LIC)模型部署效率低的痛点,提出DynaQuant框架,在参数层面通过可学习scale/zero-point + Distance-Aware Gradient Modulator实现内容自适应量化,在架构层面通过轻量Bit-Width Selector动态为每层分配最优比特宽度,在Cheng2020/ELIC/Ballé三个基线上实现接近FP32的R-D性能,同时获得最高5.17×加速和模型大小降至原来的~1/4。

Earth-Adapter: Bridge Geospatial Domain Gaps with Mixture of Frequency Adaptation

提出 Earth-Adapter,首个针对遥感图像伪影问题设计的参数高效微调 (PEFT) 方法,通过频率引导的混合适配器 (MoA) 将特征分解为高低频子空间、独立优化后动态聚合,在遥感语义分割 (SS)、域自适应 (DA) 和域泛化 (DG) 三个设定中均超越基线 Rein。

Is The Information Bottleneck Robust Enough Towards Label-Noise Resistant Inform

本文揭示了信息瓶颈(IB)原理在标签噪声下的固有脆弱性,提出 LaT-IB 方法,通过将表征解耦为干净标签空间和噪声标签空间两部分,结合"最小-充分-干净"(MSC)准则和三阶段训练框架,在多种噪声条件下实现了对现有 IB 方法的显著超越。

KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache

提出 KVmix,通过计算 Key/Value 投影权重梯度的 \(L_2\) 范数来评估各层 KV Cache 的重要性,实现层级混合精度量化(Key 平均 2.19bit、Value 平均 2.38bit),并结合动态关键上下文选择(RPC)策略,在 Llama/Mistral 等模型上实现近无损推理、4.9× 内存压缩和 5.3× 吞吐加速。

Parametric Pareto Set Learning for Expensive Multi-Objective Optimization

本文提出 PPSL-MOBO 框架,通过超网络 + LoRA 架构学习从偏好和外在参数到 Pareto 最优解的统一映射,结合高斯过程代理模型和超体积改进采集策略,高效解决昂贵的参数化多目标优化问题。

Pocketllm Ultimate Compression Of Large Language Models Via Meta Networks

PocketLLM提出通过元网络(编码器-码本-解码器)在潜空间中压缩LLM权重向量,用小型解码器+紧凑码本+索引替代原始权重矩阵,在Llama 2-7B上实现10×压缩且精度损失可忽略,突破了传统量化/剪枝在极端压缩比下的精度瓶颈。

SCoPe: Intrinsic Semantic Space Control for Mitigating Copyright Infringement in LLMs

将LLM版权侵权缓解问题重新定义为内在语义空间控制,利用稀疏自编码器(SAE)将隐状态映射到高维稀疏空间,识别版权敏感子空间并在解码时钳制其激活,无需外部过滤器或参数更新即可有效减少版权内容复制,同时保持模型通用能力。

SparK: Query-Aware Unstructured Sparsity with Recoverable KV Cache Channel Pruning

提出SparK——一种training-free的KV cache通道级非结构化剪枝方法,通过query-aware的saliency评估选择关键通道+recovery机制恢复被剪枝通道的贡献,在80%剪枝率下性能损失<5%,与token eviction方法正交互补,可额外减少30%+ KV cache存储。


🧊 3D 视觉

3D-ANC: Adaptive Neural Collapse for Robust 3D Point Cloud Recognition

将Neural Collapse(NC)机制引入3D点云对抗鲁棒性,用固定的ETF分类头+自适应训练框架(RBL+FDL)构建解耦的特征空间,在ModelNet40上将DGCNN的对抗准确率从27.2%提升到80.9%,超出最佳baseline 34个点。

3D-Free Meets 3D Priors: Novel View Synthesis from a Single Image with Pretrained Diffusion Guidance

提出将 3D-free 方法(HawkI 风格的 test-time optimization)与 3D-based 先验(Zero123++ 的弱引导图)结合的框架,无需额外 3D 数据或训练即可从单张图片生成指定仰角/方位角的相机控制视图,在复杂场景下 LPIPS、CLIP-Score 等指标全面超越 Zero123++、HawkI 和 Stable Zero123。

4DSTR: Advancing Generative 4D Gaussians with Spatial-Temporal Rectification for High-Quality and Consistent 4D Generation

提出4DSTR框架,通过基于Mamba的时序关联校正(修正高斯点的尺度和旋转)以及逐帧自适应稠密化与裁剪策略,显著提升4D高斯生成的时空一致性和对快速时序变化的适应能力。

Adapt-As-You-Walk Through the Clouds: Training-Free Online Test-Time Adaptation of 3D Vision-Language Foundation Models

提出 Uni-Adapter,一种面向3D视觉-语言基础模型(VLFM)的无训练在线测试时适应框架,通过基于聚类的动态原型缓存和图正则化标签平滑来应对分布偏移,在多个3D损坏基准上取得SOTA。

AnchorDS: Anchoring Dynamic Sources for Semantically Consistent Text-to-3D Generation

揭示 SDS 中源分布是动态演化而非静态的关键问题,提出 AnchorDS,通过将当前渲染图像作为图像条件输入双条件扩散模型来锚定源分布,解决了 SDS 的语义过度平滑和多视角不一致问题,在 T3Bench 上全面超越 SDS/VSD/SDS-Bridge。

AnchorHOI: Zero-shot Generation of 4D Human-Object Interaction via Anchor-based Prior Distillation

提出 AnchorHOI,通过锚点NeRF和锚点关键点两种中间桥梁,分别从图像/视频扩散模型中蒸馏交互先验和运动先验,实现零样本的文本驱动4D人物-物体交互生成,在静态3D和动态4D HOI生成上均超越已有方法。

Arbitrary-Scale 3D Gaussian Super-Resolution

提出一个集成框架实现3D高斯溅射(3DGS)的任意倍率超分辨率渲染,通过尺度感知渲染、生成先验引导优化和渐进超分机制,用单个3D模型支持整数和非整数倍率的HR渲染,PSNR提升6.59dB同时保持85 FPS实时速度。

ASSIST-3D: Adapted Scene Synthesis for Class-Agnostic 3D Instance Segmentation

提出 ASSIST-3D 合成数据流水线,通过异构物体选择、LLM 引导的场景布局生成和仿真实点云构建三个阶段,为 class-agnostic 3D 实例分割生成高质量标注数据,显著提升模型泛化能力。

Can Protective Watermarking Safeguard the Copyright of 3D Gaussian Splatting?

首次系统性地揭示了 3DGS 水印框架的脆弱性,提出 GSPure 框架通过视角感知权重累积和几何特征聚类精准分离并去除水印相关的 Gaussian 原语,在水印 PSNR 最高降低 16.34dB 的同时保持原始场景损失不足 1dB。

CASL: Curvature-Augmented Self-supervised Learning for 3D Anomaly Detection

发现点云曲率本身就是强大的异常检测线索,提出曲率增强的自监督学习框架 CASL,通过多尺度曲率提示引导坐标重建来学习通用 3D 表征,无需任何异常检测专用机制即可在 Real3D-AD 上以 5.6% O-AUROC 优势刷新 SOTA。

Class-Partitioned VQ-VAE and Latent Flow Matching for Point Cloud Scene Generation

提出类别分区的 VQ-VAE(CPVQ-VAE)和潜空间流匹配模型(LFMM),实现了首个无需外部数据库检索的纯点云场景生成方法,在复杂客厅场景上将 Chamfer 距离降低了 70.4%。

CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion

提出 CtrlFuse,通过 mask prompt 引导 SAM 微调,实现红外-可见光图像的交互式可控融合,在融合质量和下游分割/检测任务上同时取得提升。

DANCE: Density-Agnostic and Class-Aware Network for Point Cloud Completion

提出 DANCE 框架,通过基于射线的候选点采样和 opacity 预测机制实现密度无关的点云补全,并引入分类头提供语义先验,在 PCN 和 MVP 基准上取得 SOTA。

DAPointMamba: Domain Adaptive Point Mamba for Point Cloud Completion

首次将 Mamba(SSM)引入无监督域自适应点云补全(UDA PCC),提出 DAPointMamba 框架,通过跨域 Patch 级扫描、空间 SSM 对齐和通道 SSM 对齐三个模块,在保持线性复杂度和全局感受野的同时实现了跨域高质量点云补全。

Debiasing Diffusion Priors via 3D Attention for Consistent Gaussian Splatting

提出 TD-Attn 框架,通过 3D 感知注意力引导(3D-AAG)和层级注意力调制(HAM)两个模块,解决 T2I 扩散模型中先验视角偏差导致的 3D 生成/编辑多视图不一致问题(Janus problem),可作为通用插件集成到现有 3DGS 框架。

DeepRAHT: Learning Predictive RAHT for Point Cloud Attribute Compression

提出首个端到端可微的 RAHT(Region Adaptive Hierarchical Transform)框架 DeepRAHT,用于有损点云属性压缩,通过可学习的预测模型和基于 Laplace 分布的码率代理实现了超越 G-PCC 标准和现有深度学习方法的压缩性能。

Distilling Future Temporal Knowledge with Masked Feature Reconstruction for 3D Object Detection

提出 FTKD(Future Temporal Knowledge Distillation)框架,通过未来感知特征重建(FFR)和未来引导 logit 蒸馏(FLD)两个策略,将离线教师模型中的未来帧知识有效迁移到在线学生模型,在 nuScenes 上取得 1.3 mAP/1.3 NDS 提升且不增加推理开销。

Domain Generalized Stereo Matching with Uncertainty-guided Data Augmentation

提出 UgDA-Stereo,通过对 RGB 图像逐通道均值和标准差施加基于批次统计量的高斯不确定性扰动来模拟多种未知域的视觉风格,并结合特征一致性约束,以即插即用方式显著提升立体匹配模型的跨域泛化能力。

EPSegFZ: Efficient Point Cloud Semantic Segmentation for Few- and Zero-Shot Scenarios

提出 EPSegFZ,一个无需预训练的3D点云少样本/零样本语义分割框架,通过 ProERA 提取高频特征、LGPE 融合文本信息更新原型、DRPE 建立精确的查询-原型对应关系,在 S3DIS 和 ScanNet 上分别超越 SOTA 5.68% 和 3.82%。

FoundationSLAM: 释放深度基础模型在端到端稠密视觉SLAM中的潜力

将深度基础模型的几何先验注入光流式SLAM系统,通过混合光流网络、双向一致BA层和可靠性感知精炼三个模块形成闭环,在TUM/EuRoC/7Scenes/ETH3D四大数据集取得SOTA轨迹精度和稠密重建质量,18 FPS实时运行。

Gaussian Blending: Rethinking Alpha Blending in 3D Gaussian Splatting

重新审视3DGS中的标量alpha blending,指出其忽略像素内空间变化是多尺度渲染伪影(放大erosion/缩小dilation)的根源,提出Gaussian Blending——将alpha和transmittance建模为像素内的空间分布(2D uniform window),实现实时抗锯齿且无需重训练,在多尺度Blender上PSNR从31.59→35.80。

OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding

本文提出了广义开放词汇 3D 场景理解任务(GOV-3D)及对应的 OpenScan 基准,将 3D 场景理解从物体类别扩展到八种语言学属性维度,揭示了现有 OV-3D 方法在理解抽象物体属性方面的严重不足。


🛡️ AI 安全

Alternative Fairness and Accuracy Optimization in Criminal Justice

本文系统综述了算法公平性的三大维度(群体公平、个体公平、过程公平),提出了一种基于容差约束的改进群体公平性优化公式,并构建了面向公共决策系统的"公平三支柱"部署框架。

An Improved Privacy and Utility Analysis of Differentially Private SGD with Bounded Domain and Smooth Losses

在仅假设损失函数L-光滑(不需要凸性)的条件下,为DPSGD推导出了更紧的闭式RDP隐私界,并首次在有界域场景下给出了完整的收敛性/效用分析,揭示了较小的参数域直径可以同时改善隐私和效用。

An Information Theoretic Evaluation Metric for Strong Unlearning

提出 Information Difference Index (IDI),一种基于信息论的白盒评估指标,通过度量中间层特征与遗忘标签之间的互信息来衡量机器遗忘的彻底程度,揭示了现有黑盒指标(MIA、JSD等)无法捕捉的中间层残留信息问题,并提出 COLA 方法在特征层面消除残余信息。

An Information Theoretic Evaluation Metric for Strong Unlearning

揭示现有黑盒遗忘评估指标(MIA/JSD等)的根本缺陷——仅修改最后一层即可满足所有黑盒指标但中间层完整保留遗忘数据信息,提出IDI白盒指标通过InfoNCE估计各层与遗忘标签的互信息差异来量化遗忘效果,并提出COLA方法在CIFAR-10/100和ImageNet-1K上实现接近Retrain的IDI得分。

An LLM-Based Simulation Framework for Embodied Conversational Agents in Psychological Counseling

提出 ECAs 框架,基于认知行为治疗(CBT)等心理学理论,利用 LLM 将真实咨询案例扩展为具身认知记忆空间,模拟心理咨询中来访者的完整认知过程,生成高保真度的咨询对话数据,在专家评估和自动评估中均显著优于基线。

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

提出Angular Gradient Sign Method (AGSM),将双曲空间中的梯度分解为径向(层次深度)和角度(语义)分量,仅沿角度方向施加扰动来生成对抗样本,在图像分类和跨模态检索任务上比标准FGSM/PGD多降低5-13%的准确率。

Argumentative Debates for Transparent Bias Detection (ABIDE)

提出ABIDE框架,将偏见检测过程结构化为基于量化二极论辩框架(QBAF)的辩论:通过邻域级局部统计公平性(neighbourhood-based local statistical parity)生成偏见论据,利用批判性问题(critical questions)作为攻击机制挑战不可靠论据,在合成/真实/LLM模型上均优于IRB基线。

AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

提出AUVIC框架,通过对抗性扰动生成器 + 动态锚点保留机制,在MLLM中精确遗忘目标视觉概念(如特定人脸),同时避免对语义相似概念的附带遗忘,并构建了首个面向群体场景视觉概念遗忘的评测基准VCUBench。

Beyond Superficial Forgetting: Thorough Unlearning through Knowledge Density Estimation and Block Re-insertion

提出 KUnBR 框架,通过梯度引导的知识密度估计定位有害知识富集层,并采用块重插入策略绕过 cover layer 的梯度遮蔽效应,实现对 LLM 有害知识的深度遗忘而非表面抑制。

Breaking the Adversarial Robustness-Performance Trade-off in Text Classification via Manifold Purification

提出 Manifold-Correcting Causal Flow (MC²F) 框架,通过分层黎曼连续正则化流 (SR-CNF) 学习干净数据嵌入的流形密度进行对抗样本检测,再用测地线净化求解器 (Geodesic Purification Solver) 将被检测为对抗的嵌入沿最短路径投影回干净流形,在 SST-2/AGNews/YELP 三个数据集上对抗鲁棒性全面超越 SOTA,同时完全不损失(甚至略微提升)干净数据精度。

Breaking the Dyadic Barrier: Rethinking Fairness in Link Prediction Beyond Demographic Parity

本文揭示了链接预测中二元公平性(dyadic fairness)和 Demographic Parity(ΔDP)的三大根本缺陷——GNN 表达力不足、子群偏差被掩盖、对排序不敏感——并提出基于 NDKL 的排序感知公平度量和后处理算法 MORAL,在六个数据集上实现了 SOTA 的公平性-效用权衡。

Can Editing LLMs Inject Harm?

本文将知识编辑技术重新定义为一种新型 LLM 安全威胁(Editing Attack),系统性地研究了通过 ROME、FT、ICE 三种编辑方法向 LLM 注入虚假信息和偏见的可行性,发现其效果显著且极具隐蔽性。

CoRe-Fed: Bridging Collaborative and Representation Fairness via Federated Embedding Distillation

提出 CoRe-Fed 框架,通过嵌入级对比对齐与贡献感知聚合两个协同模块,同时解决联邦学习中的表示公平性和协作公平性问题,在异构数据分布下显著提升全局模型的公平性与泛化能力。

DeepTracer: Tracing Stolen Model via Deep Coupled Watermarks

提出DeepTracer鲁棒水印框架,通过自适应源类选择(K-Means聚类覆盖特征空间)+ 同类耦合损失(拉近水印样本与目标类在输出空间的距离)+ 两阶段关键样本过滤,使水印任务与主任务深度耦合,在6种模型窃取攻击(含hard-label和data-free)下水印成功率平均达77-100%,远超现有方法。

Democratizing LLM Efficiency: From Hyperscale Optimizations to Universal Deployability

本文是一篇立场论文(position paper),指出当前 LLM 效率研究被超大规模假设所主导,提出面向中小规模部署者的五大开放研究挑战,并倡导以开销感知效率(OAE)重新定义效率指标。

Detect All-Type Deepfake Audio: Wavelet Prompt Tuning for Enhanced Auditory Perception

首次建立全类型(语音/声音/歌声/音乐)音频深伪检测基准,提出小波提示调优(WPT)方法通过离散小波变换增强 SSL 特征的全频域感知能力,在不增加训练参数的前提下超越全量微调,co-training 后平均 EER 仅 3.58%。

Diversifying Counterattacks: Orthogonal Exploration for Robust CLIP Inference

提出方向正交反攻击(DOC)方法,通过在反攻击优化中引入正交梯度分量和动量更新扩展搜索空间,结合基于余弦相似度的方向敏感度评分自适应调控反攻击强度,在 16 个数据集上显著提升 CLIP 的测试时对抗鲁棒性。

Easy to Learn, Yet Hard to Forget: Towards Robust Unlearning Under Bias

提出 CUPID 框架,通过损失景观的锐度分析将遗忘集划分为因果/偏差子集,并识别和分离模型中的因果/偏差通路,实现对有偏模型的精准类别遗忘,有效解决"捷径遗忘"问题。

EFX and PO Allocation Exists for Two Types of Goods

证明了当物品只有两种类型且所有估值为正时,满足 EFX(任意物品无嫉妒)和 Pareto 最优的分配总是存在的,并给出了准线性时间算法。

Enhancing Dpsgd Via Per-Sample Momentum And Low-Pass Filtering

提出 DP-PMLF,通过逐样本动量(per-sample momentum)降低裁剪偏差,同时利用低通滤波器(low-pass filter)抑制高频 DP 噪声,首次同时从两个方向缓解 DPSGD 的精度退化问题。

Truth, Justice, and Secrecy: Cake Cutting Under Privacy Constraints

首个隐私保护蛋糕切割协议,在保持无嫉妒性和策略防谋性的同时,通过秘密共享和安全多方计算(MPC)技术确保参与者的估值函数不被泄露。


🏥 医学图像

A Disease-Aware Dual-Stage Framework for Chest X-ray Report Generation

提出一种两阶段疾病感知框架,通过学习14个与病理类别对应的疾病感知语义token(DASTs)实现显式的疾病表征,再利用疾病-视觉注意力融合(DVAF)和双模态相似性检索(DMSR)机制辅助LLM生成临床准确的胸部X光报告,在CheXpert Plus、IU X-Ray和MIMIC-CXR三个数据集上取得SOTA。

A Principle-Driven Adaptive Policy for Group Cognitive Stimulation Dialogue for Elderly with Cognitive Impairment

针对老年认知障碍患者的群体认知刺激治疗(CST)场景,提出GCSD系统:通过多说话人上下文控制、动态参与者状态建模(soft prompt)、认知刺激注意力损失和多维奖励策略优化四个模块,基于Qwen-2.5-3B微调,在500+小时真实粤语CST对话和1万+模拟对话上训练,BLEU-4达27.93超越GPT-4o等大模型,A/B测试胜率50% vs GPT-4o的39%。

Advancing Safe Mechanical Ventilation Using Offline RL With Hybrid Actions and Clinically Aligned Rewards

针对ICU机械通气(MV)设置优化问题,提出混合动作空间的离线RL方法(HybridIQL/HybridEDAC),避免传统离散化导致的分布偏移,同时引入基于无通气天数(VFD)和生理参数安全范围的临床对齐奖励函数,通过多目标优化选择最优奖励,将可优化的通气参数从2-3个扩展到6个,HybridIQL在性能和策略覆盖率间取得最佳平衡。

Ambiguity-aware Truncated Flow Matching for Ambiguous Medical Image Segmentation

提出 ATFM 框架,通过数据层级推理范式将预测精度和多样性解耦到分布级和样本级分别优化,结合高斯截断表示(GTR)和分割流匹配(SFM)两个模块,在模糊医学图像分割任务中同时提升预测的精度、保真度和多样性。

Apo2Mol: 3D Molecule Generation via Dynamic Pocket-Aware Diffusion Models

提出Apo2Mol,一个基于扩散的全原子框架,从蛋白质apo(未结合)构象出发,同时生成3D配体分子和对应的holo(结合态)口袋构象,使用24K实验解析的apo-holo结构对训练,在结合亲和力(Vina min -7.86)和药物类似性上达到SOTA。

Bayesian Meta-Analyses Could Be More: A Case Study in Trial of Labor After a Cesarean-section Outcomes and Complications

提出一种层次贝叶斯 meta-analysis 方法,通过对未记录的决策变量(Bishop 分数)建模为截断隐变量,纠正传统固定效应 meta-analysis 中因忽略混杂因子而导致的偏差结论,在 TOLAC(剖宫产后试产)场景中证明机械扩张与 Pitocin 无显著差异。

BiCA: Effective Biomedical Dense Retrieval with Citation-Aware Hard Negatives

提出利用 PubMed 引文链构建多跳语义图并进行随机游走的 hard negative 挖掘方法,仅用 20k 训练样本和极少微调步数,即让 33M/110M 小模型在 BEIR 和 LoTTE 上超越数十亿参数的检索基线。

Bidirectional Channel-selective Semantic Interaction for Semi-Supervised Medical Segmentation

提出 BCSI 框架,通过通道选择路由器动态筛选关键特征通道,在标注和未标注数据流之间进行双向通道级交互,结合语义-空间扰动的弱到强一致性学习,显著提升半监督医学图像分割性能。

Bridging Vision and Language for Robust Context-Aware Surgical Point Tracking: The VL-SurgPT Dataset and Benchmark

提出首个大规模多模态手术点追踪数据集 VL-SurgPT,结合视觉坐标与文本状态描述,并设计文本引导追踪方法 TG-SurgPT,通过语义信息显著提升复杂手术场景下的追踪精度和鲁棒性。

CD-DPE: Dual-Prompt Expert Network Based on Convolutional Dictionary Feature Decoupling for Multi-Contrast MRI Super-Resolution

提出 CD-DPE 网络,通过迭代卷积字典特征解耦模块(CD-FDM)将多对比度 MRI 特征分离为跨对比度共有和模态特有成分,再利用双提示特征融合专家模块(DP-FFEM)进行自适应融合重建,在多个公开数据集上超越现有 SOTA 方法。

CliCARE: Grounding Large Language Models in Clinical Guidelines for Decision Support over Longitudinal Cancer Electronic Health Records

提出 CliCARE 框架,将非结构化的纵向癌症电子病历(EHR)转化为时序知识图谱(TKG),并与临床指南知识图谱对齐融合,为 LLM 提供循证依据的临床决策支持,同时设计了与专家评估高度相关的 LLM-as-a-Judge 评估协议。

Coarse-to-Fine Open-Set Graph Node Classification with Large Language Models

提出 Coarse-to-Fine Classification (CFC) 框架,利用 LLM 的零样本推理能力为图节点开放集分类提供语义化 OOD 样本和潜在 OOD 标签空间,实现不仅检测 OOD 还能将其分类到具体未知类别的能力。

CoCoLIT: ControlNet-Conditioned Latent Image Translation for MRI to Amyloid PET Synthesis

提出 CoCoLIT 框架,基于 ControlNet 条件化的潜在扩散模型,从结构 MRI 合成淀粉样蛋白 PET 图像,通过加权图像空间损失(WISL)和潜在平均稳定化(LAS)显著超越现有方法。

Constrained Best Arm Identification with Tests for Feasibility

提出带可行性约束的最优臂识别新框架,允许决策者分别测试臂的性能或可行性约束,设计了渐近最优算法,可自适应地选择通过性能或可行性中更容易的方式淘汰次优臂。

Cross-Sample Augmented Test-Time Adaptation for Personalized Intraoperative Hypotension Prediction

提出 CSA-TTA 框架,通过跨样本库构建、粗到细检索和多任务优化,在测试时从其他患者数据中检索低血压事件信号来增强个性化术中低血压预测。

Decoding with Structured Awareness: Integrating Directional, Frequency-Spatial, and Structural Attention for Medical Image Segmentation

提出面向医学图像分割的新型解码器框架,包含三个模块:方向感知的自适应交叉融合注意力(ACFA)、空间-频率-小波三分支融合注意力(TFFA)和结构感知多尺度掩码模块(SMMM),在多个基准数据集上超越现有方法。

EgoEMS: A High-Fidelity Multimodal Egocentric Dataset for Cognitive Assistance in Emergency Medical Services

发布首个高保真多人多模态自我中心EMS数据集,包含233个试验20小时视频、9项干预67个关键步骤标注,提供三个基准任务(步骤分类/在线分割/CPR质量估计)推动EMS认知协助系统开发。

Learning Cell-Aware Hierarchical Multi-Modal Representations for Robust Molecular Modeling

提出CHMR框架,将分子结构(1D/2D/3D)与细胞形态/基因表达等生物模态联合建模,通过结构感知的模态增强解决>90%的外部生物模态缺失问题,用树状向量量化(Tree-VQ)捕获分子-细胞-基因的层次化依赖关系,在9个benchmark的728个任务上超越SOTA,分类平均AUC提升3.6%,回归MAE降低17.2%。

ProtSAE: Disentangling and Interpreting Protein Language Models via Semantically-Guided Sparse Autoencoders

提出 ProtSAE,在稀疏自编码器训练中引入语义标注和领域本体知识作为引导信号,解决传统 SAE 的语义纠缠问题,使蛋白质语言模型的隐层特征与生物学概念(分子功能、生物过程、离子结合位点等)精准对齐,同时保持高重建保真度并支持概念级别的生成控制。


🎯 目标检测

A Theoretical Analysis of Detecting Large Model-Generated Time Series

首次研究时间序列大模型(TSLM)生成内容的检测问题——提出收缩假说(Contraction Hypothesis):TSLM 生成的时间序列在递归预测下不确定性逐渐降低(分布越来越集中),而真实序列不会。基于此提出白盒检测器 UCE(Uncertainty Contraction Estimator),在 32 个数据集上超越 SOTA 基线。

Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward

AC3 提出了一个直接学习连续动作序列(action chunk)的 actor-critic 框架,通过"仅从成功轨迹更新 actor"的非对称更新规则和基于自监督锚点的内在奖励来稳定稀疏奖励下的长时域机器人操作学习,在 BiGym 和 RLBench 的 25 个任务上取得优于现有方法的成功率。

AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios

构建了首个面向无人机场景的大规模 Referring Multi-Object Tracking(RMOT)基准数据集 AerialMind,并提出 HawkEyeTrack(HETrack)方法,通过视觉-语言共进化融合编码器和尺度自适应上下文精炼模块,在无人机航拍场景中实现语言引导的多目标跟踪。

An Overall Real-Time Mechanism for Classification and Quality Evaluation of Rice

提出一个实时大米品质评估整体机制,整合改进的 YOLO-v5(品种检测)、改进的 ConvNeXt-Tiny(完整度分级)和 K-means(垩白区域量化)三个模块,在自建的六品种两万张图像数据集上实现了 99.14% mAP 和 97.89% 检测准确率。

Beyond Boundaries: Leveraging Vision Foundation Models for Source-Free Object Detection

提出利用VFM(DINOv2+Grounding DINO)增强无源域自适应目标检测(SFOD)的框架,通过全局特征对齐(PGFA)、实例级原型对比学习(PIFA)和双源伪标签融合(DEPF)三个模块,在6个跨域检测基准上取得SOTA,例如Cityscapes→Foggy Cityscapes达47.1% mAP(比DRU高3.5%),Sim10k→Cityscapes达67.4% AP(比DRU高8.7%)。

Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces

提出 Generative Semantic Workspace (GSW),一种神经科学启发的生成式记忆框架,为 LLM 构建结构化的情景记忆表示,在 EpBench 上 F1 达到 0.85,同时减少 51% 的查询时上下文 token。

Beyond Semantic Features: Pixel-Level Mapping for Generalized AI-Generated Image Detection

提出像素级映射(pixel-level mapping)预处理方法,通过打破像素值的单调排列来抑制低频语义偏差、增强高频生成伪影,将 AI 生成图像检测的跨模型泛化准确率提升至 98.4%。

Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning

提出 GroundingAgent,一个完全不需要任务特定微调的视觉定位框架,通过组合预训练的开放词汇检测器(YOLO World)、MLLM(Llama-3.2-11B-Vision)和 LLM(DeepSeek-V3)进行结构化迭代推理,在 RefCOCO/+/g 上实现 65.1% 的零样本平均准确率,大幅超越之前的 zero-shot 方法。

Continuous Vision-Language-Action Co-Learning with Semantic-Physical Alignment for Behavioral Cloning

提出CCoL框架,通过NeuralODE驱动的多模态连续协同学习(MCC)和双向交叉注意力的语义-物理对齐(CSA),在Behavioral Cloning中同时解决动作序列的物理不连续性和语义-物理失配问题,在三个仿真平台上平均相对提升8.0%,双臂插入任务最高达19.2%。

CTPD: Cross Tokenizer Preference Distillation

提出 Cross-Tokenizer Preference Distillation (CTPD),首个支持不同分词器间偏好蒸馏的统一框架,通过 Aligned Span Projection、跨分词器重要性加权和 Teacher-Anchored Reference 三项创新,在多个 benchmark 上显著超越现有方法。

Deep Incomplete Multi-View Clustering via Hierarchical Imputation and Alignment

提出 DIMVC-HIA,一个集成层次化填充与双重对齐的深度不完整多视图聚类框架,先填充缺失聚类分配再填充缺失特征,在高缺失率(70%)下仍保持稳健性能。

Sketch-HARP: 分层自回归草图生成实现灵活笔画级绘制操控

提出 Sketch-HARP 分层自回归草图生成框架,通过三阶段层次化过程(预测笔画嵌入→确定画布位置→生成绘制动作序列),首次实现草图绘制过程中的灵活笔画级操控,在替换/擦除/扩展等任务上显著优于 SketchEdit。

Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization

针对多模态大模型(MLLM)在强化学习训练中产生幻觉的三大根因——视觉误解、探索多样性不足、样本冲突——分别提出 Caption Reward、奖励方差引导的样本选择、以及基于 NTK 相似度的 InfoNCE 正则化,在多个基准上显著降低幻觉率。

H-GAR: A Hierarchical Interaction Framework via Goal-Driven Observation-Action Refinement for Robotic Manipulation

提出层次化目标驱动框架 H-GAR,通过先预测目标观测再合成中间观测、并利用历史动作记忆库细化粗粒度动作,实现了观测与动作的显式双向交互,在仿真和真实机器人操控任务上取得 SOTA。

SAGA: Learning Signal-Aligned Distributions for Improved Text-to-Image Generation

提出SAGA方法,通过学习与提示词对齐的高斯分布来改进文本到图像生成模型的语义对齐,无需重新训练且支持文本和空间双条件生成,在SD 1.4和SD 3上大幅提升对齐性能(TIAM-3从8.4%提升到50.7%)。

Sm3Det A Unified Model For Multi-Modal Remote Sensing Object Detection

SM3Det提出了遥感领域的M2Det新任务(多模态数据集+多任务目标检测),通过网格级稀疏MoE骨干网络和动态子模块优化(DSO)机制,用单一模型同时处理SAR/光学/红外三种模态的水平/旋转框检测,显著超越各模态独立训练的三个专用模型组合。

TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models

TTF-VLA 提出了一种免训练的时序 Token 融合方法,通过灰度像素差异+注意力语义检测的双维度机制选择性地复用历史帧的视觉 Token,提升 VLA 模型在机器人操作任务中的推理质量,在 LIBERO 上平均提升 4.0 个百分点。


🎮 强化学习

A Course Correction in Steerability Evaluation: Revealing Miscalibration and Side Effects in LLMs

本文提出了一个基于多维目标空间的 LLM 可操控性(steerability)评估框架,将 steering error 分解为校准偏差(miscalibration)和副作用(side effects/orthogonality),在文本改写任务上发现即使是最强的 LLM 也会产生严重副作用,prompt engineering 无效、best-of-N 采样代价高、RL 微调有改善但仍未彻底解决。

A Learning Framework For Cooperative Collision Avoidance of UAV Swarms Leveraging Domain Knowledge

提出 reMARL 框架,将图像处理中的主动轮廓模型(active contour)作为领域知识引入多智能体强化学习的奖励设计,使无人机集群仅通过最大化个体奖励即可学会协作避撞,在大规模集群(≤10架)中性能显著优于 COMA/VDN/QMIX/MAPPO 等 SOTA MARL 方法,反应时间比元启发式方法快 98.75%,能耗降低 85.37%。

Aligning Machiavellian Agents: Behavior Steering via Test-Time Policy Shaping

提出一种测试时策略塑形方法,通过轻量级伦理属性分类器在推理阶段插值修改预训练 RL 智能体的动作概率分布,无需重训练即可实现对多种伦理属性的细粒度行为引导。

BAMAS: Structuring Budget-Aware Multi-Agent Systems

提出 BAMAS 框架,通过整数线性规划(ILP)在预算约束下选择最优 LLM 组合,再用强化学习策略选择最佳协作拓扑(线性/星型/反馈/规划驱动),在 GSM8K/MBPP/MATH 上达到与 SOTA 多 Agent 系统相当的准确率,同时成本降低最高 86%。

Behaviour Policy Optimization: Provably Lower Variance Return Estimates for Off-Policy Reinforcement Learning

提出 Behaviour Policy Optimization (BPO),通过优化一个专用行为策略来采集离策略数据,使得回报估计的方差可证明低于在策略采集,从而提升 REINFORCE 和 PPO 的样本效率与稳定性。

Beyond Monotonicity: Revisiting Factorization Principles in Multi-Agent Q-Learning

通过动力系统分析证明:在近似贪心探索策略下,非单调值分解Q学习中所有违反IGM一致性的零损失解都是不稳定鞍点,只有IGM一致解才是稳定吸引子,因此无需单调性约束即可可靠收敛到最优解。

Beyond the Lower Bound: Bridging Regret Minimization and Best Arm Identification in Lexicographic Bandits

提出两种消除式算法 LexElim-Out 和 LexElim-In,首次在词典序多目标赌博机中同时解决遗憾最小化(RM)和最优臂识别(BAI)问题,其中 LexElim-In 通过跨目标信息共享突破了单目标问题的已知下界。

Bi-Level Contextual Bandits for Individualized Resource Allocation under Delayed Feedback

提出 MetaCUB——一种双层上下文赌博机框架,在延迟反馈、动态人群、冷却约束和公平性要求下实现个体化资源分配,元层优化子群预算分配保证公平,基层利用 UCB 策略选择最有潜力的个体。

ChartEditor: A Reinforcement Learning Framework for Robust Chart Editing

提出 ChartEditVista 基准(7,964 样本、31 种图表类型)和 ChartEditor 模型,通过 GRPO 强化学习框架结合新颖的 rendering reward,仅用 3B 参数即在图表编辑任务上超越 GPT-4o 和多个 72B 级模型。

CHDP: Cooperative Hybrid Diffusion Policies for RL in Parametric Environments

将混合动作空间问题建模为两个agent的全合作博弈,分别用离散和连续扩散策略生成动作,通过顺序更新和Q引导码本解决策略冲突与高维可扩展性问题,成功率最高提升19.3%。

Deep (Predictive) Discounted Counterfactual Regret Minimization

提出VR-DeepDCFR+和VR-DeepPDCFR+两种无模型神经CFR算法,通过自举累积优势估计、折扣裁剪机制和基线方差缩减,首次将高级表格CFR变体(DCFR+/PDCFR+)有效整合到神经网络近似框架中,在典型不完全信息博弈中实现更快收敛。

DeepProofLog: Efficient Proving in Deep Stochastic Logic Programs

提出DeepProofLog(DPrL),一种基于随机逻辑程序的神经符号系统,通过在每个证明步骤引入神经网络参数化,并建立SLD解析过程与MDP的形式化映射,使得动态规划和强化学习技术可用于高效推理与学习,显著提升了神经符号系统的可扩展性。

DiffOP: Reinforcement Learning of Optimization-Based Control Policies via Implicit Policy Gradients

提出 DiffOP 框架,将优化型控制策略(如 MPC)视为可微分模块,通过隐式微分推导解析策略梯度,实现端到端强化学习训练,并给出首个非渐近收敛保证。

MARS: Multi-Agent Adaptive Reasoning with Socratic Guidance for Automated Prompt Optimization

提出 MARS 五智能体框架做自动提示优化(APO):Planner 生成任务特定的优化轨迹,Teacher-Critic-Student 三体进行苏格拉底对话式迭代精炼 prompt(模拟文本空间中的伪梯度下降),Target 执行并反馈,整体建模为 POMDP,在 17 个数据集上平均超越前 SOTA(PE2)6.04%(通用任务)和 6.42%(领域任务),且仅需 1-shot 训练数据。

MMhops-R1: Multimodal Multi-hop Reasoning

提出了 MMhops 基准(31K 样本、3-4 跳推理深度)和 MMhops-R1 框架,通过强化学习训练 MLLM 自主规划推理路径、动态调用图像/文本检索器,实现多模态多跳推理,7B 模型超越 72B 基线和现有 mRAG 方法。

One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow

将MeanFlow重新形式化为残差映射 \(g(a_t,b,t) = a_t - u(a_t,b,t)\),实现一步噪声→动作的生成式策略,无需蒸馏或多步ODE积分,可直接与Q-learning联合训练,在OGBench和D4RL的73个任务上取得强性能。

Test-driven Reinforcement Learning in Continuous Control

提出 Test-driven Reinforcement Learning (TdRL) 框架,用多个测试函数(pass-fail 测试定义最优目标 + indicative 测试引导学习)替代单一奖励函数表示任务目标,通过字典序启发式轨迹比较学习回报函数,在 DeepMind Control Suite 上匹配或超越手工奖励方法,天然支持多目标优化。


🧑 人体理解

10 Open Challenges Steering the Future of Vision-Language-Action Models

一篇针对Vision-Language-Action(VLA)模型的综述/展望论文,系统梳理了VLA领域的10大开放挑战(多模态感知、鲁棒推理、数据质量、评估、跨机器人泛化、效率、全身协调、安全、多智能体、人机协作)以及4大新兴趋势(层次化规划、空间理解、世界动力学建模、数据合成),为VLA研究指明方向。

AHAN: Asymmetric Hierarchical Attention Network for Identical Twin Face Verification

针对同卵双胞胎人脸验证这一极端细粒度识别挑战,提出 AHAN 多流架构,通过层次交叉注意力 (HCA) 对语义面部区域做多尺度分析、面部不对称注意力模块 (FAAM) 捕获左右脸差异签名、以及双胞胎感知配对交叉注意力 (TA-PWCA) 训练正则化,在 ND_TWIN 数据集上将双胞胎验证精度从 88.9% 提升至 92.3%(+3.4%)。

Anti-adversarial Learning: Desensitizing Prompts for Large Language Models

提出 PromptObfus,通过"反对抗学习"思路将用户 prompt 中的敏感词替换为语义不同但不影响任务输出的词,从而在不降低远端 LLM 任务表现的前提下彻底消除显式隐私泄露,并将隐式隐私推理攻击成功率降低 62.70%。

Authority Backdoor: A Certifiable Backdoor Mechanism for Authoring DNNs

提出 Authority Backdoor,将硬件指纹作为后门触发器嵌入 DNN,使模型仅在授权设备上正常工作,并通过随机平滑实现可认证鲁棒性,抵御自适应触发器逆向攻击。

Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation

提出 Auto-PRE 框架,通过自动资格考试从一致性、相关性、自信度三个维度筛选合格的 LLM 评估者,在无需人工标注的前提下实现了 SOTA 评估性能并大幅降低成本。

Behavior Tokens Speak Louder: Disentangled Explainable Recommendation with Behavior Vocabulary

提出 BEAT 框架,通过向量量化自编码将用户/物品的行为表征离散化为可解释的 behavior tokens,结合多层级语义监督将协同过滤信号对齐到冻结 LLM 的语义空间,实现零样本可解释推荐。

Bias Association Discovery Framework for Open-Ended LLM Generations

提出偏见关联发现框架 BADF,通过分析 LLM 开放式故事生成中的叙事内容,系统性地提取人口统计身份与描述性概念之间的已知和未知偏见关联,突破了以往依赖预定义偏见概念的局限。

Can LLMs Truly Embody Human Personality? Analyzing AI and Human Behavior Alignment in Dispute Resolution

提出首个系统对比框架,在配对的冲突调解场景中直接比较人类与人格提示LLM的策略行为差异,发现LLM在人格-行为映射上与人类存在显著偏差,挑战了"人格提示即可代理人类行为"的假设。

CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation

提出 CCFQA,一个覆盖 8 种语言、包含 14,400 条平行语音-文本事实问答样本的跨语言跨模态基准,用于系统评估多模态大语言模型在不同语言和输入模态下的事实一致性,并提出基于英语桥接的 few-shot 迁移策略 LLM-SQA。

CLIP-FTI: Fine-Grained Face Template Inversion via CLIP-Driven Attribute Conditioning

首次利用 CLIP 提取面部细粒度语义属性嵌入来辅助人脸模板反演(FTI),通过跨模态特征交互网络将泄露模板与属性嵌入融合并投影到 StyleGAN 潜空间,生成身份一致且属性细节更丰富的人脸图像,在识别准确率、属性相似度和跨模型攻击迁移性上均超越 SOTA。

CLIPPan: Adapting CLIP as A Supervisor for Unsupervised Pansharpening

提出 CLIPPan,通过轻量微调 CLIP 使其理解多光谱/全色/高分辨率多光谱图像类型及全色锐化过程,然后利用 Wald 协议等文本提示作为语义监督信号,实现无需地面真值的全分辨率无监督全色锐化,可作为即插即用模块兼容任意全色锐化骨干网络。

CoordAR: One-Reference 6D Pose Estimation of Novel Objects via Autoregressive Coordinate Map Generation

提出 CoordAR,将单参考视图 6D 位姿估计中的 3D-3D 对应关系建模为离散 token 的自回归生成问题,通过坐标图 token 化、模态解耦编码和自回归 Transformer 解码器,在多个基准上显著超越现有单视图方法,并对对称、遮挡等挑战场景展现强鲁棒性。

DEIG: Detail-Enhanced Instance Generation with Fine-Grained Semantic Control

提出 DEIG,一个面向细粒度多实例图像生成的框架,通过实例细节提取器(IDE)将 LLM 编码器的高维嵌入蒸馏为紧凑的实例感知表示,并用细节融合模块(DFM)的实例掩码注意力防止属性泄漏,在多属性(颜色+材质+纹理)复合描述的生成任务上大幅超越现有方法。

Dexterous Manipulation Transfer via Progressive Kinematic-Dynamic Alignment

提出 PKDA 框架,通过渐进式运动学-动力学对齐,将人手操作视频自动转化为多指灵巧手的高质量操作轨迹,平均迁移成功率达 73%。

Distributionally Robust Online Markov Game with Linear Function Approximation

本文研究具有线性函数近似的在线分布鲁棒马尔可夫博弈,首次识别了该设定下的学习困难性,并提出 DR-CCE-LSI 算法,在特定特征映射条件下实现了关于特征维度 \(d\) 的极小极大最优样本复杂度。

RENEW: Risk- and Energy-Aware Navigation in Dynamic Waterways

提出 RENEW 全局路径规划器,为水面自主航行器 (ASV) 在动态水流 (洋流) 环境中引入统一的风险感知和能量感知策略,通过自适应不可导航区域识别、最佳努力应急策略和基于约束 Delaunay 三角化的分层架构实现安全高效导航,应急碰撞测试中实现零碰撞。


🕸️ 图学习

Adaptive Initial Residual Connections for GNNs with Theoretical Guarantees

研究图神经网络中自适应初始残差连接(Adaptive IRC)——每个节点有个性化的残差强度——证明该方案防止过平滑(Dirichlet 能量有下界)、保持嵌入矩阵秩,在异质图上显著优于标准消息传递,并提出基于 PageRank 的非学习变体大幅降低复杂度。

Adaptive Riemannian Graph Neural Networks

提出 ARGNN 框架,为图上每个节点学习一个连续的、各向异性的对角黎曼度量张量,从而自适应地捕获图中不同区域(层级结构 vs 密集社区)的局部几何特性,统一并超越了固定曲率和离散混合曲率的几何 GNN 方法。

Are Graph Transformers Necessary? Efficient Long-Range Message Passing with Fractal Nodes in MPNNs

提出分形节点(Fractal Nodes)增强 MPNN 的长距离消息传递:通过 METIS 图划分生成子图级聚合节点,结合低通+高通滤波器(LPF+HPF)与可学习频率参数 \(\omega\),使用 MLP-Mixer 实跨子图通信,在保持 \(O(L(|V|+|E|))\) 线性复杂度的同时达到甚至超越图 Transformer 的性能,获 AAAI Oral。

Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation

提出 ARG-Designer,将多 Agent 系统的拓扑设计重新定义为条件自回归图生成任务,从零开始逐步生成 Agent 节点和通信边(而非从模板图剪枝),在6个基准上达到 SOTA(平均 92.78%),同时 Token 消耗比 G-Designer 降低约 50%,且支持无需重训练的角色扩展。

Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing

提出 SerenQA 框架,首次形式化定义知识图谱问答中的"意外发现"(serendipity)任务,包含基于信息论的 RNS 度量、专家标注的药物重定位基准数据集和三阶段评估流水线,揭示当前 LLM 在检索任务上表现尚可但在意外发现探索上仍有巨大改进空间。

Beyond Fixed Depth: Adaptive Graph Neural Networks for Node Classification Under Varying Homophily

提出 AD-GNN,通过理论分析节点级别的同配/异配特性,为每个节点自适应分配不同的聚合深度,在统一框架中同时处理同配和异配图上的节点分类任务。

BugSweeper: Function-Level Detection of Smart Contract Vulnerabilities Using Graph Neural Networks

提出 BugSweeper,通过构建函数级抽象语法图 (FLAG) 并设计两阶段 GNN 架构,实现无需专家规则的端到端智能合约漏洞检测,在重入攻击检测上 F1 达 98.57%。

Commonality in Few: Few-Shot Multimodal Anomaly Detection via Hypergraph-Enhanced Memory

提出 CIF,利用超图(hypergraph)提取少量训练样本的类内结构共性,指导 memory bank 的构建与搜索,在少样本多模态工业异常检测中取得 SOTA。

Connectivity-Guided Sparsification of 2-FWL GNNs Preserving Full Expressivity

Co-Sparsify 提出一种基于连通性感知的稀疏化框架,通过将 3-节点交互限制在双连通分量内、2-节点交互限制在连通分量内,消除可证明冗余的计算,在保持完整 2-FWL 表达力的同时显著提升效率,在合成子结构计数任务和 ZINC、QM9 等基准上取得 SOTA。

EchoLess: Label-Based Pre-Computation for Memory-Efficient Heterogeneous Graph Learning

Echoless-LP 通过分区聚焦的无回声传播(PFEP)消除标签预计算中多跳消息传递导致的训练标签泄露(回声效应),结合非对称分区方案(APS)和 PostAdjust 机制解决分区造成的信息损失和分布偏移,在保持内存高效的同时兼容任意消息传递方法,在多个异构图数据集上取得 SOTA 性能。

Enhancing Logical Expressiveness in GNNs via Path-Neighbor Aggregation

PN-GNN 提出在条件消息传递的基础上聚合推理路径上的邻居节点嵌入,以即插即用的方式增强 GNN 的逻辑规则表达力(严格超越 C-GNN),同时避免标注技巧(labeling trick)对泛化能力的损害,在合成数据集和真实知识图谱推理任务上均取得提升。

Posterior Label Smoothing for Node Classification

提出PosteL(Posterior Label Smoothing),通过贝叶斯后验分布从邻域标签中推导soft label用于节点分类,自然适应同质图和异质图,在8种backbone×10个数据集的80个组合中76个取得精度提升。

Relink: Constructing Query-Driven Evidence Graph On-the-Fly for GraphRAG

提出从"先构建再推理"到"边推理边构建"的GraphRAG范式转变,通过Relink框架动态构建查询特定的证据图——结合高精度KG骨架和高召回潜在关系池,用查询驱动的排序器统一评估、按需补全缺失路径并过滤干扰事实——在5个多跳QA基准上平均提升EM 5.4%和F1 5.2%。

RFKG-CoT: Relation-Driven Adaptive Hop-count Selection and Few-Shot Path Guidance for Knowledge-Aware QA

提出RFKG-CoT,通过关系驱动的自适应跳数选择(利用KG关系激活掩码动态调整推理步数)和Few-Shot路径引导(Question-Paths-Answer格式的in-context示例),在4个KGQA基准上显著提升LLM的知识图谱推理能力,GPT-4在WebQSP上达91.5%(+6.6pp),Llama2-7B提升幅度最大达+14.7pp。

S-DAG: A Subject-Based Directed Acyclic Graph for Multi-Agent Heterogeneous Reasoning

提出 S-DAG,通过 GNN 从问题中识别相关学科及其依赖关系构建有向无环图,将学科节点匹配到最擅长的专家 LLM(14 个 7-13B 领域模型),按 DAG 拓扑顺序协作推理(支撑学科→主导学科),用小模型池超越 GPT-4o-mini(59.73 vs 58.52)且接近 72B 模型。


🤖 机器人/具身智能

A Computable Game-Theoretic Framework for Multi-Agent Theory of Mind

提出基于 Poisson 认知层次(cognitive hierarchy)的博弈论框架,通过 Gamma-Poisson 共轭贝叶斯更新实现可计算的多智能体 Theory of Mind,在避免 POMDP 不可判定性的同时支持递归式有限理性决策与在线信念修正。

Adaptive Theory of Mind for LLM-based Multi-Agent Coordination

提出自适应心智理论智能体(A-ToM),将ToM阶数对齐建模为在线专家建议问题,通过FTL或Hedge算法实时估计伙伴的ToM阶数并动态调整自身推理深度,在重复矩阵博弈、网格导航和Overcooked等4类任务上实现鲁棒的零样本多智能体协作。

Affordance-Guided Coarse-to-Fine Exploration for Base Placement in Open-Vocabulary Mobile Manipulation

针对开放词汇移动操控中机器人基座选位问题,提出一种零样本框架,通过构建跨模态表征(Affordance RGB + Obstacle Map+)将语义affordance线索投射到障碍物地图上,再用粗到细迭代优化平衡语义和几何约束,在5个操控任务上达到85%成功率,大幅超越几何规划器和纯VLM方法。

Attention as Binding: A Vector-Symbolic Perspective on Transformer Reasoning

本文提出将Transformer自注意力机制重新解释为向量符号架构(VSA)中的软绑定/解绑定算子——Query/Key定义角色空间、Value编码填充项、注意力权重实现可微解绑定、残差连接实现叠加——从而以代数视角统一解释LLM在符号推理中的能力与脆弱性,并提出显式绑定头、超维记忆层等VSA启发的架构改进方向。

Causal Inference Under Threshold Manipulation: Bayesian Mixture Modeling and Heterogeneous Treatment Effects

提出 BMTM/HBMTM 贝叶斯混合模型框架,在消费者策略性操纵消费额以达到奖励阈值的场景下,通过将观测分布拆解为 bunching 与 non-bunching 两个子分布,准确估计阈值因果效应及跨子群的异质性处理效应。

Characterizing AI Manipulation Risks in Brazilian YouTube Climate Discourse

通过心理语言学框架分析巴西 YouTube 上 22.6 万条气候变化视频和 275 万条评论,揭示情感/道德修辞显著驱动用户互动,并展示微调 LLM 可自动生成高互动性的气候否认评论,警示生成式 AI 在舆论操控中的潜在风险。

Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling

提出 GRM 框架,通过模态内显著性/粒度感知适配器和基于高斯混合的区域级不确定性建模,实现鲁棒的细粒度图文对齐,在 Flickr30K 和 MS-COCO 上取得 SOTA。

EvoEmpirBench: Dynamic Spatial Reasoning with Agent-ExpVer

提出 EvoEmpirBench(EEB),包含两个动态交互式 benchmark(局部可观测迷宫导航 + 消消乐),以及 Agent-ExpVer 三智能体在线学习框架(GeoLink 交互 + InsightForce 经验抽象 + TruthWeaver 知识管理),通过"经验→验证→真理归纳"的认知循环实现无参数更新的持续策略进化,使 GPT-4.1 成功率提升 5.6%、Qwen-32B 提升 29%。

iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification

提出 iSeal——首个在模型窃取者完全控制推理过程的黑盒场景下仍能可靠验证 LLM 所有权的主动指纹方法,通过外部加密编码器 + RSC 纠错 + 相似度匹配三重机制,在 12 个 LLM、10+ 种攻击下均保持 100% 指纹成功率(FSR),而已有方法降至 0%。

Neural Graph Navigation for Intelligent Subgraph Matching

提出 NeuGN(Neural Graph Navigation)框架,首次将生成式神经导航集成到子图匹配的核心枚举阶段,通过 QSExtractor 提取查询图结构信号 + GGNavigator 将暴力枚举转为结构感知的候选节点优先排序,在保证完备性的同时将 First Match Steps 最高减少 98.2%。

Robust Out-of-Order Retrieval for Grid-Based Storage at Maximum Capacity

针对满载 2D 网格存储系统中检索顺序不确定的问题,提出 k-bounded perturbation 不确定性模型,证明 Θ(k) 列宽是零重定位的充要条件,并给出高效鲁棒存储求解器与贪心检索策略,当 k ≤ 0.5c 时几乎消除重定位,k 到达 c 时仍减少 50%+ 重定位。

Shadows in the Code: Exploring the Risks and Defenses of LLM-based Multi-Agent Software Development Systems

首次系统分析 LLM 多 Agent 软件开发系统(ChatDev/MetaGPT/AgentVerse)的安全风险:提出 IMBIA 攻击框架覆盖两种威胁场景(恶意用户+良性Agent / 良性用户+恶意Agent)和 12 种恶意行为(5 大恶意软件家族),攻击成功率高达 93%(ChatDev),并设计 Adv-IMBIA 对抗性防御将 ASR 降低 40-73%。

Towards Reinforcement Learning from Neural Feedback: Mapping fNIRS Signals to Agent Performance

提出 NEURO-LOOP 框架,利用 fNIRS(功能性近红外光谱)脑信号作为隐式神经反馈评估 RL agent 表现,发布 25 名被试 × 3 领域 × 6 条件的 fNIRS 数据集,分类 F1 达 67%(二分类)/ 46%(多分类),跨被试 fine-tuning 分别提升 17% 和 41%,奠定 Reinforcement Learning from Neural Feedback (RLNF) 基础。

Unintended Misalignment from Agentic Fine-Tuning: Risks and Mitigation

本文揭示了在良性 Agent 数据上微调 LLM 会导致意外的安全对齐偏移(攻击成功率增加 32-38%),并提出 PING(Prefix Injection Guard)——通过迭代生成+评估自然语言前缀来引导微调后的 Agent 拒绝有害请求,平均提升拒绝率 66%(Web)和 44%(代码),同时保持任务性能(仅降 1.8%)。


✂️ 语义分割

3DTeethSAM: Taming SAM2 for 3D Teeth Segmentation

将SAM2基础模型迁移到3D牙齿分割任务,通过多视角渲染将3D mesh转为2D图像、设计三个轻量适配器(Prompt生成器、Mask精化器、Mask分类器)和可变形全局注意力插件(DGAP)来解决自动提示、边界精化和语义分类问题,在Teeth3DS上以91.90% T-mIoU刷新SOTA。

A²LC: Active and Automated Label Correction for Semantic Segmentation

提出 A²LC 框架,在传统主动标签校正(人工逐一纠错)的基础上增加一个自动校正阶段(Label Correction Module),利用标注员的反馈自动修正相似的错误mask,并设计自适应平衡采集函数缓解类别不平衡,在 Cityscapes 上仅用 20% 预算即超越前 SOTA,同等预算下 mIoU 提升 27.23%。

Adaptive Morph-Patch Transformer for Aortic Vessel Segmentation

提出 Morph-Patch Transformer (MPT),通过基于速度场的自适应 patch 划分策略生成形态感知 patch(保持血管拓扑完整性),并引入语义聚类注意力(SCA)动态聚合语义相似 patch 的特征,在 AVT、AortaSeg24 和 TBAD 三个主动脉分割数据集上均达 SOTA。

Breaking the Stealth-Potency Trade-off in Clean-Image Backdoors with Generative Trigger Optimization

提出 Generative Clean-Image Backdoors (GCB),通过 Conditional InfoGAN (C-InfoGAN) 自动发现图像中天然存在且与分类任务无关的特征作为后门触发器,以极低投毒率(≤0.5%)实现高攻击成功率(≥90% ASR)且几乎不损伤干净准确率(CA drop ≤1%),首次打破了 clean-image backdoor 中隐蔽性与攻击力的固有矛盾。

Bridging Granularity Gaps: Hierarchical Semantic Learning for Cross-Domain Few-Shot Segmentation

提出 HSL 框架,通过双重风格随机化 (DSR)、层次语义挖掘 (HSM) 和原型置信度调制阈值 (PCMT) 三个模块,解决跨域少样本分割中源域和目标域之间的分割粒度差异问题,在四个目标域数据集上达到 SOTA。

Causal-Tune: Mining Causal Factors from Vision Foundation Models for Domain Generalized Semantic Segmentation

提出Causal-Tune,从因果视角分析VFM特征中的artifacts,利用DCT频域分解+高斯带通滤波分离因果/非因果因素,结合因果感知可学习token在频域精化特征,在Cityscapes→ACDC跨域分割中平均提升+2.4% mIoU(Snow场景+4.8%),仅需单卡RTX3090/14GB训练。

Do We Need Perfect Data? Leveraging Noise for Domain Generalized Segmentation

提出 FLEX-Seg 框架,将扩散模型合成数据中图像与语义掩码之间固有的边界不对齐(misalignment)转化为学习鲁棒表示的机会,通过粒度自适应原型 (GAP)、不确定性边界强调 (UBE) 和难度感知采样 (HAS) 三个模块,在域泛化语义分割任务上取得 SOTA。

EAGLE: Episodic Appearance- and Geometry-Aware Memory for Unified 2D-3D Visual Query Localization

提出 EAGLE 框架,借鉴鸟类记忆巩固机制,通过外观感知元学习记忆 (AMM) 驱动的分割分支与几何感知定位记忆 (GLM) 驱动的跟踪分支协同工作,结合 VGGT 实现高效的 2D-3D 统一视觉查询定位,在 Ego4D-VQ 基准上达到 SOTA。

Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter

首次将 DINOv2 引入水下实例分割任务,通过 AquaStyle Aligner(傅里叶频域风格注入)和 ObjectPrior Prompter(二值掩码先验提示)两个模块实现高效领域适配,在 UIIS 和 USIS10K 数据集上以更少参数大幅超越 SAM 基方法。

Empowering Semantic-Sensitive Underwater Image Enhancement with VLM

利用 VLM 生成空间语义引导图,通过 cross-attention 注入和语义对齐损失的双重引导机制,赋予水下图像增强网络语义感知能力,使增强结果同时有利于人类感知和下游检测/分割任务。

From Attribution to Action: Jointly ALIGNing Predictions and Explanations

提出 ALIGN 框架,通过联合训练可学习掩码生成器(masker)和分类器,迭代对齐模型归因图与任务相关区域掩码,同时提升预测准确性和可解释性,在 VLCS 和 Terra Incognita 域泛化基准上超越 6 个强基线。

Generalizable Slum Detection from Satellite Imagery with Mixture-of-Experts

提出 GRAM(Generalized Region-Aware Mixture-of-Experts),一个两阶段测试时自适应框架:第一阶段用 MoE 架构在12个城市的百万级卫星图像上训练区域特化专家,第二阶段通过跨区域预测一致性筛选可靠伪标签进行自训练,实现对未见非洲城市的贫民窟分割泛化。

Guideline-Consistent Segmentation via Multi-Agent Refinement

提出一个免训练的多智能体框架,通过 Worker(分割执行)和 Supervisor(指南验证)的迭代循环,配合 RL 自适应停止策略,实现严格遵循复杂文本指南的语义分割,在 Waymo 和 ReasonSeg 上分别超越 SOTA 8.61 和 5.5 gIoU。

InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer

提出InfoCLIP,基于信息论视角设计信息瓶颈压缩和互信息蒸馏两个目标,在CLIP微调过程中去除预训练pixel-text对齐中的噪声并保留语义对齐知识,在6个开放词汇语义分割测试集上全面超越SOTA(A-847: 16.6, A-150: 38.5, PC-59: 63.5 mIoU),且仅增加0.53M参数和极少计算开销。


🎵 音频/语音

DeepDebater: A Superpersuasive Autonomous Policy Debating System

提出 DeepDebater,首个能参与并赢得完整美式政策辩论赛的自主多 Agent 系统——层级式 Agent 工作流分工完成论证构建(正方 Advantage/反方 DA+CP+K),基于 OpenDebateEvidence 300 万张证据卡做检索增强,辅以 GPT-4o TTS 语音合成和 EchoMimic 数字人动画,在专家评估和模拟对局中全面超越人类编写的案例。

AHAMask: Reliable Task Specification for Large Audio Language Models without Instructions

通过对大音频语言模型(LALM)Transformer 骨干中的注意力头进行二值掩码(AHAMask),无需文本指令即可可靠触发特定声学任务功能,同时揭示了 LALM 内部存在"声学功能通路"。

Aligning Generative Music AI with Human Preferences: Methods and Challenges

综述/立场论文,系统梳理偏好对齐技术在音乐生成中的三条路线——MusicRL(大规模 RLHF,~30 万偏好对)、DiffRhythm+(扩散模型多偏好 DPO)、Text2midi-InferAlign(推理时树搜索,CLAP +29.4%),深入分析音乐领域独有的对齐挑战(多尺度时间连贯性、和声一致性、文化主观性、评估悖论),并给出未来路线图。

Cross-Space Synergy: A Unified Framework for Multimodal Emotion Recognition in Conversation

提出 Cross-Space Synergy(CSS)框架,通过表示空间的协同多项式融合(SPF)和梯度空间的 Pareto 梯度调节器(PGM)双管齐下,同时解决多模态对话情感识别中融合表达力不足和多目标梯度冲突两大难题。

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

提出 DeformTrace,将可变形动态感受野和中继令牌机制引入状态空间模型,结合 Transformer 的全局建模与 SSM 的高效推理,实现时序伪造定位的 SOTA 精度与显著效率提升。

Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning

提出 PRC-Emo 框架,通过显式/隐式情感提示、专用检索库和课程学习策略三位一体地提升 LLM 在对话情感识别(ERC)任务上的表现,在 IEMOCAP 和 MELD 两个基准上取得 SOTA。

DualSpeechLM: Towards Unified Speech Understanding and Generation via Dual Speech Token Modeling

提出 DualSpeechLM 框架,通过理解驱动语音分词器(USTokenizer)提取高层语义 token 作为 LLM 输入、声学 token 作为输出,在一个端到端框架中同时优化语音理解和生成能力。

End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering

提出 CLSR,一种端到端对比式语言-语音检索器,通过将声学表示先转换为 text-like representation 再与文本对齐,高效地从长音频中提取与问题相关的片段,为下游 LALM 的长语音问答提供 RAG 支持。

Generalizing Analogical Inference from Boolean to Continuous Domains

从基础理论层面重新审视类比推理:首先构造反例证明布尔域上经典泛化界失效,然后提出基于参数化广义均值的统一类比推理框架,将离散分类扩展到连续回归域。

GOMPSNR: Reflourish the Signal-to-Noise Ratio Metric for Audio Generation Tasks

通过引入全方位相位导数(omnidirectional phase derivatives)替换瞬时相位来重构 SNR 指标,提出 GOMPSNR 作为更可靠的音频质量评估指标,并衍生出一系列新的损失函数显著提升神经声码器性能。

Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR

提出多模态检索与选择方法 MARS,从对话历史中检索并筛选与当前语音最相关的上下文,仅用 1.5K 小时训练数据即超越使用 179K 小时数据的 SOTA 系统。

Hpsu A Benchmark For Human-Level Perception In Real-World Spoken Speech Understa

提出 HPSU 基准,包含 20,000+ 中英文专家标注样本和 16 项任务,系统评估 Speech LLM 在真实口语场景下的深层感知与推理能力,发现最强模型(Gemini 2.5 Pro,62.6%)与人类表现(87.3%)仍有巨大差距。

Let the Model Learn to Feel: Mode-Guided Tonality Injection for Symbolic Music Emotion Recognition

通过 MoGE 诊断策略系统发现 MIDIBERT 未有效编码调式-情感关联,提出 MoFi 注入框架通过 FiLM 机制将大调/小调先验注入 MIDIBERT 第 1 层(诊断确定的最弱情感信息层),在 EMOPIA 上准确率 75.2%(+11.8%),VGMIDI 上 59.1%(+11.8%),F1 提升 12.3%/15.5%。


⚡ LLM 效率

A Content-Preserving Secure Linguistic Steganography

提出首个内容保持型语言隐写术范式CLstega,通过微调掩码语言模型(MLM)来可控地变换预测分布,将秘密信息嵌入到不做任何修改的原始文本中,实现了100%提取成功率和近乎完美的安全性(隐写分析检测准确率接近随机猜测的0.5)。

Attention Retention for Continual Learning with Vision Transformers

提出ARCL-ViT框架,通过注意力掩码生成和梯度掩码两步策略防止ViT在持续学习中的注意力漂移,在ImageNet-R和CIFAR-100上取得SOTA结果,证明保持注意力模式是解决灾难性遗忘的关键。

Collaborative LLM Numerical Reasoning with Local Data Protection

提出一种大小模型协作框架,通过对本地查询进行"主题迁移+数值替换"的两阶段匿名化来保护敏感数据,同时让远端 GPT-4 以可执行 Python 代码(即插即用工具)形式返回推理方案,本地仅需做数值回代即可获得答案,在 FinQA 和 MultiHiertt 上准确率提升 16-44% 且数据泄露降低 2-45%。

Do Retrieval Augmented Language Models Know When They Don't Know?

系统分析RAG模型的拒绝校准问题,发现RALM在检索文档全部不相关时过度拒绝率超过55%(即使模型内部知识足够回答),提出结合不确定性估计和拒绝感知微调的机制来平衡拒绝与回答质量。

Factor(U,T): Controlling Untrusted AI by Monitoring their Plans

研究不可信 AI 做任务分解、可信 AI 做执行的 Factor(U,T) 协议安全性,发现监控分解计划的 AUROC 仅 0.52(接近随机),而监控具体代码实现可达 0.96——恶意意图在抽象计划中难以检测但在具体实现中暴露,结论是"结构性预防(可信分解器)优于事后监控"。

Harnessing the Unseen: The Hidden Influence of Intrinsic Knowledge in Long-Context Language Models

首次系统研究长上下文语言模型中参数知识(parametric knowledge)对生成的影响,发现其影响随上下文长度增长而增强,且现有方法提升外部检索能力会抑制参数召回能力,据此提出Hybrid Needle-in-a-Haystack测试来同时评估两种能力。

InterMoE: Individual-Specific 3D Human Interaction Generation via Dynamic Temporal-Selective MoE

提出 InterMoE,通过 Dynamic Temporal-Selective MoE 架构解决文本驱动的双人 3D 交互运动生成中的个体特征保持和语义忠实度问题:Synergistic Router 融合语义和运动学特征引导路由,Dynamic Temporal Selection 让专家动态选择关键时间帧,在 InterHuman 上 FID 降低 9%、InterX 上降低 22%。

Judge Q: Trainable Queries for Optimized Information Retention in KV Cache Eviction

提出Judge Q,在模型词表中引入可训练的soft token,训练其注意力模式对齐实际解码token的注意力模式,使其在prefill阶段能替代局部窗口查询来评估KV cache重要性,从而更好地保留全局信息,在LongBench上提升~1分,RULER上提升3+分。

Learning from the Undesirable: Robust Adaptation of Language Models without Forgetting

提出 Learning-from-the-Undesirable (LfU),一种面向 SFT 的正则化方法,通过对辅助模型施加梯度上升模拟"不良行为",再通过表示级一致性损失约束原模型与不良模型的内部表征保持一致,有效缓解有限数据微调中的过拟合、遗忘和对抗脆弱性问题。

MicroEvoEval: A Systematic Evaluation Framework for Image-Based Microstructure Evolution Prediction

提出 MicroEvoEval,首个面向图像级微观结构演化预测的标准化基准:涵盖 4 个代表性物理任务(平面波、晶粒生长、旋节分解、枝晶凝固)、14 个模型(5 个领域特定 + 9 个通用时空架构)、多维度评估(数值精度 + 物理保真度 + 计算效率),发现现代通用架构(如 VMamba)在长期稳定性和物理保真度上优于领域特定模型,且计算效率高一个数量级。

Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior

将 Agent 伦理行为引导建模为模型编辑任务(Behavior Editing),提出基于心理学道德理论的三层 BehaviorBench 基准,在 9 个开源模型和 20 个闭源模型上验证了模型编辑可以精确地将 Agent 引导向善意或恶意方向,且单次编辑可导致全局道德对齐偏移。

Think How Your Teammates Think: Active Inference Can Benefit Decentralized Execution

提出 AIM(Active Inference Modeling)框架,在去中心化多智能体强化学习中,不依赖通信机制,仅基于局部观测建模队友的主动推理过程(感知-信念-动作三重肖像),并通过准确性-相关性双重过滤机制选择性融合队友信念,在 SMAC、SMACv2、MPE 和 GRF 四大基准上取得最优或接近最优表现。


🔗 因果推理

CaDyT: Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis

提出 CaDyT,结合高斯过程连续时间动力学建模(Adams-Bashforth 积分器实现精确推断)和 MDL 最小描述长度原则进行结构搜索,同时解决不规则采样和因果结构识别两个挑战,在双质点弹簧/菱形图/Rössler 振荡器上大幅超越所有基线(AUPRC 0.79 vs 次优 0.39)。

Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs

提出 Owl 框架,通过结构因果模型将视觉/文本注意力建模为中介变量,引入 VTACR 指标量化跨模态注意力失衡,设计 VTACR 引导的自适应注意力调制 + 双路径对比解码策略,在 POPE 和 CHAIR 上实现 SOTA 的幻觉抑制效果。

Hallucinate Less by Thinking More: Aspect-Based Causal Abstention for Large Language Models

提出 ABCA(Aspect-Based Causal Abstention),一个生成前弃权框架:通过双 Agent 辩论发现"方面变量"(如学科、法律语境、时间框架)来激活 LLM 不同的知识分支,用 AIPW 双鲁棒估计器计算因果效应,基于质心角偏差(CAD)检测知识冲突(Type-1)或知识不足(Type-2),在 TruthfulQA 上达到 91.4% 准确率,不可回答问题识别率 96.4%(远超基线的 44%)。

I-CAM-UV: Integrating Causal Graphs over Non-Identical Variable Sets Using Causal Additive Models with Unobserved Variables

提出 I-CAM-UV 方法,通过对多个变量集不同的 CAM-UV 因果图结果进行一致性约束枚举,恢复因未观测变量而丢失的因果关系,并设计基于不一致代价单调性的最优优先搜索算法高效求解。

KTCF: Actionable Recourse in Knowledge Tracing via Counterfactual Explanations for Education

提出 KTCF,一种面向知识追踪(KT)的反事实解释生成方法,通过考虑知识概念间关系生成稀疏且可操作的反事实解释,并将其后处理为顺序化的教学指令,在有效性、稀疏性和可操作性指标上全面超越基线方法。

Learning Subgroups with Maximum Treatment Effects without Causal Heuristics

在 SCM 框架下证明最大处理效应子群必须具有同质点效应(定理1),在分区模型假设下证明最优子群发现可化简为标准监督学习(定理2),用 CART+Gini 指数即可实现——在 77 个 ACIC-2016 半合成数据集上均值处理效应 10.54(vs 次优 7.84),51.9% 排名第一。

MUG: Multi-agent Undercover Gaming — Hallucination Removal via Counterfactual Test for Multimodal Reasoning

MUG 将多 Agent 辩论(MAD)重新定义为"谁是卧底"社交推理游戏——通过图像反事实编辑(修改参考图片)引入信息不对称,让一个 Agent 持有修改后的图片作为"卧底",其他 Agent 通过推理和投票识别卧底(幻觉来源),在 HallusionBench 上 Qwen2.5VL-7B 从 46.4% 提升到 53.8%。

Skill Path: Unveiling Language Skills from Circuit Graphs

提出 Skill Path 概念及三步框架(分解-剪枝-因果中介),从电路图中提取语言模型特定技能的线性路径,定量验证了技能的分层性(Stratification)和包容性(Inclusiveness)两大猜想。

Sparse Additive Model Pruning for Order-Based Causal Structure Learning

提出 SARTRE 框架,利用随机化树嵌入与组稀疏回归学习稀疏加性模型,替代 CAM-pruning 中基于假设检验的冗余边修剪,在基于拓扑序的因果结构学习中实现显著加速且精度不降。


📈 时间序列

A Unified Shape-Aware Foundation Model for Time Series Classification

提出 UniShape——一个面向时间序列分类的基础模型,通过 shape-aware adapter 自适应聚合多尺度判别性子序列(shapelet),并结合原型对比预训练在实例和 shape 两个层面学习可迁移的 shapelet 表示,在 128 个 UCR 数据集上以 3.1M 参数达到 SOTA(平均准确率 87.08%),同时提供良好的分类可解释性。

AirDDE: Multifactor Neural Delay Differential Equations for Air Quality Forecasting

首个将神经延迟微分方程(NDDE)引入空气质量预测的框架,通过记忆增强注意力模块和物理引导的延迟演化函数,对污染物连续时间传播中的延迟效应进行建模,在三个数据集上平均 MAE 降低 8.79%。

Beyond Observations Reconstruction Error-Guided Irregularly Sampled Time Series

提出 iTimER,利用模型自身的重建误差分布作为学习信号——从观测点估计误差分布后采样生成未观测时刻的伪观测值,通过 Wasserstein 距离对齐观测/伪观测区域的误差分布 + 对比学习,在不规则采样时序的分类、插值、预测任务上全面超越 SOTA。

C3Rl Rethinking The Combination Of Channel-Independence And Channel-Mixing From

提出 C3RL,基于 SimSiam 对比学习框架将通道独立(CI)和通道混合(CM)策略视为同一数据的两个转置视图构建正样本对,通过孪生网络联合表示学习和预测学习,将 CI 模型的最佳性能率从 43.6% 提升到 81.4%,CM 模型从 23.8% 提升到 76.3%。

Cometnet Contextual Motif-Guided Long-Term Time Series Forecasting

提出 CometNet,通过从完整历史序列中提取循环出现的"上下文 motif"构建 motif 库,再用 motif 引导的 MoE 架构动态关联当前窗口与相关motif进行预测,突破了有限回看窗口的感受野瓶颈,在8个数据集上显著超越 TimeMixer++、iTransformer 等 SOTA。

Deepboots Dual-Stream Residual Boosting For Drift-Resilient Time-Series Forecast

提出 DeepBooTS,通过偏差-方差分解理论证明加权集成可降低方差从而缓解概念漂移,设计双流残差递减 boosting 架构,每个 block 的输出修正前一个 block 的残差,在多个数据集上平均提升 15.8%。

IdealTSF: Can Non-Ideal Data Contribute to Enhancing Time Series Forecasting?

提出 IdealTSF 框架,通过三阶段渐进式设计——负样本预训练(用稳定分布+多尺度噪声+结构删除模拟非理想数据)、正样本训练(混合平滑插值修复数据)、ECOS 优化器(对抗扰动引导到平坦极值)——使基础 attention 模型在含噪声/缺失的时序数据上获得约 10% 的性能提升。

SELDON: Supernova Explosions Learned by Deep ODE Networks

提出SELDON,一种结合masked GRU-ODE编码器、隐式Neural ODE传播器和可解释高斯基函数解码器的连续时间VAE,用于稀疏、不规则采样的天文光变曲线预测,在仅观测20%数据时即可超越基线方法做出准确的多波段通量预测。

Urban Incident Prediction with Graph Neural Networks: Integrating Government Ratings and Crowdsourced Reports

提出 URBAN(多视图多输出GNN模型),联合利用稀疏但无偏的政府检查评级数据和密集但有偏的众包报告数据来预测城市事件的真实潜在状态,在纽约市960万+报告和100万+检查数据上验证,预测相关性比仅用报告数据高5.3倍。


🎬 视频理解

3D4D: An Interactive Editable 4D World Model via 3D Video Generation

提出 3D4D,一个集成 WebGL 和 Supersplat 渲染的交互式 4D 可视化框架,通过四个后端模块(3D重建、图像生视频、视频分帧、4D场景生成)将静态图片和文本转化为可实时交互的 4D 场景,并引入 VLM 引导的注视点渲染策略在保持语义一致性的同时实现 60fps 实时交互。

APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval

提出APVR,一个训练免费的双粒度视觉信息检索框架:帧级别通过查询扩展+时空语义置信度打分迭代检索关键帧(最多1024帧),token级别通过查询感知的注意力驱动选择压缩视觉token,突破内存墙限制处理小时级长视频,在LongVideoBench/VideoMME/MLVU上分别提升最高9.5%/4.6%/9.7%。

Balancing Multimodal Domain Generalization via Gradient Modulation and Projection

提出 Gradient Modulation Projection (GMP) 策略,通过解耦分类与域不变梯度的调制(IGDM)以及冲突自适应梯度投影(CAGP),解决多模态域泛化中模态间优化不平衡和任务间梯度冲突问题,在多个基准上达到 SOTA。

BAT: Learning Event-based Optical Flow with Bidirectional Adaptive Temporal Correlation

提出双向自适应时序相关性(BAT)框架,将事件相机的时序密集运动线索转化为空间密集线索,实现高精度事件光流估计,在 DSEC-Flow 基准上排名第一。

Distillation Dynamics: Towards Understanding Feature-Based Distillation in Vision Transformers

提出"蒸馏动力学"分析框架(频谱分析+信息熵+激活幅值),揭示ViT具有独特的U型信息处理模式(先压缩后扩展),证明feature-based蒸馏在ViT中失败的根本原因是teacher后层的分布式高维编码范式与student有限通道容量之间的表征范式不匹配,而非简单的容量差距。

DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation

提出 DreamRunner 框架,通过 LLM 双层规划 + 检索增强运动先验学习 + 时空区域3D注意力模块(SR3AI),实现细粒度可控的多角色多事件故事视频生成。

MambaMia: State-Space Hierarchical Compression for Hour-Long Video Understanding in Large Multimodal Models

MambaMia 提出了基于双向 Mamba 的两阶段层次化视频 Token 压缩框架:门控 Patch 聚合(GPA)做空间-时间局部压缩 + 时间轴聚合器(TAA)利用 Mamba 的自适应步长 \(\Delta_t\) 做数据驱动的关键帧采样,将小时级视频压缩到仅 4.7K Token,在 LVBench 上达到 44.6 分超越 Qwen2-VL 和 mPLUG-Owl3。

VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

提出VIR-Bench——一个基于200个日本旅行vlog视频的benchmark,通过行程重建任务(visiting order graph构建)评估MLLM的地理空间和时间理解能力,发现SOTA模型(包括GPT-4.1和Gemini-2.5)在POI识别和时间转移推理上仍困难重重。


🖼️ 图像恢复

Blur-Robust Detection via Feature Restoration: An End-to-End Framework for Prior-Guided Infrared UAV Target Detection

提出 JFD3 端到端双分支框架,在特征域而非图像域进行去模糊,并利用频率结构先验引导检测网络,实现运动模糊条件下红外无人机目标的高精度实时检测。

Clear Nights Ahead: Towards Multi-Weather Nighttime Image Restoration

首次定义并探索多天气夜间图像复原任务,构建 AllWeatherNight 数据集(8K 训练 + 1K 合成测试 + 1K 真实测试),提出 ClearNight 统一框架通过 Retinex 双先验引导和天气感知动态专一性-共性协作,一阶段同时移除雾/雨条/雨滴/雪/flare 复合退化,仅 2.84M 参数全面超越 SOTA。

ClearAIR: A Human-Visual-Perception-Inspired All-in-One Image Restoration

受人类视觉感知(HVP)启发,提出一种从粗到细的统一图像复原框架 ClearAIR,通过 MLLM 质量评估 → 语义区域感知 → 退化类型识别 → 内部线索复用四阶段逐步恢复图像质量,在多种退化任务上取得 SOTA。

Hard vs. Noise: Resolving Hard-Noisy Sample Confusion in Recommender Systems via Large Language Models

提出 LLMHNI 框架,利用 LLM 产生的语义相关性和逻辑相关性两类辅助信号,解决推荐系统中困难样本与噪声样本难以区分的问题,显著提升去噪推荐性能。

ICLR: Inter-Chrominance and Luminance Interaction for Natural Color Restoration in Low-Light Image Enhancement

针对HVI色彩空间中色度和亮度分支分布差异大导致互补特征提取不足、以及色度分支间弱相关导致梯度冲突的问题,提出ICLR框架,通过双流交互增强模块(DIEM)和协方差校正损失(CCL)分别从融合增强和统计分布优化两个角度解决,在LOL系列数据集上取得SOTA。

SD-PSFNet: Sequential and Dynamic Point Spread Function Network for Image Deraining

提出基于动态 PSF 机制的级联 CNN 去雨网络 SD-PSFNet,通过多尺度可学习 PSF 字典建模雨滴光学效应,配合自适应门控融合的序列化修复架构,在 Rain100H 达 33.12 dB、RealRain-1k-L 达 42.28 dB 均为 SOTA,对比基线 MPRNet 累计提升 5.04 dB(13.5%)。

Seeing the Unseen: Zooming in the Dark with Event Cameras

提出首个事件驱动低光照视频超分辨率框架RetinexEVSR,通过Retinex启发的双向融合策略(光照引导事件增强+事件引导反射增强),在SDSD-indoor上较EvTexture提升2.95 dB且FLOPs减少86%、推理加速65%。


✍️ 文本生成

A Coherence-Based Measure of AGI

指出现有 AGI 评分用算术平均隐含"可补偿"假设(强项弥补弱项),提出基于广义均值连续谱的一致性度量 \(\text{AGI}_{\text{AUC}}\):在补偿性参数 \(p \in [-1, 1]\) 上积分,惩罚能力不均衡,暴露被算术平均掩盖的瓶颈。

AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research

提出 AutoMalDesc 自动化静态分析框架,通过迭代自步学习流水线——从 900 个专家标注种子样本出发,经 LoRA 微调 Llama-3.3-70B 生成伪标签,多阶段质量过滤后进行 V2 训练——实现 5 种脚本语言的恶意软件自动分类和行为描述,Batch 脚本检测准确率从 52.7% 提升到 82.4%。

C3TG: Conflict-aware, Composite, and Collaborative Controlled Text Generation

提出 C3TG 框架,通过两阶段方法实现多维度细粒度可控文本生成:生成阶段用加权 KL 散度融合属性分布调整 token 概率,优化阶段用能量函数(分类器分数 + 冲突惩罚项)结合 Feedback Agent 迭代重写,在 17 个属性子类上达到 90.4% 属性准确率且大幅降低毒性。

Magnitude Matters: A Superior Class of Similarity Metrics for Holistic Semantic Understanding

提出两种无参数、幅度感知的向量相似度度量——Overlap Similarity (OS) 和 Hyperbolic Tangent Similarity (HTS),在 4 个句子嵌入模型和 8 个 NLP 基准上,对分类任务(释义、推理)的 MSE 显著低于 Cosine Similarity 和 Dot Product,且无需任何额外训练开销。

Perspective from a Broader Context: Can Room Style Knowledge Help Visual Floorplan Localization?

提出利用房间风格知识(通过无监督聚类预训练获得的 room discriminator)来消除视觉楼层平面图定位中因重复结构导致的歧义,在 Gibson 和 Structured3D 两个标准基准上取得 SOTA 性能。

TAPA: Training-Free Adaptation of Programmatic Agents via LLM-Guided Program Synthesis in Dynamic Environments

TAPA 将 LLM 定位为符号动作空间的"智能调制器"而非直接决策者,通过 LLM 引导的程序合成动态适配程序化 Agent 的符号动作,无需重新训练即可适应动态环境,在网络安全 DDoS 防御(77.7% 网络正常运行率)和群体智能编队控制中表现优异。


📐 优化/理论

A Distributed Asynchronous Generalized Momentum Algorithm Without Delay Bounds

提出一种完全异步(totally asynchronous)的广义动量(Generalized Momentum)分布式优化算法,无需假设通信/计算延迟的上界即可保证线性收敛,在 Fashion-MNIST 分类任务上比梯度下降快 71%、比 Heavy Ball 快 41%、比 Nesterov 加速梯度法快 19%。

A Unified Convergence Analysis for Semi-Decentralized Learning: Sampled-to-Sampled vs. Sampled-to-All Communication

本文在统一的收敛分析框架下,首次系统比较了半去中心化联邦学习中两种服务器-设备通信原语(S2S仅返回被采样设备 vs. S2A广播给所有设备),揭示了S2S在高组间异质性下更优、S2A在低异质性下更优的不同regime,并给出了实用的系统配置指南。

BeeRNA: Tertiary Structure-Based RNA Inverse Folding Using Artificial Bee Colony

提出 BeeRNA,将人工蜂群(ABC)优化算法应用于 RNA 三级结构逆折叠问题,通过碱基对距离预筛选 + RMSD 两阶段适应度评估,在短/中长度 RNA(<100 nt)上超越深度学习方法 gRNAde 和 RiboDiffusion。

Beyond the Mean: Fisher-Orthogonal Projection for Natural Gradient Descent in Large Batch Training

提出 Fisher-Orthogonal Projection (FOP),通过在 Fisher 度量下对子批次梯度差做正交投影来补充方差信息,使二阶优化器 KFAC 在超大 batch 训练中保持有效,实现最高 ×7.5 的加速。

Explore How to Inject Beneficial Noise in MLLMs

提出 Multimodal Noise Generator (MuNG),通过变分推断框架从图文对中动态生成"有益噪声"注入冻结的MLLM视觉特征中,以抑制无关语义、增强跨模态表征对齐,仅需约1%额外参数即可超越全参数微调和LoRA等PEFT方法。

On the Learning Dynamics of Two-Layer Linear Networks with Label Noise SGD

在二层过参数化线性网络上理论分析 Label Noise SGD 的学习动力学,揭示了两阶段行为——Phase I 中权重范数逐渐缩小使模型从 lazy regime 逃逸到 rich regime,Phase II 中权重与真实插值器对齐并收敛——并将该理论扩展到 SAM 优化器。


🎁 推荐系统

Align³GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation

提出统一三层对齐框架 Align³GR,在 token 级(双端 SCID)、行为建模级(多任务 SFT)和偏好级(渐进式 DPO)系统性弥合 LLM 与推荐系统之间的语义-行为鸿沟。

AutoPP: Towards Automated Product Poster Generation and Optimization

提出 AutoPP,首个将商品海报自动生成与基于 CTR 反馈的自动优化统一到一个框架中的流水线,通过 unified design module 联合设计背景/文字/排版,element rendering module 高效可控地生成海报,并利用 Isolated DPO (IDPO) 实现元素级别的点击率优化。

FreqRec: Exploiting Inter-Session Information with Frequency-enhanced Dual-Path Networks for Sequential Recommendation

提出FreqRec双路径架构,通过batch维和时间维两条频域路径分别捕获跨session群体节律和用户个体细粒度兴趣,并引入频域一致性损失显式对齐预测与真实频谱,在三个Amazon数据集上NDCG@10最高提升7.38%。

From Parameter to Representation: A Closed-Form Approach for Controllable Model Merging

提出 ReACT,将可控模型合并从参数空间优化转移到表征空间校正,通过闭式解实现任意用户偏好下的 Pareto 最优模型即时生成,比现有方法快 36-208 倍且性能更优。

Inference-Aware Prompt Optimization for Aligning Black-Box Large Language Models

揭示 prompt 选择与推理策略(Best-of-N、Majority Voting)之间存在非平凡交互关系,提出 IAPO 框架将 prompt 设计与推理规模联合优化为上下文最优臂识别问题,并设计 PSST 固定预算训练算法,在 6 个任务上相比推理无关方法提升最高 50%。

Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation

提出WEARec模型结合动态频域滤波(DFF)和小波特征增强(WFE)两个模块,分别捕获个性化全局频域信息和增强非平稳短期波动,在四个公开数据集上超越频域推荐SOTA基线,长序列场景提升可达11.4%。


🛰️ 遥感

Asymmetric Cross-Modal Knowledge Distillation: Bridging Modalities with Weak Semantic Consistency

提出 Asymmetric Cross-modal Knowledge Distillation (ACKD) 新范式,通过 SemBridge 框架(包含自监督语义匹配 + 最优传输对齐两个即插即用模块)实现弱语义一致性条件下的跨模态知识蒸馏,使不同地理位置采集的多光谱(MS)图像能有效指导 RGB 图像的遥感场景分类。

Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments

将多个预训练感知模型在新环境中的冲突预测建模为一致性溯因推理问题,通过逻辑程序编码各模型的错误检测规则和领域约束,寻找在保持不一致率低于阈值的同时最大化预测覆盖率的最优假设,在15个航拍测试集上平均F1提升13.6%。

Debiasing Machine Learning Predictions for Causal Inference Without Additional Ground Truth Data

针对ML卫星贫困预测因均值回归导致因果处理效应衰减的问题,提出两种无需新标注数据的后处理校正方法——线性校准校正(LCC)和Tweedie局部去收缩——使同一预测地图可在多个下游因果试验中复用("一图多试"范式),Tweedie校正在模拟和DHS真实数据上实现近无偏的处理效应估计。

M3SR: Multi-Scale Multi-Perceptual Mamba for Efficient Spectral Reconstruction

提出 M3SR,基于 Mamba 的 U-Net 架构,通过多感知融合 (MPF) 模块在空间、频率和光谱三个维度并行建模并自适应融合,以 2.17M 参数和 100.9G FLOPs 实现 4 个基准上的 SOTA 高光谱重建(NTIRE2022 PSNR 31.40)。

Machine Learning for Sustainable Rice Production: Region-Scale Monitoring of Water-Saving Practices in Punjab, India

提出维度分类方法将水稻节水实践识别解耦为播种维度(DSR vs PTR)和灌溉维度(AWD vs CF)两个独立二分类任务,仅使用Sentinel-1 SAR影像实现播种F1=0.80和灌溉F1=0.74,并在旁遮普邦300万+地块上进行大规模推理,地区级采纳率与政府统计高度相关(Spearman ρ=0.69)。

TDCNet: Spatio-Temporal Context Learning with Temporal Difference Convolution for Moving IRSTD

提出 TDCNet,将时间差分和 3D 卷积融合为统一的时间差分卷积 (TDC),通过重参数化实现推理零额外开销,配合 TDC 引导的时空注意力,在自建 IRSTD-UAV 数据集上 F1 达 97.12%(AP50 93.83%),同时发布 15,106 帧真实红外无人机数据集。


🔄 自监督/表示学习

BCE3S: Binary Cross-Entropy Based Tripartite Synergistic Learning for Long-tailed Recognition

提出 BCE3S,一种基于二元交叉熵(BCE)的三方协同学习框架,将 BCE 式联合学习、BCE 式对比学习和 BCE 式分类器均匀性学习集成在一起,通过 Sigmoid 解耦不同类别的度量来抑制长尾不平衡效应,在 CIFAR10/100-LT、ImageNet-LT 和 iNaturalist2018 上均取得 SOTA。

Explainable Melanoma Diagnosis with Contrastive Learning and LLM-based Report Generation

提出 CEFM 框架,通过跨模态对比学习将 ViT 视觉特征与基于 ABCD 规则的临床特征(不对称性、边界、颜色)对齐,再由 CLIP + DeepSeek 生成结构化诊断报告,在 ISIC 数据集上达到 92.79% 准确率和 0.961 AUC,专家评分可解释性达 4.6/5。

Explanation-Preserving Augmentation for Semi-Supervised Graph Representation Learning

提出EPA-GRL(Explanation-Preserving Augmentation),利用少量标签训练的GNN explainer识别图的语义子图(explanation subgraph),增强时只扰动非语义部分(marginal subgraph),实现语义保持的图增强,在6个benchmark上显著优于语义无关的随机增强方法。

Improving Region Representation Learning from Urban Imagery with Noisy Long-Caption Supervision

提出 UrbanLN 框架,通过长文本感知的位置编码插值策略和数据-模型双层噪声抑制机制,改善基于 LLM 生成描述的城市区域表征学习。

Let The Void Be Void Robust Open-Set Semi-Supervised Learning Via Selective Non-

提出 SkipAlign 框架,在对比学习的传统 pull/push 操作之外引入第三种 "skip" 操作,对低置信度样本选择性跳过对齐(只做温和排斥),使 ID 类形成紧凑"星系"、OOD 样本自然散布于"星际虚空",在未见过的 OOD 检测中平均 AUC 提升 +3.1,最高 +7.1。


📡 信号/通信

Beyond Perplexity: Let the Reader Select Retrieval Summaries via Spectrum Projection Score

提出 Spectrum Projection Score (SPS) 这一无需训练的指标,通过衡量摘要 token 嵌入与 reader LLM 主子空间的对齐程度来评估检索摘要质量,替代传统困惑度指标。结合 xCompress 推理时控制器,在 5 个 QA 数据集上显著优于基于困惑度的方法(HotpotQA EM +3.6)。

GateRA: Token-Aware Modulation for Parameter-Efficient Fine-Tuning

提出 GateRA,在 PEFT 方法(LoRA/DoRA/HiRA)中引入轻量级 token 感知门控模块,通过 sigmoid 门控动态调整每个 token 的适配强度——对分布内/简单 token 抑制更新以保留预训练知识,对挑战性 token 放大适配。结合熵正则化促进近二值门控决策,在常识推理(+1.1%)、对话和数学推理上一致优于 HiRA。

Task Aware Modulation Using Representation Learning For Upsaling Of Terrestrial

提出 TAM-RL 框架,将陆地碳通量升尺度问题建模为零样本回归迁移学习任务,用 BiLSTM 任务编码器+FiLM 调制结合碳平衡方程知识引导损失,在 150+ 通量塔站点上将 GPP RMSE 降低 9.6%、NEE R² 提升 43.8%(相较 FLUXCOM-X-BASE)。

Text-Guided Channel Perturbation And Pretrained Knowledge Integration For Unifie

提出 UP-Fusion 统一多模态图像融合框架,通过语义感知通道剪枝 (SCPM)、几何仿射调制 (GAM) 和 CLIP 文本引导通道扰动 (TCPM) 三个模块,用单组权重(仅在红外-可见光数据上训练)同时处理 IVIF 和医学图像融合,在两类任务上均达到 SOTA。

Toward Gaze Target Detection in Young Autistic Children

针对自闭症儿童注视目标检测中面部注视(6.6%)严重不足的类别不平衡问题,提出 Socially Aware Coarse-to-Fine (SACF) 框架,用微调的 Qwen2.5-VL 作为社交上下文感知门控,将输入路由到社交感知/社交无关两个专家模型,在首创的 AGT 数据集上显著提升了面部注视检测性能(Face L2 在 Sharingan 上降低 13.9%, F1 从 0.753 提升至 0.761)。


🧮 科学计算

Just Few States are Enough: Randomized Sparse Feedback for Stability of Dynamical Systems

提出随机稀疏反馈控制框架:控制器在每个时间步仅访问状态向量的随机子集,通过 LMI 联合设计反馈增益矩阵和 Bernoulli 稀疏化参数,在保证渐近均方稳定性(AMSS)的同时最小化所需传感器数量,实验中仅用 0.3% 的状态分量即可达到与全状态反馈可比的性能。

PhysicsCorrect: A Training-Free Approach for Stable Neural PDE Simulations

提出 PhysicsCorrect,一种无需训练的校正框架,通过将 PDE 残差校正建模为线性化逆问题并预计算伪逆缓存,在推理时以 <5% 计算开销实现最高 100× 误差降低,适用于 FNO/UNet/ViT 等任意预训练神经算子。

Pimrl Physics-Informed Multi-Scale Recurrent Learning For Burst-Sampled Spatiote

提出 PIMRL 框架,针对 burst 采样(短段高频+长间隔)的稀疏时空数据,结合宏观尺度潜空间推理和微观尺度物理校正的双模块架构,通过跨尺度消息传递融合信息,在 5 个 PDE 基准上将误差最多降低 80%。

Scientific Knowledge-Guided Machine Learning for Vessel Power Prediction: A Comparative Study

提出物理基线+数据驱动残差的混合建模框架,将海试功率曲线(螺旋桨定律 \(P=cV^n\))作为基线,用 XGBoost/NN/PINN 学习残差修正,在稀疏数据区域显著提升外推稳定性和物理一致性。


🔎 AIGC 检测

ActiShade: Activating Overshadowed Knowledge to Guide Multi-Hop Reasoning in Large Language Models

提出ActiShade框架,通过高斯噪声扰动检测LLM在多跳推理中被"遮蔽"的关键短语,结合定制对比学习检索器获取补充文档,迭代重构查询以减少知识遮蔽导致的错误累积,在HotpotQA/2WikiMQA/MuSiQue上显著超越DRAGIN等SOTA。

BAID: A Benchmark for Bias Assessment of AI Detectors

提出 BAID 基准数据集(20.8万样本对,覆盖7类偏见维度、41个子群体),系统评估4个开源 AI 文本检测器在不同人口统计和语言学子群体上的公平性表现,揭示检测器对方言、非正式英语和少数群体文本存在显著的召回率差异。

Optimized Algorithms for Text Clustering with LLM-Generated Constraints

提出 LSCK-HC 框架,利用 LLM 生成集合形式的 must-link/cannot-link 约束(而非传统成对约束),配合带惩罚项的局部搜索聚类算法,在5个短文本数据集上实现与 SOTA 可比的聚类精度,同时将 LLM 查询次数减少 20 倍以上。


📖 NLP 理解

Language Models and Logic Programs for Trustworthy Tax Reasoning

将税法推理重新定义为语义解析任务,让LLM将法规文本和纳税案例翻译为Prolog逻辑程序,由符号求解器执行计算,通过金标准法规+智能检索案例示例+自一致性检查,在SARA数据集上实现86/100的正确率,并将预计部署成本降至15.78美元/人(低于美国人均报税成本的6%)。

NeSTR: A Neuro-Symbolic Abductive Framework for Temporal Reasoning in Large Language Models

提出 NeSTR 神经符号提示策略,通过将自然语言时间事实转化为结构化符号谓词,结合一致性验证和溯因反思修正,在零样本设置下让 LLM 实现高质量时间推理,GPT-4o-mini 上平均 F1 达 89.7(相比 vanilla 64.9 和 TISER 85.8)。


⚛️ 物理学

Adaptive Fidelity Estimation for Quantum Programs with Graph-Guided Noise Awareness

提出 QuFid 框架,将量子电路建模为有向无环图,通过控制流感知的随机游走刻画噪声传播,利用算子谱特征量化电路复杂度,实现自适应测量预算分配,在保持保真度精度的同时大幅减少测量次数。

Data Verification is the Future of Quantum Computing Copilots

这是一篇 position paper,提出量子计算 AI 助手(Copilot)必须将数据验证从事后过滤提升为架构级基础——通过三个立场论证:(1) 验证数据是最低要求,(2) 先验约束优于后验过滤,(3) 受物理定律约束的科学领域需要验证感知架构。实验表明无验证数据的 LLM 在电路优化上最高仅达 79% 准确率。


🌍 地球科学

MdaIF: Robust One-Stop Multi-Degradation-Aware Image Fusion with Language-Driven Semantics

提出 MdaIF 框架,利用视觉语言模型(VLM)提取退化感知语义先验来引导混合专家(MoE)路由和通道注意力调制,实现无需退化类型标注的一站式多退化场景红外-可见光图像融合。


📂 其他

A Fast Heuristic Search Approach for Energy-Optimal Profile Routing for Electric Vehicles

提出基于多目标A搜索的label-setting方法(Pr-A),在初始电量未知时高效求解电动车能耗最优路径(profile搜索),通过profile支配关系剪枝避免传统方法中复杂的profile合并操作,在大规模路网上性能接近已知初始电量的标准A*搜索。

A Graph-Theoretical Perspective on Law Design for Multiagent Systems

将多智能体系统中的法律设计问题(包括"有用法律"和"无责任缺口法律")形式化为超图上的顶点覆盖问题,证明了两类法律最小化问题都是NP-hard的,并给出了基于超图顶点覆盖近似算法的多项式时间近似方案。

A Mind Cannot Be Smeared Across Time

从 Stack Theory 出发形式化证明:在时间窗口内的存在性时序实现不保持合取——系统可以跨时间实现意识体验的每个成分而永远不在同一时刻实例化它们的合取,从而区分 Chord(共时性必要)和 Arpeggio(序列即可)两个意识假设,论证纯序列硬件上的软件意识在 Chord 假设下不可能。

A New Strategy for Verifying Reach-Avoid Specifications in Neural Feedback Systems

提出 FaBRe(Forward and Backward Reachability)策略,开发神经反馈系统后向可达集的过近似和欠近似算法(Golden Section Search / Iterative Convex Hull / Largest Empty Box),并将其与现有前向可达性分析结合,构建统一的 reach-avoid 验证框架。

A Phase Transition for Opinion Dynamics with Competing Biases

在有向随机图上建模两种对立力量(外部颠覆性偏差 vs 个体顽固性)对二元观点传播的影响,证明系统存在尖锐相变:偏差超过临界阈值 \(p_c\) 时群体快速达成新共识,低于阈值则长期处于亚稳极化状态,且临界点仅由度序列的两个简单统计量决定。

A Switching Framework for Online Interval Scheduling with Predictions

针对不可撤销的在线区间调度问题,提出 SemiTrust-and-Switch 框架和 SmoothMerge 随机算法,通过在信任预测和经典贪心算法之间切换/融合,在预测准确时趋近最优(一致性),预测错误时性能优雅退化(鲁棒性和平滑性),并证明了该框架在特定实例上的紧性。

A Topological Rewriting of Tarski's Mereogeometry

本文在Coq定理证明器中,基于λ-MM库(Leśniewski部分整体论的类型论实现),将Tarski的实体几何(geometry of solids)重新用拓扑学语言改写:先证明部分整体论的类(m-class)对应正则开集从而构成拓扑空间,再证明Tarski几何形成该拓扑的子空间并满足Hausdorff(T₂)分离性质,从而为定性空间推理提供了一个统一的、机器验证的部分整体论-几何-拓扑理论。

Adaptive Evidential Learning for Temporal-Semantic Robustness in Moment Retrieval

提出 DEMR 框架,将深度证据回归(DER)引入视频时刻检索任务,通过 Reflective Flipped Fusion 模块缓解模态不平衡、通过 Geom-regularizer 修复原始 DER 中不确定性估计的反直觉偏差,在标准和去偏数据集上均取得了显著提升。

Agent-SAMA: State-Aware Mobile Assistant

提出Agent-SAMA,首次将有限状态机(FSM)引入移动端GUI Agent,将UI屏幕建模为状态、用户操作建模为转移,通过四个专门化Agent协作实现状态感知的任务规划、执行验证和错误恢复,在跨App基准上成功率提升最高12%、恢复率提升13.8%。

Align When They Want, Complement When They Need! Human-Centered Ensembles for Adaptive Human-AI Collaboration

揭示了人机协作中"互补性"(complementarity)与"对齐性"(alignment)之间存在根本性权衡——单一模型无法同时优化二者,提出自适应AI集成框架,通过Rational Routing Shortcut(RRS)机制在对齐模型和互补模型之间动态切换,团队准确率较标准AI提升最高9%。

AMS-IO-Bench and AMS-IO-Agent: Benchmarking and Structured Reasoning for Analog and Mixed-Signal Integrated Circuit Input/Output Design

提出AMS-IO-Agent,一个基于LLM的领域专用智能体,通过结构化意图图(Intent Graph)和领域知识库将自然语言设计意图转化为可生产的模拟混合信号IC I/O环设计,配套提出首个AMS I/O环自动化基准AMS-IO-Bench,在28nm CMOS流片中验证了智能体生成的I/O环可直接用于实际芯片制造。

An Epistemic Perspective on Agent Awareness

本文首次将 agent awareness(智能体感知/意识)视为一种知识形式,区分了 de re(关于物理对象的)和 de dicto(关于概念/描述的)两种感知模态,并基于 2D 语义学提出了一个可靠且完备的逻辑系统来刻画这两种模态与标准"事实知识"模态之间的相互作用。

Approximation Algorithm for Constrained k-Center Clustering: A Local Search Approach

研究带 cannot-link (CL) 和 must-link (ML) 实例级约束的 k-center 聚类问题,提出基于支配匹配集(dominating matching set, DMS)转化的局部搜索框架,在不相交 CL 集条件下首次通过局部搜索达到最优近似比 2,解决了该领域一个开放问题。

Area-Optimal Control Strategies for Heterogeneous Multi-Agent Pursuit

研究异构速度下多追逐者-单逃避者的追逃博弈——定义逃避者安全可达集为所有追逐者-逃避者对的 Apollonius 圆的交集,将捕获策略建模为追逐者最小化/逃避者最大化该交集面积的零和博弈,推导出闭式瞬时最优航向控制律,仿真验证追逐者可系统性缩小安全区域实现保证捕获。

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

通过机械可解释性方法逆向工程 Video Vision Transformer(ViViT)的内部电路,揭示注意力头负责"收集证据"、MLP 模块负责"组合概念"的分工机制,证明模型在简单分类任务中隐藏了超越训练目标的语义知识。

Automated Reproducibility Has a Problem Statement Problem

提出基于科学方法的可复现性形式化问题定义,将经验性AI研究表示为假设-实验-解释的图结构,并用LLM自动从20篇论文中提取该结构,经原作者评审验证其有效性。

Autonomous Concept Drift Threshold Determination

证明了固定阈值不可能在所有场景下最优、动态阈值严格优于静态阈值,并提出DTD算法:在漂移检测信号触发后启动三模型比较阶段,根据候选模型表现自适应调整检测阈值。

Bilevel MCTS for Amortized O(1) Node Selection in Classical Planning

提出双层MCTS(Bilevel MCTS),在MCTS选中的叶节点处运行深度比例预算的最优优先搜索,将节点选择均摊复杂度从 \(O(\log N)\) 降至 \(O(1)\),辅以树崩塌(Tree Collapsing)减少动作选择步数,最终整合为 Nεbula 规划器,在IPC2018/2023基准上以192.2/230.6解题数(5min/30min)超越LAMA、DecStar、NOLAN、SM-Type-LAMA等全部SOTA。

Extreme Value Monte Carlo Tree Search for Classical Planning

利用 Peaks-Over-Threshold 极值理论(POT EVT)为经典规划中 MCTS 的 Full Bellman Backup 提供统计理论基础,提出 UCB1-Uniform bandit 算法,用均匀分布(Generalized Pareto 的特例)的 MLE 估计指导动作选择,在 Pyperplan 上以 \(10^4\) 节点预算超越 GBFS 67.8 个实例、超越 Softmin-Type(h) 33.2 个实例。

FourierPET: Deep Fourier-based Unrolled Network for Low-count PET Reconstruction

发现低剂量 PET 的三类退化在频域可分离——泊松噪声/光子不足导致高频相位扰动,衰减校正误差抑制低频幅度——据此提出 FourierPET:基于 ADMM 展开的频率感知重建框架,仅 0.44M 参数在三个数据集上全面 SOTA。

GOAL: Geometrically Optimal Alignment for Continual Generalized Category Discovery

基于 Neural Collapse 理论,使用固定等角紧框架(ETF)分类器替代动态分类器,通过监督对齐和置信度引导的无监督对齐实现持续泛化类别发现,在四个基准上遗忘率降低 16.1%、新类发现提升 3.2%。

CAE: Hierarchical Semantic Alignment for Image Clustering

结合名词级(WordNet)和描述级(Flickr 图片描述)两种互补语义,通过最优传输对齐构建语义空间并自适应融合,实现 training-free 的图像聚类,在 ImageNet-1K 上准确率提升 4.2%。

MeshA*: Efficient Path Planning With Motion Primitives

提出 MeshA 算法,将 lattice-based 路径规划从"在运动基元层面搜索"转变为"在网格单元层面搜索并同时拟合基元序列",通过定义"扩展网格单元"(extended cell)新搜索空间,在保证完备性和最优性的同时,实现相比标准 LBA 1.5x-2x 的运行时加速。

Symbolic Planning and Multi-Agent Path Finding in Extremely Dense Environments with Unassigned Agents

提出 Block Rearrangement Problem (BRaP) 形式化定义,并设计五种基于配置空间搜索、PDDL 符号规划和 MAPF 的求解算法,其中 BR-LaCAM 在最大 80×80 的极端密集网格上达到 92% 成功率和毫秒级求解速度。

TaylorPODA: A Taylor Expansion-Based Method to Improve Post-Hoc Attributions for Opaque Models

在Taylor展开框架下提出精确性(precision)、联合性(federation)、零偏差(zero-discrepancy)三个公设规范特征归因,并引入自适应属性(adaptation)通过AUP目标优化交互效应的分配权重,成为唯一同时满足所有公设和属性的事后模型无关归因方法。