跳转至

📖 NLP 理解

🧠 NeurIPS2025 · 共 11

AgentiQL: An Agent-Inspired Multi-Expert Framework for Text-to-SQL Generation

提出 AgentiQL,一个多专家 agent 框架用于 Text-to-SQL:reasoning agent 分解问题为子问题,coding agent 生成子查询,refinement 步骤校正列选择,adaptive router 在基线解析器和模块化 pipeline 之间智能路由,使用 14B 开源模型达到 86.07% EX(Spider),接近 GPT-4 SOTA(89.65%)。

Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abilities of Large Language Models

构建Braingle Brainteaser基准(242数学+236逻辑谜题),系统评估LLM在脑筋急转弯上的推理策略——发现模型有时能产生创造性洞察式解法,但也常在有巧妙解法可用时退回暴力穷举,且自纠错能力有限、将叙事→数学格式翻译可小幅提升性能。

Efficient Semantic Uncertainty Quantification in Language Models via Diversity-Steered Sampling

提出 diversity-steered sampling 框架:在解码时注入基于 NLI 的语义相似度惩罚来驱动生成语义多样化的样本,并用重要性加权+控制变量纠正偏差降低方差,在仅 16 个样本下即可准确估计 LLM 的语义熵(偶然不确定性)和互信息(认知不确定性)。

Generalization Error Analysis for Selective State-Space Models Through the Lens of Attention

将选择性SSM(Mamba)展开为注意力形式,利用覆盖数技术推导出受连续时间状态矩阵谱横断面\(s_{\mathbf{A}}\)控制的泛化界——\(s_{\mathbf{A}}<0\)时泛化界与序列长度无关,\(s_{\mathbf{A}}\geq0\)时指数增长,并证明这种依赖不可消除。

How Data Mixing Shapes In-Context Learning: Asymptotic Equivalence for Transformers with MLPs

在高维渐近框架下证明了带非线性MLP头的Transformer在ICL误差上等价于结构化多项式预测器,揭示了非线性MLP对非线性任务的增益机制,以及多源数据混合中低噪声和结构化协方差是高质量数据源的关键特征。

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

提出PNLC方法,通过训练轻量级目标条件价值函数作为"自然语言评论家",在推理步骤层面引导LLM智能体进行多轮规划和自我精化,无需直接微调或推理时搜索,在Web导航、社交推理、劝服等复杂交互任务上显著超越现有方法且推理速度快8-10倍。

Retrieval-Augmented Generation for Reliable Interpretation of Radio Regulations

针对无线电法规这一法律敏感的高风险领域,设计了专用 RAG 管道并构建了首个 ITU 无线电法规多选题评估集,检索准确率达 97%,在 GPT-4o 上实现 +11.9% 的问答准确率提升,远超直接将文档塞入 prompt 的方式。

SeCon-RAG: A Two-Stage Semantic Filtering and Conflict-Free Framework for Trustworthy RAG

提出 SeCon-RAG 两阶段防御框架,第一阶段用聚类+语义图联合过滤毒化文档,第二阶段在推理时做冲突感知过滤,在5个LLM和3个QA数据集上全面超越现有RAG防御方法,在100%投毒率下仍保持高准确率和极低攻击成功率。

Text-to-Code Generation for Modular Building Layouts in Building Information Modeling

提出 Text2MBL 框架,将自然语言描述转化为可执行的 BIM 代码(而非坐标序列),通过面向对象的代码架构和 LLM 微调实现模块化建筑布局的自动生成,在几何一致性上比坐标驱动方法提升 10%+ IoU。

The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation

通过 AttnLRP 归因方法系统解剖 LLM 在 in-context retrieval augmented QA 中的内部机制,发现三类功能特化的注意力头——Task heads(中间层,解析指令/问题)、Retrieval heads(后层,逐字复制上下文答案)、Parametric heads(编码参数化知识),并通过 Function Vector 注入和来源追踪探针验证其功能,在 Llama-3.1/Mistral/Gemma 上 ROC AUC ≥94%。

Weak-to-Strong Generalization under Distribution Shifts

发现朴素的弱到强泛化 (weak-to-strong generalization) 在分布偏移下会失败(强模型表现甚至不如弱监督者),提出 RAVEN 框架通过动态学习弱模型的最优组合权重来实现鲁棒的弱到强泛化,在 OOD 任务上超越基线 30%+。