跳转至

✍️ 文本生成

🧠 NeurIPS2025 · 共 11

Bayesian Evaluation of Large Language Model Behavior

提出基于 Beta-Binomial 贝叶斯模型的 LLM 行为评估框架,通过对每个 prompt 的随机生成结果建模 \(\theta_m\) 后验分布,量化评估指标的统计不确定性,并引入 Thompson sampling 等序贯采样策略以更少的 API 调用获得更窄的置信区间。

Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs

提出 Arnold 调度系统,通过将 LLM 训练的通信模式(DP/PP group)与数据中心物理网络拓扑对齐,在模拟中将通信组最大跨度减少 1.67x,在 9600+ GPU 生产级训练中端到端性能提升 10.6%。

How Does Sequence Modeling Architecture Influence Base Capabilities of Pre-trained Language Models?

通过"限定领域预训练 + OOD 测试"的评估框架揭示 Mamba/RWKV 等 stateful 架构存在基础能力退化,并归纳出关键设计原则——"全序列任意选择能力"(full-sequence visibility + real relation calculation + non-uniform distribution),用极简的 Top-1 Element/Chunk Selection 架构验证该原则可恢复至接近 Transformer 的基础能力。

KScope: A Framework for Characterizing the Knowledge Status of Language Models

提出LLM知识状态的五分类法(一致正确/冲突正确/缺失/冲突错误/一致错误)和KScope层次化统计检验框架,通过重复采样+多步假设检验精确刻画LLM对给定问题的知识模式结构,并系统研究上下文如何更新各状态,发现受约束的上下文摘要+增强可信度平均提升4.3%的知识更新成功率。

Learning to Solve Complex Problems via Dataset Decomposition

提出Decomp方法,利用教师模型将复杂数学题按推理步骤递归分解为更简单的子问题,构建概念依赖图量化难度,再按从易到难的课程顺序训练学生模型——Qwen2.5-1.5B在MATH-500上达51.6%(超MuggleMath用147K数据的50.4%),Qwen3-4B在AIME2025仅用385样本达16.7%(超Qwen2.5-72B的15%)。

MaintainCoder: Maintainable Code Generation Under Dynamic Requirements

首次系统定义并解决 LLM 代码生成的可维护性问题,同时贡献基准和方法:MaintainBench 通过 4 种需求变化模式 + 动态指标评测代码在需求演化下的可维护性;MaintainCoder 将 Waterfall 模型、设计模式与 6 个专业化 Agent 结合,动态可维护性指标提升 60%+,且初始代码正确性也一并提高。

Precise Information Control in Long-Form Text Generation

提出Precise Information Control (PIC)任务——要求LLM生成的长文严格基于给定声明集合(不遗漏不添加),构建PIC-Bench评测8个任务发现SOTA模型70%以上生成包含忠实性幻觉,通过弱监督偏好数据构建+DPO训练的PIC-LM将8B模型F1从69.1%提升至91.0%。

Program Synthesis via Test-Time Transduction

提出 SYNTRA 框架,将程序合成重新定义为转导式学习——在测试时利用可见的 test inputs 和 LLM 的判断来迭代消除不一致的候选程序假设,通过 greedy maximin 算法最小化 LLM 查询次数,在 4 个 benchmark 上准确率提升最高达 196%。

SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

构建全自动化流水线从 GitHub 持续挖掘真实软件工程交互任务,生成 21,000+ 可执行 Python 任务的 SWE-rebench 数据集和去污染 benchmark,揭示部分模型在 SWE-bench Verified 上的性能存在污染膨胀问题(如 DeepSeek-V3 在 SWE-bench 上 39.7% vs SWE-rebench 上 21.3%)。

Time Travel is Cheating: Going Live with DeepFund for Real-Time Fund Investment Benchmarking

提出 DeepFund——首个实时基金投资 benchmark 工具,通过多智能体架构(Financial Planner + Analyst Team + Portfolio Manager)连接实时股市数据,避免传统回测中 LLM "时间旅行"导致的信息泄露问题。在 24 个交易日的实盘测试中,9 个旗舰 LLM 只有 Grok 3 实现盈利,揭示了当前 LLM 在主动基金管理中的重大局限。

URLs Help, Topics Guide: Understanding Metadata Utility in LLM Training

系统评估了三类元数据(URL、质量分数、主题/格式域信息)作为预训练上下文的效果:发现只有 URL 能加速训练(100B token 用 60B 即达到相同下游性能),且仅在长 prompt(5-shot)下有效;质量分数和主题域信息不加速训练但可用于 classifier-free guidance 实现可控生成。