💻 代码智能¶
🔬 ICLR2026 · 21 篇论文解读
- Ambig-SWE: Interactive Agents to Overcome Underspecificity in Software Engineering
-
构建 Ambig-SWE(基于 SWE-Bench Verified 的欠指定变体),系统评估 LLM 编程 agent 在三个维度上的交互能力——检测欠指定、提出澄清问题、利用交互信息——发现交互可将欠指定场景下的解决率提升最高 74%,但模型默认非交互行为且难以区分指定充分/不足的指令。
- Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation
-
针对图表到代码生成任务中SFT的性能瓶颈问题,提出多模态结构化强化学习(MSRL),通过文本+视觉双层奖励函数和两阶段RL策略,在ChartMimic和ReachQA上分别提升6.2%和9.9%的高层指标,达到开源SOTA并媲美GPT-4o。
- CARD: Towards Conditional Design of Multi-agent Topological Structures
-
CARD提出了一种条件图生成框架(Conditional Agentic Graph Designer),通过条件变分图编码器和环境感知优化,根据模型能力、工具可用性和知识源变化等动态环境信号自适应地设计多Agent通信拓扑结构,在HumanEval、MATH和MMLU上一致超越静态和基于提示的基线方法。
- DiaBlo: Diagonal Blocks Are Sufficient For Finetuning
-
提出 DiaBlo——一种用对角块更新替代低秩分解的参数高效微调方法:将权重矩阵划分为 \(N \times N\) 块后只训练对角块 \(\mathbf{D}_1, \ldots, \mathbf{D}_N\),彻底绕开 LoRA 中 \(\mathbf{AB}\) 乘积带来的非凸优化、初始化敏感与梯度不稳定问题,零初始化即可收敛,PyTorch 一行
torch.einsum实现 batched matmul,理论证明同参数预算下表达力严格优于 LoRA,在常识推理、算术推理、代码生成、安全对齐四大任务及 4-bit/2-bit 量化场景全面领先。 - DRO-InstructZero: Distributionally Robust Prompt Optimization for Large Language Models
-
将分布鲁棒优化(DRO)引入贝叶斯优化框架以实现零样本指令优化,使优化后的指令在分布偏移和对抗性评估条件下仍保持可靠性能。
- DRO-InstructZero: Distributionally Robust Prompt Optimization for Large Language Models
-
将分布鲁棒优化(DRO)引入 InstructZero 的贝叶斯优化框架,通过在 f-divergence 球定义的模糊集上最大化最坏情况期望效用,使自动搜索得到的 prompt 在分布偏移下仍能保持可靠性能。
- Execution-Grounded Credit Assignment for GRPO in Code Generation
-
提出 EGCA(Execution-Grounded Credit Assignment),通过执行追踪定位程序中最早的语义偏差位置,将 GRPO 的梯度集中到因果 token span 上,解决代码生成中粗粒度信用分配问题,在 HumanEval 上达到 82.1% pass@1。
- Improving Code Localization with Repository Memory
-
通过利用代码仓库的 commit 历史构建情景记忆(过去 commit)和语义记忆(活跃代码功能摘要),增强语言代理的代码定位能力,在 SWE-bench 上取得显著提升。
- IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation
-
提出 IMSE——将预训练 ViT 线性层通过 SVD 分解为"谱专家",仅微调奇异值实现极端参数高效的测试时适应,并通过多样性最大化损失和域感知谱码检索机制,在 TTA/CTTA/渐进 CTTA 三种场景下达到 SOTA。
- Inference-Time Safety for Code LLMs via Retrieval-Augmented Revision
-
提出 SOSecure,一种无需重训练的推理时安全机制,通过 BM25 从 Stack Overflow 安全讨论知识库中检索与 LLM 生成代码相关的社区安全警告,引导模型在推理阶段自主修订不安全代码,在三个真实数据集上实现高达 96.7% 的漏洞修复率且零新漏洞引入。
- InnoGym: Benchmarking the Innovation Potential of AI Agents
-
提出 InnoGym,第一个系统评估 AI Agent 创新能力的基准和框架,引入 Performance Gain 和 Novelty 两个互补指标,通过 18 个可改进任务发现当前 Agent 具备一定创新性但缺乏将创新转化为可靠性能提升的鲁棒性。
- KV Cache Transform Coding for Compact Storage in LLM Inference
-
提出 KVTC,一种借鉴经典媒体压缩技术(PCA 特征去相关 + 自适应量化 + 熵编码)的 KV 缓存压缩方法,在 Llama 3、Mistral NeMo、R1-Qwen 2.5 等模型上实现最高 20× 压缩(特定场景下 40×+),优于 token 驱逐、量化、SVD 等基线方法。
- Learning to Reason without External Rewards
-
提出 Intuitor,一种用模型自身置信度(self-certainty,即输出分布与均匀分布的 KL 散度)替代外部可验证奖励的 RLIF 方法,在数学推理上匹配 GRPO 性能,同时在代码生成等域外任务上展现更好的泛化能力。
- MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task
-
借鉴代码补全中的 Fill-in-the-Middle (FIM) 范式,训练一个专门的步骤扩展模型 MathFimer-7B,在已有数学解题链中插入更细粒度的中间推理步骤,从而系统性提升下游模型的数学推理能力。
- Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning
-
提出 PaperCoder——一个多智能体 LLM 框架,通过规划(Planning)、分析(Analysis)、生成(Coding)三阶段流水线,将机器学习论文自动转化为可运行的代码仓库,其中 88% 的生成仓库被论文作者评为最佳,且在 PaperBench 基准上大幅超越基线。
- Sharing State Between Prompts and Programs
-
提出共享程序状态(shared program state)抽象,让 prompt 直接读写程序变量、操作堆对象和控制程序流程,实现为 Nightjar 系统(Python + prompt 混合编程),在保持或提升准确率(+4-19%)的同时减少 39.6% 代码量。
- ShieldedCode: Learning Robust Representations for Virtual Machine Protected Code
-
提出 ShieldedCode——首个保护感知的代码表征学习框架,通过层次依赖建模(指令内/前序/跨指令三层)和联合功能感知+保护感知对比学习,使 LLM 能够生成、比较和推理虚拟机保护代码,在 VM 代码生成(Pass@1 26.95% vs. GPT-4o 22.58%)和二进制相似性检测上均超越现有方法。
- Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
-
提出 Supervised Reinforcement Learning (SRL),将问题求解重新建模为逐步动作生成过程,通过基于序列相似度的密集奖励信号,使小模型能够从专家轨迹中学习原本 SFT 和 RLVR 都无法解决的困难推理问题。
- The Limits of Long-Context Reasoning in Automated Bug Fixing
-
系统评估当前 LLM 在长上下文代码调试中的能力极限,发现 agentic 工作流的成功来自任务分解而非长上下文推理(成功轨迹仅消耗 20-30K token),64K token 单次补丁生成中性能急剧下降(GPT-5-nano 0%),揭示名义上下文长度与实际可用上下文能力之间的显著差距。
- Training Large Language Models To Reason In Parallel With Global Forking Tokens
-
提出 Set Supervised Fine-Tuning (SSFT),通过二分图匹配将全局分叉令牌 (global forking tokens) 与多样推理轨迹对齐,使 LLM 能从单个控制令牌全局引导不同推理模式,在数学推理和代码生成任务上显著优于标准 SFT 和 GRPO。
- Training Large Language Models to Reason in Parallel with Global Forking Tokens
-
提出 Set Supervised Fine-Tuning (SSFT),通过引入全局分叉 token 和基于二部匹配的集合损失,训练 LLM 从单个控制 token 触发多样且正确的推理模式,在 Pass@1 和 Cons@k 上均超越标准 SFT+GRPO。