📂 其他¶
🧠 NeurIPS2025 · 共 69 篇
- 4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos
-
提出4DGT——一种基于4D高斯的Transformer模型,完全在真实世界单目带位姿视频上训练,以前馈方式在几秒内完成动态场景重建,显著优于同类前馈网络,并达到与优化类方法可比的精度。
- A Cramér–von Mises Approach to Incentivizing Truthful Data Sharing
-
提出一种基于 Cramér-von Mises 两样本检验统计量的激励机制,在贝叶斯和无先验两种设定下均能证明"如实提交数据"构成(近似)Nash 均衡,同时鼓励参与者提交更多真实数据,且不依赖对数据分布的强假设(如高斯、伯努利)。
- A Differentiable Model Of Supply-Chain Shocks
-
用 JAX 实现可微分的供应链 Agent-Based Model(~1000 家企业),通过 GPU 并行化 + 自动微分实现比传统 ABC 快 3 个数量级的贝叶斯参数校准,为全球供应链网络的冲击传播建模铺平道路。
- A Generalized Label Shift Perspective for Cross-Domain Gaze Estimation
-
本文将跨域视线估计(CDGE)问题建模为广义标签偏移(GLS)问题,指出现有域不变表示学习方法在标签偏移存在时理论上不充分,提出基于截断高斯分布的连续重要性重加权和概率感知条件算子差异(PCOD)来联合纠正标签偏移和条件偏移,在多个backbone上平均降低误差12%~27%。
- A High-Dimensional Statistical Method for Optimizing Transfer Quantities in Multi-Source Transfer Learning
-
提出基于K-L散度和高维统计分析的理论框架,用于确定多源迁移学习中每个源任务的最优样本迁移数量,避免"用所有源数据"带来的负迁移问题,在DomainNet和Office-Home上超过SOTA 1.0-1.5%的同时减少47.85%的样本使用量和35.19%的训练时间。
- A Reliable Cryptographic Framework for Empirical Machine Unlearning Evaluation
-
将机器遗忘的评估问题建模为密码学博弈(unlearning sample inference game),通过定义adversary的"advantage"来衡量遗忘质量,克服了传统MIA准确率作为评估指标的多种缺陷(不以retrain为零基准、对数据划分敏感、对MIA选择敏感),并提出SWAP test作为高效的实用近似方案。
- A Standardized Benchmark for Multilabel Antimicrobial Peptide Classification
-
提出 ESCAPE——首个标准化的多标签抗菌肽分类基准,整合 27 个公开数据库共 80,000+ 肽段,并设计基于双分支 Transformer + 双向交叉注意力的 Baseline 模型,在 mAP 上相对第二名提升 2.56%。
- A Sustainable AI Economy Needs Data Deals That Work for Generators
-
本文通过分析73个公开数据交易案例,揭示了ML价值链中的"经济数据处理不等式"——从原始数据到模型权重再到合成输出,每一步都提炼了技术信号但剥夺了数据生成者的经济权益,并提出EDVEX框架来构建更公平的数据交换市场。
- A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation
-
本文从纯优化角度严格证明了 grokking 现象的成因:带小 weight decay 的梯度流在 \(\lambda\to 0\) 极限下呈现两阶段动力学——先快速收敛到训练损失的临界流形 \(\mathcal{M}\),再在 \(t\approx 1/\lambda\) 时沿流形做黎曼梯度流以最小化 \(\ell_2\) 范数,从而延迟实现泛化。
- A Unified Framework for Provably Efficient Algorithms to Estimate Shapley Values
-
提出统一框架将 KernelSHAP、LeverageSHAP 等 Shapley 值估计器纳入随机草图(sketching)视角,首次为 KernelSHAP 提供非渐近理论保证,并通过算法改进(Poisson 近似等)将方法扩展到 CIFAR-10 等高维数据集。
- A Unified Framework for Variable Selection in Model-Based Clustering with Missing Not at Random
-
提出了一个统一框架(SelvarMNARz),在高斯混合模型聚类中同时完成变量选择和MNAR(Missing Not At Random)缺失数据建模,通过两阶段策略(LASSO排序 + BIC角色分配)实现高维场景下的高效推理,并给出了可辨识性和选择一致性的理论保证。
- Active Measurement: Efficient Estimation at Scale
-
提出Active Measurement框架,结合AI检测器的自适应重要性采样和迭代人工标注,实现大规模科学测量(如鸟类计数、疟疾检测)的无偏估计,将原始检测器3.78的误差率降至0.06,同时提供理论保证的置信区间。
- AcuRank: 不确定性感知的自适应计算重排序
-
通过基于TrueSkill模型的不确定性估计,动态调整重排序子集大小和验证范围,在实现更优精度效率权衡的同时避免过度计算。
- AdaptGrad: Adaptive Sampling to Reduce Noise
-
通过卷积公式视角首次理论分析了SmoothGrad的噪声来源(越界采样),提出AdaptGrad方法通过概率界约束采样范围来抑制噪声,在不增加计算开销的前提下提升梯度显著性图的质量。
- Adaptive Data Analysis for Growing Data
-
首次为动态/增长数据场景下的自适应数据分析提供泛化界,允许分析者根据当前数据规模和历史查询结果自适应地调度统计查询,在数据不断积累时获得更紧的准确性保证。
- Additive Models Explained: A Computational Complexity Approach
-
对广义可加模型(GAM)的多种解释类型(充分理由、对比解释、Shapley值等)进行系统的计算复杂度分析,揭示了GAM的可解释性代价高度依赖于输入域类型、组件模型类型和任务类型(回归vs分类),某些看似"可解释"的设定实际上是NP-Hard甚至#P-Hard。
- Addressing Mark Imbalance In Integrationfree Neural Marked T
-
论文针对现实事件流中常见的 mark 类别长尾失衡问题,提出基于先验归一化概率的阈值学习策略,并设计 integration-free 的神经 MTPP 架构,先预测 mark 再预测 time,在避免昂贵数值积分的同时显著提升稀有事件的 mark 与到达时间预测性能。
- Adjoint Schrödinger Bridge Sampler
-
提出 Adjoint Schrödinger Bridge Sampler (ASBS),通过将 Schrödinger Bridge 问题重新解释为随机最优控制问题,消除了先前扩散采样器的 memoryless 条件限制,支持任意源分布(如高斯、谐波先验),使用可扩展的 matching 目标无需重要性权重估计,在多粒子能量函数和分子构象生成上全面超越先前方法。
- ADPretrain: Advancing Industrial Anomaly Detection via Anomaly Representation Pretraining
-
首次提出面向工业异常检测的专用表示预训练框架 ADPretrain,通过角度和范数导向的对比损失在大规模异常检测数据集 RealIAD 上学习残差特征表示,替换五种主流嵌入式 AD 方法的原始特征后在五个数据集、五个骨干网络上取得一致性提升。
- Aggregation Hides OOD Generalization Failures from Spurious Correlations
-
揭示 OOD 泛化 benchmark 中"聚合掩蔽"现象——aggregate 评估显示 accuracy-on-the-line(ID 与 OOD 准确率正相关),但 OODSelect 方法可从同一 OOD 数据中找到大规模语义连贯子集(最高达 75%),这些子集上 ID 越高 OOD 反而越低(Pearson R 低至 -0.92),证明虚假相关的危害被聚合评估系统性隐藏。
- Alias-Free ViT: Fractional Shift Invariance via Linear Attention
-
提出Alias-Free ViT,通过两个关键组件实现Vision Transformer对整数和亚像素平移的鲁棒性:(1) 抗混叠下采样和非线性层设计,(2) 基于交叉协方差的线性注意力(shift-equivariant),在图像分类中保持竞争力的同时显著提升对抗性平移鲁棒性。
- Alternating Gradient Flows: A Theory of Feature Learning in Two-layer Neural Networks
-
提出交替梯度流(AGF)理论框架解释神经网络的逐步"鞍到鞍"特征学习动力学——将训练建模为休眠神经元的效用最大化和活跃神经元的代价最小化的交替过程,统一了对角线性网络、注意力模型和模块加法的特征选择分析,预测与实际梯度流高度一致。
- An Analysis of Concept Bottleneck Models: Measuring, Understanding, and Mitigating Noisy Annotations
-
首次系统研究噪声概念标注对 CBM 的影响——发现即使中等噪声也同时损害预测性能、可解释性和干预效果,识别出"脆弱概念"子集是性能下降的主因,提出训练阶段用 SAM 稳定脆弱概念学习 + 推断阶段用预测熵排序仅校正最不确定概念的两阶段缓解框架。
- An Empirical Investigation of Neural ODEs and Symbolic Regression for Dynamical Systems
-
系统实证研究 Neural ODE 和符号回归(SR)在动力系统建模中的组合使用:NODE 可以在动态相似条件下外推到新边界条件,SR 可以从有噪声数据中恢复控制方程,且用 NODE 训练数据(仅 10% 原始数据)生成的数据也能让 SR 恢复大部分方程。
- EPHAD: An Evidence-Based Post-Hoc Adjustment Framework for Anomaly Detection Under Data Contamination
-
EPHAD 提出一种测试时后处理框架来修正在被污染数据上训练的异常检测模型——在不接触训练流程/数据的前提下,用多模态基础模型(CLIP)或经典方法(LOF)等"证据"在测试时调整模型输出,在 8 个视觉+26 个表格 AD 数据集上有效提升性能。
- Are Pixel-Wise Metrics Reliable For Sparse-View Computed Tomography Reconstructi
-
揭示 PSNR/SSIM 等像素级指标无法反映稀疏视图 CT 重建中解剖结构完整性(相关性仅 0.16-0.30),提出基于自动分割的解剖感知指标(NSD/clDice)和 CARE 框架——在扩散模型训练中加入分割引导损失,大器官结构完整性提升 32%、血管提升 36%。
- Asymmetric Duos: Sidekicks Improve Uncertainty
-
Asymmetric Duos(AD)将一个大模型与一个小"sidekick"配对——通过温度加权的 logit 平均融合两者预测,在仅增加 10-20% FLOPs 的条件下达到接近 5× 深度集成的不确定性估计质量,RN50 AD(5% FLOPs 额外开销)在 AUROC/AURC/SAC@98 上接近 m=5 深度集成(400% 额外 FLOPs)。
- AutoSciDACT: Automated Scientific Discovery through Contrastive Embedding and Hypothesis Testing
-
提出 AutoSciDACT 管线:先用有监督对比学习将高维科学数据压缩到 4 维嵌入空间,再用 NPLM(New Physics Learning Machine)似然比检验对嵌入空间中的分布偏差进行统计量化,在天文、粒子物理、病理、图像和合成数据集上以 ≤1% 的信号注入比例实现 ≥3σ 发现。
- AVerImaTeC: A Dataset for Automatic Verification of Image-Text Claims with Evidence from the Web
-
AVerImaTeC 构建了首个带完整证据标注的图文事实核查数据集——1297 条真实图文声明 + 5 阶段标注流水线(提取→QA 推理→充分性检查→迭代精炼→二次检查)+ 时间约束证据(防止时间泄露),基线系统在有 ground truth 证据时准确率 82%,但自动检索证据后降至 15-25%,揭示了图文核查的巨大挑战。
- Beyond Benign Overfitting in Nadaraya-Watson Interpolators
-
通过调节 Nadaraya-Watson 插值器中的单一带宽参数 \(\beta\),精确刻画了从灾难性过拟合(\(\beta < d\))→ 良性过拟合(\(\beta = d\))→ 温和过拟合(\(\beta > d\))的完整相变谱,证明高估数据内禀维度比低估更安全。
- Brain-Like Processing Pathways Form in Models With Heterogeneous Experts
-
在异构 Mixture-of-Experts 模型中,异构专家并不会自动形成处理通路;本文提出三个受大脑启发的归纳偏置(路由代价、任务表现缩放、专家 Dropout),使模型形成类似大脑"皮层-皮层下"动态通路的 Mixture-of-Pathways 架构。
- CLIMB: Class-Imbalanced Learning Benchmark on Tabular Data
-
提出 Climb——迄今最全面的表格数据类别不平衡学习基准,涵盖 73 个真实数据集和 29 种 CIL 算法,通过大规模实验揭示了朴素重平衡往往无效、集成方法至关重要、数据质量比不平衡本身更影响性能等实用洞察。
- Computable Universal Online Learning
-
在 universal online learning 框架中引入可计算性约束,证明了"数学上可学习"不等于"可用计算机程序实现的可学习",并给出了 agnostic 和 proper 变体下可计算学习的精确刻画。
- Conformal Online Learning Of Deep Koopman Linear Embeddings
-
提出 COLoKe 框架,将 conformal prediction 重新解读为模型一致性诊断工具,仅在 Koopman 模型的预测误差超过动态校准阈值时才触发参数更新,从而实现对非线性动力系统的高效在线 Koopman 线性嵌入学习。
- Conformal Prediction in The Loop: A Feedback-Based Uncertainty Model for Trajectory Optimization
-
提出 Feedback-Based Conformal Prediction (Fb-CP) 框架,将已执行轨迹的信息反馈给 CP 以动态调整预测区域大小,在缩减时域轨迹优化中同时保证覆盖率和显著提升轨迹性能。
- Contextual Dynamic Pricing with Heterogeneous Buyers
-
首次系统研究买家类型异质(\(K_\star\) 种未知类型)的上下文动态定价问题,提出基于乐观后验采样 (OPS) 的算法实现 \(\tilde{O}(K_\star\sqrt{dT})\) 遗憾界(对 \(d\) 和 \(T\) 最优),并在非上下文情形通过方差感知自适应离散化算法 ZoomV 实现 \(\tilde{O}(\sqrt{K_\star T})\) 最优遗憾。
- Continuous Thought Machines
-
提出 Continuous Thought Machine (CTM),通过私有参数化的 Neuron-Level Models (NLMs) 产生神经元级时间动力学,并以神经同步矩阵作为核心潜在表征,在迷宫求解、ImageNet 分类、奇偶校验等任务上展现复杂推理、自适应计算和可解释注意力行为。
- Coreset for Robust Geometric Median: Eliminating Size Dependency on Outliers
-
首次消除鲁棒几何中位数 coreset 大小对异常值数 \(m\) 的依赖:在 \(n \geq 4m\) 条件下,\(d=1\) 时实现最优 coreset 大小 \(\tilde{\Theta}(\varepsilon^{-1/2} + \frac{m}{n}\varepsilon^{-1})\),高维时实现 \(\tilde{O}(\varepsilon^{-2}\min\{\varepsilon^{-2}, d\})\),核心技术是新颖的非逐分量误差分析。
- Coresets for Clustering Under Stochastic Noise
-
首次系统研究噪声数据下 \((k,z)\)-聚类 coreset 构造问题,提出新的代理误差度量 \(\mathsf{Err}_\alpha\) 替代传统 \(\mathsf{Err}\),在温和数据假设下实现 coreset 大小缩减 \(\text{poly}(k)\) 倍、质量保证收紧 \(\text{poly}(k)\) 倍,并设计噪声感知的 cluster-wise 采样算法。
- Cost-Sensitive Freeze-thaw Bayesian Optimization for Efficient Hyperparameter Tuning
-
CFBO 将用户定义的效用函数(成本 vs 性能的权衡)引入冻结-解冻贝叶斯优化框架,结合自适应停止准则和基于 LC mixup 的迁移学习,在多保真度 HPO 基准上实现了成本-性能最优权衡。
- Deep Continuous-Time State-Space Models for Marked Event Sequences
-
S2P2 将线性 Hawkes 过程与深度状态空间模型结合,通过堆叠多层隐式线性 Hawkes (LLH) 层 + 非线性激活构建高表达力的连续时间 MTPP 模型,利用并行扫描实现线性复杂度和亚线性时间,在 8 个真实数据集上平均提升 33% 预测似然。
- Deep Legendre Transform
-
DLT 利用凸共轭的隐式 Fenchel 表示 \(f^*(\nabla f(x)) = \langle x, \nabla f(x) \rangle - f(x)\) 将凸共轭计算转化为标准回归问题,避免求解 max/min-max 优化,且能提供后验误差估计,结合 KAN 还可获得精确解析解。
- Depth-Bounds for Neural Networks via the Braid Arrangement
-
本文证明了在 \(\mathcal{B}_d^0\)-conforming 约束下,ReLU 网络精确表示 \(\max\{0, x_1, \ldots, x_d\}\) 需要 \(\Omega(\log \log d)\) 层——这是首个不限制权重的非常数深度下界;同时证明 rank-(3,2) maxout 网络可以计算 7 个数的最大值,说明标准上界不紧。
- Depth-Supervised Fusion Network for Seamless-Free Image Stitching
-
DSFN 提出深度一致性约束的无缝图像拼接方法:通过深度感知的两阶段变换估计解决大视差对齐,软缝合区域扩散实现自然融合,结合重参数化策略提升效率,在 UDIS-D 和 IVSD 数据集上全面超越 SOTA。
- Directional Non-Commutative Monoidal Structures for Compositional Embeddings in Machine Learning
-
提出一种基于方向性非交换幺半群算子的代数框架,为多维组合嵌入提供统一数学基础,将 SSM 递归、Transformer 自注意力和 RoPE 位置编码统一为特例。
- Distributional Autoencoders Know the Score
-
本文为 Distributional Principal Autoencoder (DPA) 提供了精确的理论保证:证明了最优编码器的等值面几何与数据分布的 score 函数之间的闭合形式关系,并证明了超出流形维度的潜在分量与数据条件独立,从而统一了分布学习与内在维度发现两个长期目标。
- Distributionally Robust Feature Selection
-
本文提出一种模型无关的分布鲁棒特征选择方法,通过向协变量注入可控高斯噪声实现离散选择的连续松弛,并优化 Bayes 最优预测器的条件方差,使选出的特征子集能在多个子群体上同时训练出高质量下游模型。
- Double Descent Meets Out-of-Distribution Detection: Theoretical Insights and Empirical Analysis
-
本文首次揭示 post-hoc OOD 检测中存在 double descent 现象——OOD 检测性能随模型宽度在插值阈值附近出现谷值后再次上升,通过随机矩阵理论提供理论解释,并提出基于 Neural Collapse 的 NC1 判据来识别最佳模型复杂度区间。
- DPA: A One-Stop Metric to Measure Bias Amplification in Classification Datasets
-
本文提出 Directional Predictability Amplification (DPA),一种基于可预测性的偏差放大度量指标,是唯一同时满足方向性、适用于平衡/非平衡数据集、能正确识别正负偏差放大的一站式指标,通过测量模型偏差与数据集偏差的相对变化来量化偏差放大程度。
- Dynamic Algorithm for Explainable k-medians Clustering under lp Norm
-
本文提出首个适用于一般 \(\ell_p\) 范数的可解释 k-medians 聚类算法,实现 \(\tilde{O}(p(\log k)^{1+1/p-1/p^2})\) 近似比(改进了 p=2 的已知最优界),并给出首个动态版本:在中心集合的插入/删除下,以 \(O(d \log^3 k)\) 摊还更新时间和 \(O(\log k)\) 重分配次数维护可解释聚类。
- Efficient Parametric SVD of Koopman Operator for Stochastic Dynamical Systems
-
提出基于 low-rank approximation (LoRA) 的目标函数来学习随机动力系统 Koopman 算子的 top-k 奇异函数,完全避免了 VAMPnet/DPNet 中数值不稳定的矩阵分解操作,且梯度天然无偏。
- Emergency Response Measures for Catastrophic AI Risk
-
本文分析了如何将前沿安全政策(Frontier Safety Policies, FSPs)模型整合到中国四阶段应急响应框架中,以应对来自先进AI系统的灾难性风险(如大规模杀伤性武器扩散、失控事件等)。
- Empowering Decision Trees via Shape Function Branching
-
提出 Shape Generalized Tree (SGT),在决策树每个内部节点使用可学习的轴对齐形状函数替代传统线性阈值分裂,以更紧凑的树结构捕捉非线性特征效应,同时保持可解释性。
- Enhancing Sample Selection Against Label Noise by Cutting Mislabeled Easy Examples
-
发现并定义了误标注易学样本(Mislabeled Easy Examples, MEEs)——被模型早期训练即正确预测为错误标签的样本对泛化伤害最大,并提出 Early Cutting 方法利用模型后期状态重新校准早期置信子集来过滤MEEs。
- Equivariance by Contrast: Identifiable Equivariant Embeddings from Unlabeled Finite Group Actions
-
提出 Equivariance by Contrast (EbC),一种仅用编码器的方法,从观测对 \((\mathbf{y}, g \cdot \mathbf{y})\) 中联合学习等变嵌入空间和隐式群表示,使有限群作用在潜空间中对应可逆线性映射,并提供可辨识性理论保证。
- Evaluating In Silico Creativity: An Expert Review of AI Chess Compositions
-
使用生成式神经网络(自回归Transformer、离散扩散、MaskGit)+强化学习生成国际象棋谜题,通过奖励函数筛选具有唯一解和反直觉性的谜题,并邀请三位世界级国际象棋专家评审AI生成谜题的创造力和美学品质。
- Exact Learning of Arithmetic with Differentiable Agents
-
提出可微有限状态转换器(DFST),一种图灵完备且端到端可微的模型族,在 2D 符号网格上通过观察专家算术计算的中间步骤(Policy-Trajectory Observations)训练,仅用 20 个样本(最长 3 位数加法)即可完美泛化到 3850 位二进制加法、2450 位十进制加法,未发现任何错误。
- FlowMoE: 分布式MoE训练的可扩展流水线调度框架
-
通过统一的流水线调度和优先级驱动的all-reduce张量分块,实现MHA、门控、专家计算和A2A/all-reduce通信的完全重叠,训练时间减少13-57%。
- FSNet: Feasibility-Seeking Neural Network for Constrained Optimization with Guarantees
-
提出 FSNet 框架,将可微的可行性求解步骤集成到神经网络中,通过最小化约束违反的无约束优化来保证约束满足,同时支持端到端训练,在凸/非凸、光滑/非光滑问题上均显著快于传统求解器且保持可行性。
- 笔记2:PRM必要吗?RL隐式诱导PRM能力
-
令人惊讶地,纯RL训练无需显式PRM监督即可诱发出强大的过程理解能力,且现有PRMs在SOTA模型上甚至不如简单多数投票有效。
- Learning Generalizable Shape Completion with SIM(3) Equivariance
-
提出首个 SIM(3) 等变形状补全网络 SIMECO,通过特征规范化→相似不变几何推理→变换恢复的三阶段模块设计,在去偏评估协议下超越所有增广和等变基线,KITTI 上 MMD 降低 17%、OmniObject3D 上 CD-\(\ell_1\) 降低 14%,且在更严格协议下仍优于竞争者在其偏向性设置下的表现。
- Look-Ahead Reasoning on Learning Platforms
-
在学习平台的用户-算法交互中形式化 level-\(k\) 前瞻推理,证明个体自私的高阶推理只加速收敛但不改变均衡(无长期收益),而集体协调的收益由学习者-用户效用函数的对齐程度决定,提供了刻画协调收益上界的理论框架。
- MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision
-
MAS-ZERO 是首个推理时自动 MAS 设计框架,通过 meta-agent 迭代设计、批评和改进 MAS 配置(包括任务分解和 sub-MAS 分配),无需验证集和训练,在推理(+16.69%)、编程(+16.66%)和搜索代理(+5.45%)任务上均超越手动和自动 MAS baseline,同时保持 Pareto 最优的准确率-成本权衡。
- MoESD: 揭示稀疏MoE推理中投机解码的潜力
-
揭示投机解码在中等批大小下对MoE比对稠密模型更有效,通过目标效率指标捕捉系统级瓶颈,建立可靠的性能建模,达到2.29×加速。
- OrbitZoo: Real Orbital Systems Challenges for RL
-
构建OrbitZoo,基于工业标准库Orekit的多智能体RL环境,支持碰撞规避和协同机动,经Starlink真实数据验证MAPE仅0.16%。
- OrthoLoC: UAV 6-DoF Localization Using Orthographic Geodata
-
提出OrthoLoC——首个大规模UAV-正射影像配对数据集(16,425张,47地点,19城市),用于6-DoF定位和标定评估,AdHoP技术匹配精度提升95%、平移误差降低63%。
- 笔记7:价值引导搜索 - 高效链式思考推理
-
提出Value-Guided Search(VGS)——通过token级价值模型指导块级束搜索,无需预定义"步骤",相对多数投票在竞赛数学上准确度提升+14.5%,同时推理计算效率提升30%,超越现有PRM方案。
- 笔记5:ReSearch - 学习通过搜索推理
-
ReSearch框架将搜索操作嵌入推理链中作为第一类原语,通过GRPO强化学习自动学习何时何如搜索,无需任何推理步骤的监督标注,在多跳QA任务上相对基线平均提升15.81%。
- 笔记4:WebThinker - 赋予推理模型深度研究能力
-
WebThinker赋予大型推理模型(LRM)自主的网络搜索与导航能力,通过Think-Search-Draft策略实现推理、信息采集与报告生成的无缝交织,经RL优化后在复杂推理与科学报告生成任务上超越o1与Gemini。