🎁 推荐系统¶
🧠 NeurIPS2025 · 共 18 篇
- ASAP: An Agentic Solution to Auto-Optimize Performance of Large-Scale LLM Training
-
ASAP 是一个多 Agent 系统(Coordinator + Analyzer + Proposal),自动化诊断大规模 LLM 分布式训练的瓶颈类型(计算/内存/通信)并提出 sharding 配置方案,在 3 个实验场景中均匹配人类专家方案,实现最高 2.58× 吞吐量提升。
- Balancing Performance and Costs in Best Arm Identification
-
提出将最优臂识别(BAI)从固定预算/固定置信度框架重新定义为"误识别概率/简单遗憾 + 采样成本"的风险泛函最小化问题,推导出含相变现象的下界(差距过小时最优策略是直接猜),设计 DBCARE 算法在动态预算下达到对数因子内最优。
- EMPATHIA: Multi-Faceted Human-AI Collaboration for Refugee Integration
-
提出EMPATHIA多Agent框架,基于Kegan建构性发展理论,通过情感/文化/伦理三个专业化Agent的选择器-验证器协商评估难民安置建议,在6,359名难民的真实数据上达到87.4%收敛率和92.1%文化专家同意率。
- Estimating Hitting Times Locally At Scale
-
提出两种局部(亚线性)算法估计图上的命中时间——基于相遇时间的 Algorithm 1 和基于谱截断的 Algorithm 3,无需全图访问仅通过以 \(u,v\) 为中心的短随机游走完成估计,在合成和真实图上相对误差 <1.4%,并证明了游走采样的最优样本复杂度下界。
- Inference-Time Reward Hacking in Large Language Models
-
本文从数学上证明了推理时对齐方法(如 BoN)在优化代理奖励时不可避免地会出现 reward hacking(真实奖励先升后降),提出了 Best-of-Poisson (BoP) 采样方法近似最优 KL-奖励折中分布,并设计了 HedgeTune 算法通过一维寻根找到最优推理时参数,在数学推理和人类偏好场景中有效缓解 reward hacking。
- Measuring What Matters: Construct Validity in Large Language Model Benchmarks
-
本文由29位专家对445篇LLM benchmark论文进行系统性综述,从构念效度 (construct validity) 角度审视现有LLM评测基准在现象定义、任务设计、评分指标和结论声明方面的不足,并提出8条改进建议。
- MMPB: It's Time for Multi-Modal Personalization
-
提出首个 VLM 个性化评测基准 MMPB,包含 111 个可个性化概念、10k+ 图文问答对和 15 种任务类型,评测了 23 个 VLM 后发现即使最强的 GPT-4o 在个性化任务上也表现不佳,揭示了 VLM 在偏好推理、视觉线索利用和安全对齐与个性化的冲突等方面的重大局限。
- NeurIPS Should Lead Scientific Consensus on AI Policy
-
本文是一篇立场论文,主张 NeurIPS 应主动承担 AI 政策领域的科学共识形成角色,借鉴 IPCC(政府间气候变化专门委员会)在气候科学中的成功经验,填补当前 AI 政策领域共识机制的空白。
- Overcoming Sparsity Artifacts In Crosscoders To Interpret Chat-Tuning
-
识别Crosscoder L1训练中的稀疏性伪影导致虚假模型特定潜变量归因,提出BatchTopK损失+Latent Scaling揭示真正的chat特定概念。
- PAC-Bayes Bounds for Multivariate Linear Regression and Linear Autoencoders
-
本文将PAC-Bayes泛化界从单输出线性回归推广到多变量线性回归,并进一步适配到推荐系统中的线性自编码器(LAE),通过理论方法将计算复杂度从O(n⁴)降到O(n³),实验证明该界是紧的且与Recall@K、NDCG@K等实际指标高度相关。
- Position: Towards Bidirectional Human-AI Alignment
-
本文提出双向人机对齐(Bidirectional Human-AI Alignment)框架,从系统综述400+篇论文出发,论证AI对齐不应仅是单向地"让AI对齐人类",还应包括"让人类适应AI"这一被严重忽视的方向,并识别了当前研究的关键缺口。
- Radial Neighborhood Smoothing Recommender System
-
提出 Radial Neighborhood Estimator (RNE),通过将隐空间距离用观测矩阵的行/列 L2 范数近似估计,构建同时包含重叠和部分重叠用户-物品对的径向邻域,用局部核回归做平滑插补,在理论保证和实验中均优于传统协同过滤和矩阵分解方法,并天然缓解冷启动问题。
- The More You Automate, the Less You See: Hidden Pitfalls of AI Scientist Systems
-
本文系统性地识别了当前 AI 科学家系统的四种方法论陷阱(不当基准选择、数据泄漏、指标误用、事后选择偏差),通过精心设计的合成任务 SPR 对 Agent Laboratory 和 The AI Scientist v2 进行受控实验,发现两个系统均存在不同程度的问题,并证明审计 trace log + 代码比仅审查最终论文的检测准确率高 27 个百分点(82% vs 55%)。
- Think before Recommendation: Autonomous Reasoning-enhanced Recommender
-
提出 RecZero(纯 RL 范式)和 RecOne(SFT+RL 混合范式),抛弃传统的 teacher-student 蒸馏方法,用 GRPO 强化学习直接训练单个 LLM 自主发展推理能力进行评分预测,通过结构化 "Think-before-Recommendation" 模板引导分步推理(分析用户→分析物品→匹配→评分),在 4 个数据集上显著超越现有基线。
- Transformer Copilot: Learning from The Mistake Log in LLM Fine-tuning
-
提出 Transformer Copilot 框架,在 LLM 微调过程中系统记录"错误日志"(Mistake Log),训练一个辅助 Copilot 模型学习 Pilot 的错误模式,推理时通过 logits 修正提升生成质量,在 12 个基准上最高提升 34.5%。
- VisualLens: Personalization through Task-Agnostic Visual History
-
提出VisualLens框架,利用用户日常拍摄的与任务无关的视觉历史(task-agnostic visual history),通过频谱用户画像(spectrum user profile)和多模态大模型实现跨领域个性化推荐,在新建的Google Review-V和Yelp-V数据集上Hit@3超越GPT-4o 2-5%。
- Who You Are Matters: Bridging Topics and Social Roles via LLM-Enhanced Logical Recommendation
-
提出 TagCF 框架,通过 MLLM 提取用户角色标签和物品话题标签,再用 LLM 推理构建 U2I/I2U 逻辑图(用户角色与物品类型的因果关联),辅以标签编码器、对比学习增强和逻辑推理评分三种集成策略增强推荐,在亿级用户的工业在线A/B测试中互动指标提升0.946%、多样性提升0.102%,离线实验NDCG@10提升8.06%。
- Wide-Horizon Thinking and Simulation-Based Evaluation for Real-World LLM Planning with Multifaceted Constraints
-
提出 MAoP(Multiple Aspects of Planning)框架赋予 LLM "宽视野思维"能力,通过策略师预规划与路由机制并行整合多方面约束,配合 Travel-Sim 因果模拟评估基准,在旅行规划任务上大幅超越 CoT/分解方法,蒸馏后 3B 模型 PER 达 66.9%。