跳转至

👥 社会计算

🧪 ICML2025 · 7 篇论文解读

DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts

提出 DEFAME,一个模块化零样本多模态 LLM 流水线,通过六阶段动态流程(规划→执行→摘要→推理→判决→解释)结合外部多模态工具检索证据,实现端到端的文本-图像联合事实核查,在 AVeriTeC、MOCHEG、VERITE 三个基准上均达到新 SOTA。

Dynamical Phases of Short-Term Memory Mechanisms in RNNs

本文发现了支持RNN短时记忆的两种不同潜在动力学机制——慢点流形(slow-point manifolds)和极限环(limit cycles),通过解析 toy 模型推导出各自最大可学习率的幂律缩放定律(SP: beta 约4-5 vs LC: beta 约2-3),并通过训练约80,000个RNN进行了大规模实证验证。

Is Your LLM-Based Multi-Agent a Reliable Real-World Planner? Exploring Fraud Detection in Travel Planning

提出 WandaPlan 评估环境,通过在旅行规划场景中注入三种递进式欺诈(单源误导、团队协调刷单、逐级升级),系统性评估 LLM 多智能体规划系统对虚假信息的脆弱性,并设计反欺诈 Agent 来缓解风险。

Learning Survival Distributions with the Asymmetric Laplace Distribution

提出基于非对称拉普拉斯分布 (ALD) 的参数化生存分析方法,通过神经网络学习 ALD 的三个参数(位置、尺度、不对称性),实现连续、闭式的生存分布估计,在判别性和校准性上全面优于现有参数化与非参数化方法。

OR-Bench: An Over-Refusal Benchmark for Large Language Models

提出首个大规模 LLM 过度拒绝(over-refusal)基准 OR-Bench,包含 80K 安全但易被拒绝的 prompt,揭示安全性与过度拒绝之间存在 Spearman 相关系数高达 0.89 的强权衡关系。

Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing

提出 GETA 框架,将心理测量学中的计算机自适应测试(CAT)与自动出题(AIG)结合,通过变分 IRT 和 LLM 驱动的题目生成器动态探测 LLM 的价值边界,解决静态基准因数据泄漏和难度饱和导致的"评估时效性效应"(evaluation chronoeffect)问题。

When Bad Data Leads to Good Models

本文提出"预训练-后训练协同设计"视角,通过受控实验证明在预训练数据中加入适量有毒数据(~10%)反而能降低毒性特征的纠缠度,使模型在后训练阶段(如 ITI 激活引导)更容易去毒,最终在 Toxigen 上将毒性从 41.40 降至 2.63,同时保持语言能力。