Stop DDoS Attacking the Research Community with AI-Generated Survey Papers¶
会议: NeurIPS 2025 / arXiv: 2510.09686 / 代码: 无 / 领域: llm_nlp / 关键词: AI生成综述, 学术诚信, 科研文化, 动态综述, 论文质量
一句话总结¶
这篇立场论文以"综述论文 DDoS 攻击"为隐喻,通过定量分析 arXiv 2020-2024 年间 10,063 篇 CS 综述论文,揭示 AI 生成综述的爆炸式增长趋势和质量问题,提出规范 AI 辅助综述写作和建设"动态活综述"的愿景。
研究背景与动机¶
综述论文是学术研究的基石,提供结构化概述指导研究方向。然而 LLM 的兴起使综述写作从劳动密集型工作变为低门槛、高产量的输出:
- 量的爆发:2020 年以来 CS 综述论文数量指数增长,2022-2023 年加速明显(与 ChatGPT 发布时间吻合)
- 质的堪忧:大量综述结构混乱、分类缺乏原创性、引用错误或虚构、内容高度重复
- "综述 DDoS 攻击"隐喻:如同分布式拒绝服务攻击,大量低质量综述泛滥预印本平台,淹没有价值的贡献,侵蚀学术信任
核心立场:必须停止向学术社区上传大量 AI 生成的综述论文,通过建立 AI 辅助写作的严格规范来应对。
方法详解¶
整体框架¶
本文是立场论文(position paper),不提出技术方法,而是提供: 1. 定量趋势分析 2. 质量问题剖析 3. 检测指标提出 4. 政策建议 5. "动态活综述"愿景
关键设计一:定量趋势分析¶
收集 2020-2024 年间 arXiv 所有 CS 类目中标题包含"survey"、"review"、"overview"或"taxonomy"的论文共 10,063 篇:
- 使用开源 AI 内容检测器估计 AI 生成分数
- 检测"异常作者":一个月内以少于 2 个合作者提交 3+ 篇综述的作者
关键设计二:质量问题分析¶
四大质量问题:
- 结构缺陷:大纲混乱,缺乏叙事流,关键章节浅薄或缺失
- 缺乏原创分类法:多篇 AI 综述简单模仿现有分类(甚至 Wikipedia),缺乏新视角
- 引用不准确:遗漏关键工作、过度引用不相关论文、虚构引用(LLM 幻觉)
- 内容高度冗余:不同综述之间措辞近似甚至相同,边际学术价值趋近零
关键设计三:检测指标¶
- GPT 生成短语:搜索"as an AI language model"、"my knowledge cutoff"等露馅短语
- 引用重叠度:同话题不同综述间引用列表 Jaccard 相似度异常高(60-70%)
- 长度和重复模式:AI 生成文本词汇多样性低,重复使用"Furthermore"等过渡词
实验关键数据¶
主实验¶
综述论文增长趋势:
| 年份 | 数量趋势 | AI 生成分数趋势 | 异常作者趋势 |
|---|---|---|---|
| 2020-2021 | 稳步增长 | 较低 | 较少 |
| 2022 | 拐点出现 | 开始上升 | 开始增加 |
| 2023-2024 | 加速增长 | 显著提升 | 大幅增加 |
- 2022 年末至 2023 年末,高 AI 内容分数论文比例从约 3.6% 翻倍至约 6.2%
- 超过 10% 的科学摘要被 LLM 处理过(Kobak et al.)
- 典型案例:MCP(Model Context Protocol)话题在约一个月内出现 5+ 篇综述论文
消融实验¶
引用重叠分析: - 10 篇 ML 话题综述中,任意两篇平均共享 60-70% 相同引用 - 这一比率远高于独立研究者基于个人文献检索的预期
文化影响调查: - 1,600 位研究者调查中,大量受访者尝试过 ChatGPT 写作,但同时对 AI 生成学术作品的准确性和完整性表示怀疑
关键发现¶
- 2022 年是分水岭:综述数量、AI 生成分数和异常作者数三个指标同时出现拐点
- AI 综述"文学污染"风险:低质量综述间互引可扭曲引用景观
- 信任危机:连高质量综述也可能因与 AI 综述混淆而受到质疑
- 审稿负担加重:审稿人需额外时间验证可疑综述的引用准确性
亮点与洞察¶
- "综述 DDoS 攻击"隐喻精妙:生动形象地描述了 AI 综述泛滥对学术社区的冲击
- 定量证据充分:10,063 篇论文的系统分析,时间线与 ChatGPT 发布吻合
- "动态活综述"愿景前瞻性强:提出社区维护、版本控制、AI+人类协作的动态综述平台
- 政策建议务实:透明度要求、更严审查、冗余限制、AI 检测辅助审稿
- 问题定义清晰:从量化趋势到质量问题到文化影响,逻辑链条完整
局限性 / 可改进方向¶
- 立场论文而非技术论文:不提供具体的技术解决方案
- AI 检测工具的可靠性:开源 AI 检测器本身存在假阳性和假阴性
- "异常作者"定义略粗糙:一个月 3+ 篇综述并不一定意味着 AI 生成
- 仅分析 CS 领域:其他学科(如生物医学)的情况可能不同
- "动态活综述"实现挑战大:激励机制、治理结构、技术平台都需解决
- 对 AI 辅助的积极面讨论不够深入
相关工作与启发¶
- AutoSurvey(Wang et al., 2024):自动综述生成系统
- SurveyForge(Yan et al., 2025):分析 AI 综述的结构缺陷
- Kobak et al. (2024):分析 LLM 对科学摘要词汇的影响
- 未来方向:综述质量自动评估工具、学术平台 AI 内容标记系统
评分¶
⭐⭐⭐⭐ (3.5/5)
- 影响力 ⭐⭐⭐⭐⭐:切中学术社区痛点,引发广泛关注
- 定量分析 ⭐⭐⭐⭐:10,063 篇论文的系统分析
- 技术深度 ⭐⭐:立场论文,无技术贡献
- 前瞻性 ⭐⭐⭐⭐⭐:动态活综述愿景对学术出版有重要启示