跳转至

Stop DDoS Attacking the Research Community with AI-Generated Survey Papers

会议: NeurIPS 2025 / arXiv: 2510.09686 / 代码: 无 / 领域: llm_nlp / 关键词: AI生成综述, 学术诚信, 科研文化, 动态综述, 论文质量

一句话总结

这篇立场论文以"综述论文 DDoS 攻击"为隐喻,通过定量分析 arXiv 2020-2024 年间 10,063 篇 CS 综述论文,揭示 AI 生成综述的爆炸式增长趋势和质量问题,提出规范 AI 辅助综述写作和建设"动态活综述"的愿景。

研究背景与动机

综述论文是学术研究的基石,提供结构化概述指导研究方向。然而 LLM 的兴起使综述写作从劳动密集型工作变为低门槛、高产量的输出:

  1. 量的爆发:2020 年以来 CS 综述论文数量指数增长,2022-2023 年加速明显(与 ChatGPT 发布时间吻合)
  2. 质的堪忧:大量综述结构混乱、分类缺乏原创性、引用错误或虚构、内容高度重复
  3. "综述 DDoS 攻击"隐喻:如同分布式拒绝服务攻击,大量低质量综述泛滥预印本平台,淹没有价值的贡献,侵蚀学术信任

核心立场:必须停止向学术社区上传大量 AI 生成的综述论文,通过建立 AI 辅助写作的严格规范来应对。

方法详解

整体框架

本文是立场论文(position paper),不提出技术方法,而是提供: 1. 定量趋势分析 2. 质量问题剖析 3. 检测指标提出 4. 政策建议 5. "动态活综述"愿景

关键设计一:定量趋势分析

收集 2020-2024 年间 arXiv 所有 CS 类目中标题包含"survey"、"review"、"overview"或"taxonomy"的论文共 10,063 篇:

  • 使用开源 AI 内容检测器估计 AI 生成分数
  • 检测"异常作者":一个月内以少于 2 个合作者提交 3+ 篇综述的作者

关键设计二:质量问题分析

四大质量问题:

  1. 结构缺陷:大纲混乱,缺乏叙事流,关键章节浅薄或缺失
  2. 缺乏原创分类法:多篇 AI 综述简单模仿现有分类(甚至 Wikipedia),缺乏新视角
  3. 引用不准确:遗漏关键工作、过度引用不相关论文、虚构引用(LLM 幻觉)
  4. 内容高度冗余:不同综述之间措辞近似甚至相同,边际学术价值趋近零

关键设计三:检测指标

  • GPT 生成短语:搜索"as an AI language model"、"my knowledge cutoff"等露馅短语
  • 引用重叠度:同话题不同综述间引用列表 Jaccard 相似度异常高(60-70%)
  • 长度和重复模式:AI 生成文本词汇多样性低,重复使用"Furthermore"等过渡词

实验关键数据

主实验

综述论文增长趋势

年份 数量趋势 AI 生成分数趋势 异常作者趋势
2020-2021 稳步增长 较低 较少
2022 拐点出现 开始上升 开始增加
2023-2024 加速增长 显著提升 大幅增加
  • 2022 年末至 2023 年末,高 AI 内容分数论文比例从约 3.6% 翻倍至约 6.2%
  • 超过 10% 的科学摘要被 LLM 处理过(Kobak et al.)
  • 典型案例:MCP(Model Context Protocol)话题在约一个月内出现 5+ 篇综述论文

消融实验

引用重叠分析: - 10 篇 ML 话题综述中,任意两篇平均共享 60-70% 相同引用 - 这一比率远高于独立研究者基于个人文献检索的预期

文化影响调查: - 1,600 位研究者调查中,大量受访者尝试过 ChatGPT 写作,但同时对 AI 生成学术作品的准确性和完整性表示怀疑

关键发现

  1. 2022 年是分水岭:综述数量、AI 生成分数和异常作者数三个指标同时出现拐点
  2. AI 综述"文学污染"风险:低质量综述间互引可扭曲引用景观
  3. 信任危机:连高质量综述也可能因与 AI 综述混淆而受到质疑
  4. 审稿负担加重:审稿人需额外时间验证可疑综述的引用准确性

亮点与洞察

  1. "综述 DDoS 攻击"隐喻精妙:生动形象地描述了 AI 综述泛滥对学术社区的冲击
  2. 定量证据充分:10,063 篇论文的系统分析,时间线与 ChatGPT 发布吻合
  3. "动态活综述"愿景前瞻性强:提出社区维护、版本控制、AI+人类协作的动态综述平台
  4. 政策建议务实:透明度要求、更严审查、冗余限制、AI 检测辅助审稿
  5. 问题定义清晰:从量化趋势到质量问题到文化影响,逻辑链条完整

局限性 / 可改进方向

  1. 立场论文而非技术论文:不提供具体的技术解决方案
  2. AI 检测工具的可靠性:开源 AI 检测器本身存在假阳性和假阴性
  3. "异常作者"定义略粗糙:一个月 3+ 篇综述并不一定意味着 AI 生成
  4. 仅分析 CS 领域:其他学科(如生物医学)的情况可能不同
  5. "动态活综述"实现挑战大:激励机制、治理结构、技术平台都需解决
  6. 对 AI 辅助的积极面讨论不够深入

相关工作与启发

  • AutoSurvey(Wang et al., 2024):自动综述生成系统
  • SurveyForge(Yan et al., 2025):分析 AI 综述的结构缺陷
  • Kobak et al. (2024):分析 LLM 对科学摘要词汇的影响
  • 未来方向:综述质量自动评估工具、学术平台 AI 内容标记系统

评分

⭐⭐⭐⭐ (3.5/5)

  • 影响力 ⭐⭐⭐⭐⭐:切中学术社区痛点,引发广泛关注
  • 定量分析 ⭐⭐⭐⭐:10,063 篇论文的系统分析
  • 技术深度 ⭐⭐:立场论文,无技术贡献
  • 前瞻性 ⭐⭐⭐⭐⭐:动态活综述愿景对学术出版有重要启示