跳转至

Stop DDoS Attacking the Research Community with AI-Generated Survey Papers

会议: NeurIPS 2025
arXiv: 2510.09686
作者: Jianghao Lin, Rong Shan, Jiachen Zhu, Yunjia Xi, Yong Yu, Weinan Zhang (上海交通大学)
代码: 无
领域: llm_safety
关键词: AI生成综述, 综述论文DDoS攻击, 学术诚信, 动态活综述, 论文质量检测, 科研文化

一句话总结

这篇立场论文将AI生成综述论文的泛滥类比为对学术社区的"DDoS攻击",通过对arXiv 2020-2024年10,063篇CS综述论文的系统定量分析,揭示了ChatGPT发布后综述论文数量、AI生成分数和异常作者数的同步激增现象,深入剖析了AI综述的四大质量缺陷(结构混乱、分类缺乏原创、引用不准确、内容高度冗余)及其对研究者-审稿人-编辑三方的文化冲击,提出了涵盖透明度要求、严格审查标准、冗余限制、AI检测辅助和"动态活综述"平台在内的全面应对框架。

研究背景与动机

综述论文在学术研究中扮演着独特而关键的角色:它们通过文献的系统梳理、关键趋势的提炼和前沿方向的指引,为初入领域的新手和资深专家提供不可替代的知识路标。一篇优秀的综述不仅仅是论文列表的汇编,更需要提出原创的分类体系、对前沿方法进行深度批判和比较分析、准确追溯领域发展脉络,并敏锐指出尚未解决的关键问题和未来方向。这种高层次的学术综合能力传统上需要领域专家投入大量时间和精力,是一种劳动密集型的学术活动。

然而,大型语言模型(LLM)的兴起彻底改变了这一格局。以ChatGPT为代表的生成式AI工具能够在几分钟内自动生成看似结构完整、文字流畅的文献综述,将综述写作从高门槛的专家活动变成了低门槛、高产量的批量输出。这种技术民主化本身并非坏事,但其不受约束的滥用带来了严重后果。作者将这一现象创造性地类比为计算机安全领域的"分布式拒绝服务(DDoS)攻击"——正如DDoS攻击通过海量虚假流量淹没目标服务器使其无法响应合法请求一样,大量低质量的AI生成综述涌入arXiv等预印本平台,淹没了真正有价值的学术贡献,使研究者难以从"文献噪声"中筛选出可靠的综述,最终侵蚀了整个学术社区的信任基础。

这一问题的紧迫性体现在多个维度。首先,真正的学术进展可能被算法生成的"文献重复"所掩盖,使创新性贡献难以获得应有关注。其次,对跨学科研究者和早期职业研究者的伤害尤为严重——他们本依赖综述作为进入新领域的入口,却面临着在大量质量参差的综述中判断"哪篇可靠"的额外负担。更深层地,AI自动生成文本中引入的错误和偏见可能不经人工审查就传播到后续研究中,形成"错误前提的种子"。在最极端的情况下,这种低质量综述的泛滥可能导致"文献污染":低质量综述之间互相引用形成自我强化的引用闭环,扭曲引用景观,使得真正有影响力的基础性工作反而被忽视。

基于以上分析,论文旗帜鲜明地提出核心立场:必须停止向学术社区上传大量AI生成的综述论文,通过强制规范AI在综述写作中的正确使用、恢复严格的人类监督、建立AI辅助综述的明确标准来应对这一威胁。

方法详解

整体框架

本文作为立场论文(position paper),其方法论框架不同于传统技术论文的"提出模型→实验验证"范式,而是采用"定量证据→质量诊断→影响分析→政策建议→前瞻愿景"的五层递进结构来系统阐述其立场。

第一层是定量趋势分析(Section 2),通过对arXiv 2020-2024年间所有CS类目综述论文的大规模统计,建立起AI综述泛滥的可量化证据基础。具体而言,研究者收集了标题包含"survey"、"review"、"overview"或"taxonomy"关键词的论文共10,063篇,并从三个互补维度进行分析:(1)各年度综述论文数量的绝对增长趋势;(2)利用开源AI内容检测器(desklib/ai-text-detector-v1.01)估计每篇论文的AI生成概率分数,衡量AI参与写作的程度变化;(3)检测"异常作者"——定义为一个月内以少于2个合作者身份提交3篇及以上综述的作者,这种投稿模式在传统学术环境中极为罕见,强烈暗示了AI批量生成的可能性。为增强结论稳健性,附录中还引入了DeTeCtive和MAGE两个来自顶级会议的AI检测器进行交叉验证,以及引用重叠度和语义相似度等辅助指标。

第二层是质量问题剖析(Section 3.1),从结构、分类、引用和冗余四个维度系统诊断AI综述的质量缺陷。第三层是检测指标提出(Section 3.2),为识别AI综述提供实用的启发式方法。第四层是文化影响分析(Section 4),分别从研究者、审稿人和编辑三个利益相关方的视角讨论AI综述泛滥的深层影响。第五层是政策建议与前瞻愿景(Sections 5-6),从制度规范和技术平台两个层面提出解决方案。

关键设计

质量缺陷的四维诊断体系

论文的核心贡献之一在于建立了一个系统化的AI综述质量诊断框架,将问题分解为四个相互关联但各具特色的维度。

维度一:结构缺陷。SurveyForge的研究表明,AI生成的综述存在显式的结构性不足。具体表现为:大纲混乱,无法反映领域的概念结构,读起来像是话题或论文的无组织罗列,缺乏清晰的叙事脉络;关键章节(如背景介绍、主题分类法)要么浅薄要么干脆缺失。相比之下,人类撰写的综述通常会定义精确的子类别和过渡衔接,形成连贯的认知架构。

维度二:分类法缺乏原创性。论文在实证研究中发现,许多可疑综述简单模仿现有分类体系(甚至来自维基百科条目),不提出任何新的概念化视角。例如,多篇AI撰写的Vision Transformer (ViT)综述都采用几乎相同的章节划分——"骨干架构"和"分类/检测应用",彼此高度相似。这种模板化特征暗示LLM依赖相同的知名论文或早期综述作为参照。而一篇真正有价值的人类撰写综述可能会从全新角度组织文献,比如按效率策略对ViT进行分类。

维度三:引用和内容不准确。这是最为突出的质量问题。AI综述频繁出现引用异常:遗漏真正相关和有影响力的工作,同时过度引用不太相关或晦涩的论文,暗示引用列表是通过关键词匹配而非专家判断组装的。在某些案例中,引用甚至是完全虚构的(LLM幻觉),志愿者团体(如Academ-AI)已经发现大量预印本中包含无法找到的参考文献或与上下文不符的引用。

维度四:冗余与低边际效用。不同AI综述之间存在显著的内容重叠,经常出现近乎相同的措辞。这指向一个更深层的文本复用问题:当多个作者要求LLM"写一篇关于X的文献综述"时,模型通常会产生非常相似的回复。研究显示LLM使用的某些写作模式在学术论文中急剧上升,表明许多论文现在共享相同的风格。结果是,一个热门话题上的第N篇综述,其边际学术价值几乎为零,但仍然增加了研究者必须过滤的噪声。

三维启发式检测指标

为将质量诊断从定性判断提升为可操作的检测工具,论文提出了三类互补的启发式检测指标。

GPT生成短语检测:最直接的方法是扫描论文中暴露AI参与的标志性短语,如"as an AI language model"、"my knowledge cutoff"、"as of September 2021"等。这些短语清楚表明作者未对LLM生成文本进行适当编辑。研究者编写脚本扫描arXiv CS综述论文,确实发现了多个匹配案例。

引用重叠度分析:基于假设——LLM对特定话题可能总是引用同一组知名论文——研究者分析了同一ML话题上10篇近期综述的引用列表。结果发现任意两篇平均共享约60-70%的相同引用。这一比例远高于独立工作的作者基于个人文献检索所预期的水平,暗示了对相同AI来源的共同依赖。附录中的进一步分析显示,2022年前引用重叠率不足40%(Jaccard指数<0.3),2022年后则超过60%(Jaccard指数>0.5),而任意两篇综述间的随机基线不到1%。

长度与重复模式分析:利用简单语言模型测量可疑论文与已知人类综述论文的词分布熵值。可疑论文通常具有更低的词汇多样性(重复使用常见短语的频率更高)。定性观察中还发现,多篇论文的连续段落以完全相同的过渡词开头,如"Furthermore",这是GPT写作的典型特征。

政策建议与动态活综述

论文的"解决方案"层面由两部分组成:近期可行的政策建议和长期前瞻的技术平台。

六项政策建议:(1)作者声明与透明度——要求作者在方法部分或脚注中明确披露AI在写作过程中的使用方式和范围,LLM不应被列为共同作者;(2)更严格的综述审查标准——至少指派一名资深审稿人或领域主席专门评估综述的深度和价值,审查表应包含"是否引入新见解或有意义的分类法"等定制问题;(3)冗余投稿限制——会议和期刊应协调避免将"综述赛道"变成容易或快速发表的低门槛通道,当某话题已有优质综述时,应对后续缺乏差异化的综述施加更严格判断;(4)AI检测辅助审稿——将AI内容检测作为评估投稿的辅助因素之一(高分数触发更深入审查而非自动拒稿),审稿人抽查引用准确性;(5)激励高质量综述——创建专门的综述发表渠道(如"ML综述与综合期刊"),设立"最佳综述论文奖";(6)教育与伦理引导——会议和大学应教育新手研究者正确使用LLM,将AI生成文本视为第三方内容。

动态活综述(Dynamic Live Surveys)愿景:这是论文最具前瞻性的提案,旨在从根本上超越传统静态一次性综述的局限。其核心理念是建设一个开放的在线知识库,通过AI驱动的内容摄取和领域专家策展的无缝整合,实现持续进化。框架包含四个关键特性:(1)实时更新——自动化代理每日扫描多个来源(arXiv、会议论文集、基准排行榜),新算法和数据集在发布后数小时内出现在平台上;(2)人机策展闭环——领域专家通过提示优化引导AI代理的关注点,验证或重构分类节点,调整冲突的解释,而AI代理处理例行的摄取、格式化和初步摘要工作;(3)版本控制与分支——借鉴软件开发实践,允许贡献者探索替代的分类法、方法论辩论或实验结构,经严格审查和投票后才合并到主线;(4)激励对齐——通过ORCID链接、数字徽章、存档快照的共同作者身份或正式引用来认可贡献者。平台提供线性叙事视图、层级大纲和交互式引用图谱,定期生成存档快照以提供可引用记录。

实验关键数据

主实验:arXiv综述论文趋势定量分析

论文对arXiv 2020-2024年间所有CS类目的10,063篇综述论文进行了系统分析,从三个维度建立了AI综述泛滥的定量证据。

维度 2020 2021 2022 2023 2024 关键趋势
综述论文数量 基线较低 稳步增长 拐点出现,加速 持续加速增长 爆发式增长 2022-2023出现ChatGPT驱动的转折点
平均AI生成分数 较低 较低 开始上升 显著提升 持续高位 高AI内容分数论文占比从3.6%翻倍至6.2%
异常作者数量 较少 较少 开始增加 大幅增加 继续攀升 2022年同样出现加速转折

附录进一步报告了使用DeTeCtive和MAGE两个独立AI检测器的交叉验证结果:

AI检测方法 2020→2021增长率 2021→2022增长率 2022→2023增长率 2023→2024增长率
DeTeCtive 23.37% 10.60% 30.81% 42.10%
MAGE 15.86% 18.60% 70.58% 53.00%

三个独立检测器均显示2022年后AI生成分数出现显著加速,强有力地证实了"后2022年激增"的核心发现。语义相似度分析进一步佐证了这一趋势:同话题综述的语义相似度从2022年的0.6033激增至2023年的0.8367,随后在2024年稳定在0.7986的高位。

消融实验与辅助分析

引用重叠度分析

分析维度 2022年前 2022年后 随机基线
引用重叠百分比 <40% >60% <1%
Jaccard相似度指数 <0.3 >0.5 极低
同话题10篇综述平均共同引用比例 60-70%

这一结果表明,2022年后的综述论文在引用选择上呈现出高度趋同性,远超独立研究者基于个人文献检索的正常范围,强烈暗示了对共同AI来源的依赖。

典型案例:论文特别指出了Model Context Protocol (MCP)话题的案例——在大约一个月内就出现了超过5篇综述预印本。尽管MCP是一个近期热点话题,但如此短时间内释放出的综述数量显然是冗余的,可能对研究者造成困惑并损害社区。

研究者调查数据:Van Noorden和Perkel(2023)对1,600位研究者的调查显示,虽然许多受访者报告尝试过使用ChatGPT进行写作,但大量研究者同时对AI生成学术作品的准确性和完整性表达了怀疑——这意味着连高质量综述也可能因与AI综述混淆而遭受信任折扣。

产业佐证:AI内容检测公司Originality.ai的大规模研究报告指出,自ChatGPT可用以来,arXiv上可能由AI辅助撰写的论文数量增加了72%。高AI内容分数论文的比例从2022年末的约3.6%翻倍至2023年末的约6.2%。Kobak等人(2024)分析数百万篇科学论文摘要后得出结论:到2024年,超过10%的科学摘要已被LLM处理。

关键发现

  1. 2022年是分水岭:综述数量、AI生成分数和异常作者数三个独立指标在2022年同步出现拐点,时间与ChatGPT及其他先进LLM的发布高度吻合,构成强有力的因果推断证据
  2. 三重检测器交叉验证:DeTeCtive、MAGE和原始检测器三种独立方法均确认了后2022年的AI生成加速趋势,排除了单一检测器偏差的可能性
  3. 引用趋同性异常:2022年后综述间引用重叠率从<40%激增至>60%以上,结合语义相似度的同步跳升(从0.60到0.84),表明AI综述不仅数量泛滥,内容也高度同质化
  4. "文献污染"的自我强化风险:低质量综述可能因易于搜索和引用而获得citation,继而互相引用形成闭环,扭曲引用景观——类似于数据投毒的"文献投毒"
  5. 审稿系统的过载:审稿人需要额外时间验证可疑综述的引用准确性,这种本不应存在的工作负担挤占了评估实质性贡献的精力

亮点与洞察

  1. "综述DDoS攻击"隐喻精妙而深刻:将AI综述泛滥与网络安全中的DDoS攻击类比,不仅形象生动,更准确捕捉了问题的系统性本质——关键不在于单篇论文质量差,而在于海量涌入的规模效应瘫痪了学术社区的"服务能力"(注意力、审稿资源、信任基础)

  2. 多维度定量证据构建了compelling的论证链:10,063篇论文的统计分析、三个独立AI检测器的交叉验证、引用重叠度和语义相似度等多层指标互相印证,使得"后2022年AI综述激增"这一核心论点几乎无可辩驳

  3. 三方视角的文化影响分析触及问题深层:从研究者的"文献杂乱"焦虑、审稿人的"空洞语言"审稿疲劳、到编辑的"作者身份"伦理困境,论文不仅讨论了表面的数量问题,更揭示了AI综述泛滥对学术文化和信任基础的侵蚀性影响

  4. "动态活综述"愿景具有范式转换潜力:提出从一次性静态综述向社区维护、版本控制、AI+人类协作的活文档转型,这不仅是对当前问题的修补方案,更是对学术知识组织方式的根本性重新想象,如同从瀑布开发模式转向持续集成/持续部署

  5. 问题意识的前瞻性:论文早在AI综述泛滥成为普遍共识前就发出了系统性警告,并提供了定量证据支撑。论文指出的"文献污染"自我强化风险——低质量综述互引形成引用闭环——特别具有预见性

局限与展望

  1. "异常作者"定义过于粗糙:将"一个月内以少于2个合作者提交3+篇综述"定义为异常,未充分考虑大型研究组(如中国的某些机构模式)中导师同时参与多篇综述的合理场景,也未区分是否涉及不同话题领域的综述

  2. AI检测工具的固有局限:开源AI检测器本身存在相当的假阳性和假阴性率,论文中使用的desklib检测器的准确度未经严格校准,基于其的统计数据可能存在系统性偏差。虽然附录使用DeTeCtive和MAGE进行了交叉验证,但三者的趋势一致并不完全排除共同方法偏差

  3. 仅涵盖CS领域:分析局限于arXiv的CS类目,但AI综述泛滥在生物医学(bioRxiv/medRxiv)、物理学等领域同样或更严重,结论的跨学科泛化性需审慎看待

  4. "动态活综述"愿景缺乏实操路径:这一提案虽然理念前瞻,但面临激励不对齐(维护成本高但学术回报低)、治理复杂性(社区分歧如何解决)、技术平台建设(版本控制+权限管理+自动摄取的集成系统)等实际挑战,论文对这些难点几乎未给出具体解决路径

  5. 对AI辅助写作的积极面讨论不够平衡:论文的立场偏向限制性措施,但AI辅助写作对非英语母语研究者、资源有限的机构研究者等群体的"能力增强"价值同样不容忽视,如何在限制滥用和保障赋能之间取得平衡,需要更细致的讨论

  6. 缺乏对"综述"与"研究论文"中AI使用差异化讨论:论文将焦点放在综述,但AI辅助在研究论文和综述中的伦理边界可能有本质差异——综述的核心价值在于"综合判断力",而研究论文的价值在于"原创发现",这种差异化分析可以强化论文的论点

相关工作与启发

自动综述生成系统方面,AutoSurvey(Wang et al., 2024)展示了LLM自动写综述的技术可行性,从侧面印证了低门槛批量生成综述的技术基础已经成熟。SurveyForge(Yan et al., 2025)从结构启发式、记忆驱动生成和多维评估角度系统分析了AI综述的缺陷,为本文的质量诊断提供了直接的实证支撑。SurveyAgent(Wang et al., 2024)提出了交互式个性化综述生成,试图在自动化和用户控制之间寻求平衡。

AI生成文本检测领域,Kobak等人(2024)通过分析数百万科学论文摘要中的"过量词汇"现象(如"delve"、"intricate"等LLM偏好用词的急剧增加),从语言学角度提供了AI渗透学术写作的间接但有力的证据。DeTeCtive(Guo et al., NeurIPS 2024)基于多层对比学习检测AI文本,MAGE(Li et al., 2023)则面向"野外"场景的AI文本检测,两者在附录中被用作交叉验证工具。

学术诚信与AI伦理政策讨论中,Science主编Thorp(2023)的社论"ChatGPT is fun, but not an author"明确否定了AI作为作者的资格,Bockting等人(2023)在Nature发表的"Living guidelines for generative AI"强调了科学家必须监督AI使用。Van Noorden和Perkel(2023)在Nature的大规模调查揭示了研究者对AI写作的矛盾态度。Haider等人(2024)则警告了AI生成论文渗入Google Scholar的风险。

启发方向:(1)综述质量自动评估工具——将本文的诊断维度(结构完整性、分类原创性、引用准确性、内容独特性)形式化为可计算指标;(2)学术平台的AI内容分级标记系统——类似食品安全评级,为综述论文标注AI参与程度和质量等级;(3)动态活综述的技术平台原型——整合自动文献摄取、版本控制和专家策展的开源平台建设

评分

⭐⭐⭐⭐ (4/5)

  • 影响力 ⭐⭐⭐⭐⭐:直击学术社区最敏感的痛点,"综述DDoS攻击"概念具有高传播力,能引发广泛讨论和政策层面的实际变化
  • 论证质量 ⭐⭐⭐⭐:10,063篇论文的定量分析基础扎实,三个独立检测器交叉验证增强了说服力,多维度(量化趋势+质量诊断+文化影响)的论证结构逻辑严密
  • 方案可行性 ⭐⭐⭐:六项政策建议中透明度要求和审查标准提升具有较高可行性,但冗余限制和AI检测辅助面临实操困难;"动态活综述"愿景精彩但落地路径模糊
  • 前瞻性 ⭐⭐⭐⭐⭐:在AI综述泛滥尚未成为主流议题时就提出系统性预警,"动态活综述"理念对学术出版的未来走向具有启发性
  • 学术严谨度 ⭐⭐⭐:作为立场论文,定量分析部分严谨度良好,但"异常作者"定义和AI检测工具的校准存在改进空间

相关论文