跳转至

Emergency Response Measures for Catastrophic AI Risk

会议: NeurIPS 2025
arXiv: 2511.05526
代码: 无
领域: AI Safety / AI Governance
关键词: AI安全, 灾难性风险, 前沿安全政策, 应急响应, 中国AI治理

一句话总结

本文分析了如何将前沿安全政策(Frontier Safety Policies, FSPs)模型整合到中国四阶段应急响应框架中,以应对来自先进AI系统的灾难性风险(如大规模杀伤性武器扩散、失控事件等)。

背景与动机

  • 2025年4月政治局学习中,习近平呼吁建立AI技术监测、风险预警和应急处置体系
  • 2025年2月发布的《国家突发事件总体应急预案》将"人工智能安全"与地震、网络攻击、传染病并列为需要"群防群控"的潜在突发事件
  • TC260已发布《生成式人工智能服务安全应急响应指南》,采用四阶段框架(预防准备、监测预警、应急处置、善后恢复)
  • 尽管框架已建立,但前两个主动阶段(预防和预警)的具体技术实现机制仍在开发中
  • 国际上领先AI公司(Anthropic、OpenAI、Google DeepMind)已广泛采用FSPs来管理灾难性AI风险

核心问题

如何在中国已有的四阶段应急响应框架基础上,利用国际通行的前沿安全政策(FSPs)模型,为AI灾难性风险的预防与预警阶段提供具体可操作的技术实现方案。

方法详解

中国现有AI监管体系

本文系统梳理了四大基础性监管工具:

监管文件 发布时间 核心机制
《生成式AI服务管理暂行办法》 2023.8 部署前安全评估、模型备案
AI安全治理框架 2024.9(2025.9更新) 风险分类分级、三类风险识别
生成式AI安全应急响应指南 2024.12(2025.9更新) 四阶段应急响应协议
GB/T 45654-2025 2025.4 全生命周期技术规范

前沿安全政策(FSPs)模型

FSPs的核心组成要素:

  1. 危险能力评估(Dangerous Capability Evaluations):对模型进行系统性测试,评估其在CBRN武器、网络攻击、自主复制等方面的能力水平
  2. 分级阈值体系(Tiered Thresholds):预定义不同危险能力等级的触发阈值。以Anthropic为例,定义了CBRN武器工程和自主AI研发两类阈值,2025年5月已触发ASL-3
  3. 预规划安全措施(Pre-planned Mitigations):在不同阈值等级下预设递进式安全措施:
  4. 中等风险:增强输入/输出过滤、限制API访问
  5. 高风险:暂停部署,强化模型权重安全
  6. 极端风险:停止开发
  7. 持续监测与政府通知:Anthropic承诺在模型超过ASL-2安全等级时通知美国政府;Google DeepMind将在模型达到预定义关键能力时与政府共享信息

FSPs与中国应急框架的对接

\[\text{应急响应} = \underbrace{\text{预防准备} + \text{监测预警}}_{\text{FSPs覆盖的主动阶段}} + \text{应急处置} + \text{善后恢复}\]
  • 预防准备:FSPs要求开发者定义危险能力阈值并预规划安全措施,确保在危险能力出现前做好准备
  • 监测预警:FSPs要求持续能力评估,类似中国对地震活动的监测,在AI系统展示有害能力之前就检测风险趋势

政策建议:扩展现有制度

  1. 在GB/T 45654-2025的部署前评估中增加灾难性风险测试(如使用上海AI Lab的前沿风险评估套件)
  2. 在模型备案文档要求中新增FSP维护义务
  3. 在未来AI立法中写入前沿AI开发者采用FSPs的法律义务

实验关键数据

本文为政策分析论文,无实验数据。但提供了关键的制度对比分析:

对比维度 中国(TC260框架) 美国(CA SB53) 欧盟(GPAI CoP)
风险分类 三类:固有/应用/社会 灾难性风险:CBRN、网络、失控 四类:CBRN、失控、网络、行为操纵
评估要求 部署前31项安全检查 开发者自设阈值 系统性风险分级
报告时限 未明确具体时限 24小时(致命风险) 2天(关键基础设施)/5天(网络安全)
法律约束力 国标+行政规章 州法律(已签署) 行为准则(自愿)

亮点

  • ⭐ 首次系统论证FSPs模型与中国应急管理体系的制度兼容性,发现高度对齐
  • ⭐ 全面梳理了中国AI安全治理的监管工具演进(2023-2025年),提供清晰的制度图景
  • ⭐ 将上海AI Lab/Concordia AI联合发布的前沿AI风险管理框架与国际实践(Seoul承诺等)进行系统对比
  • 提出在现有备案制度基础上"最小侵入式"的政策扩展路径,而非推倒重来

局限性 / 可改进方向

  • FSPs主要解决可预见且可测量的风险,对全新且不可预见的威胁效果有限
  • 自审制与政府监管各有激励失调风险:政府主导可能僵化,自治可能导致不透明
  • FSPs主要覆盖预防和监测阶段,应急处置和善后恢复需要额外的制度设计
  • 缺乏对开源AI模型风险治理的深入讨论(仅在AI安全治理框架中简要提及)
  • 未详细讨论国际协调机制在灾难性AI风险治理中的角色

与相关工作的对比

方面 本文 Shanghai AI Lab框架 RAND报告
焦点 中国应急体系+FSPs 风险管理框架实操 失控事件应急
覆盖阶段 四阶段全覆盖 全生命周期 应急处置
适用范围 中国监管语境 通用AI开发者 美国语境

启发与关联

  • 灾难性AI风险的治理不仅是技术问题也是制度设计问题,FSPs提供了一个连接技术评估与制度响应的桥梁
  • 中国的"一案三制"应急管理架构为AI安全治理提供了成熟的制度基础,其他领域(如网络安全)的应急经验可借鉴
  • 2025年Anthropic激活ASL-3保护措施的案例表明,FSPs在实践中已开始发挥作用

评分

  • ⭐ 新颖性: 7/10 — 将FSPs与中国应急框架对接的分析视角新颖,但政策建议相对直观
  • ⭐ 实验充分度: 6/10 — 政策论文无需实验,但制度对比分析可更深入
  • ⭐ 写作质量: 8/10 — 结构清晰,文献综述全面,对中国监管体系的英文介绍准确
  • ⭐ 价值: 7/10 — 对AI安全治理政策制定者有直接参考价值,学术贡献以制度分析为主