Emergency Response Measures for Catastrophic AI Risk¶
会议: NeurIPS 2025
arXiv: 2511.05526
代码: 无
领域: AI Safety / AI Governance
关键词: AI安全, 灾难性风险, 前沿安全政策, 应急响应, 中国AI治理
一句话总结¶
本文分析了如何将前沿安全政策(Frontier Safety Policies, FSPs)模型整合到中国四阶段应急响应框架中,以应对来自先进AI系统的灾难性风险(如大规模杀伤性武器扩散、失控事件等)。
背景与动机¶
- 2025年4月政治局学习中,习近平呼吁建立AI技术监测、风险预警和应急处置体系
- 2025年2月发布的《国家突发事件总体应急预案》将"人工智能安全"与地震、网络攻击、传染病并列为需要"群防群控"的潜在突发事件
- TC260已发布《生成式人工智能服务安全应急响应指南》,采用四阶段框架(预防准备、监测预警、应急处置、善后恢复)
- 尽管框架已建立,但前两个主动阶段(预防和预警)的具体技术实现机制仍在开发中
- 国际上领先AI公司(Anthropic、OpenAI、Google DeepMind)已广泛采用FSPs来管理灾难性AI风险
核心问题¶
如何在中国已有的四阶段应急响应框架基础上,利用国际通行的前沿安全政策(FSPs)模型,为AI灾难性风险的预防与预警阶段提供具体可操作的技术实现方案。
方法详解¶
中国现有AI监管体系¶
本文系统梳理了四大基础性监管工具:
| 监管文件 | 发布时间 | 核心机制 |
|---|---|---|
| 《生成式AI服务管理暂行办法》 | 2023.8 | 部署前安全评估、模型备案 |
| AI安全治理框架 | 2024.9(2025.9更新) | 风险分类分级、三类风险识别 |
| 生成式AI安全应急响应指南 | 2024.12(2025.9更新) | 四阶段应急响应协议 |
| GB/T 45654-2025 | 2025.4 | 全生命周期技术规范 |
前沿安全政策(FSPs)模型¶
FSPs的核心组成要素:
- 危险能力评估(Dangerous Capability Evaluations):对模型进行系统性测试,评估其在CBRN武器、网络攻击、自主复制等方面的能力水平
- 分级阈值体系(Tiered Thresholds):预定义不同危险能力等级的触发阈值。以Anthropic为例,定义了CBRN武器工程和自主AI研发两类阈值,2025年5月已触发ASL-3
- 预规划安全措施(Pre-planned Mitigations):在不同阈值等级下预设递进式安全措施:
- 中等风险:增强输入/输出过滤、限制API访问
- 高风险:暂停部署,强化模型权重安全
- 极端风险:停止开发
- 持续监测与政府通知:Anthropic承诺在模型超过ASL-2安全等级时通知美国政府;Google DeepMind将在模型达到预定义关键能力时与政府共享信息
FSPs与中国应急框架的对接¶
\[\text{应急响应} = \underbrace{\text{预防准备} + \text{监测预警}}_{\text{FSPs覆盖的主动阶段}} + \text{应急处置} + \text{善后恢复}\]
- 预防准备:FSPs要求开发者定义危险能力阈值并预规划安全措施,确保在危险能力出现前做好准备
- 监测预警:FSPs要求持续能力评估,类似中国对地震活动的监测,在AI系统展示有害能力之前就检测风险趋势
政策建议:扩展现有制度¶
- 在GB/T 45654-2025的部署前评估中增加灾难性风险测试(如使用上海AI Lab的前沿风险评估套件)
- 在模型备案文档要求中新增FSP维护义务
- 在未来AI立法中写入前沿AI开发者采用FSPs的法律义务
实验关键数据¶
本文为政策分析论文,无实验数据。但提供了关键的制度对比分析:
| 对比维度 | 中国(TC260框架) | 美国(CA SB53) | 欧盟(GPAI CoP) |
|---|---|---|---|
| 风险分类 | 三类:固有/应用/社会 | 灾难性风险:CBRN、网络、失控 | 四类:CBRN、失控、网络、行为操纵 |
| 评估要求 | 部署前31项安全检查 | 开发者自设阈值 | 系统性风险分级 |
| 报告时限 | 未明确具体时限 | 24小时(致命风险) | 2天(关键基础设施)/5天(网络安全) |
| 法律约束力 | 国标+行政规章 | 州法律(已签署) | 行为准则(自愿) |
亮点¶
- ⭐ 首次系统论证FSPs模型与中国应急管理体系的制度兼容性,发现高度对齐
- ⭐ 全面梳理了中国AI安全治理的监管工具演进(2023-2025年),提供清晰的制度图景
- ⭐ 将上海AI Lab/Concordia AI联合发布的前沿AI风险管理框架与国际实践(Seoul承诺等)进行系统对比
- 提出在现有备案制度基础上"最小侵入式"的政策扩展路径,而非推倒重来
局限性 / 可改进方向¶
- FSPs主要解决可预见且可测量的风险,对全新且不可预见的威胁效果有限
- 自审制与政府监管各有激励失调风险:政府主导可能僵化,自治可能导致不透明
- FSPs主要覆盖预防和监测阶段,应急处置和善后恢复需要额外的制度设计
- 缺乏对开源AI模型风险治理的深入讨论(仅在AI安全治理框架中简要提及)
- 未详细讨论国际协调机制在灾难性AI风险治理中的角色
与相关工作的对比¶
| 方面 | 本文 | Shanghai AI Lab框架 | RAND报告 |
|---|---|---|---|
| 焦点 | 中国应急体系+FSPs | 风险管理框架实操 | 失控事件应急 |
| 覆盖阶段 | 四阶段全覆盖 | 全生命周期 | 应急处置 |
| 适用范围 | 中国监管语境 | 通用AI开发者 | 美国语境 |
启发与关联¶
- 灾难性AI风险的治理不仅是技术问题也是制度设计问题,FSPs提供了一个连接技术评估与制度响应的桥梁
- 中国的"一案三制"应急管理架构为AI安全治理提供了成熟的制度基础,其他领域(如网络安全)的应急经验可借鉴
- 2025年Anthropic激活ASL-3保护措施的案例表明,FSPs在实践中已开始发挥作用
评分¶
- ⭐ 新颖性: 7/10 — 将FSPs与中国应急框架对接的分析视角新颖,但政策建议相对直观
- ⭐ 实验充分度: 6/10 — 政策论文无需实验,但制度对比分析可更深入
- ⭐ 写作质量: 8/10 — 结构清晰,文献综述全面,对中国监管体系的英文介绍准确
- ⭐ 价值: 7/10 — 对AI安全治理政策制定者有直接参考价值,学术贡献以制度分析为主