跳转至

📚 AI Paper Notes

Emergency Response Measures for Catastrophic AI Risk

Emergency Response Measures for Catastrophic AI Risk¶

会议: NeurIPS 2025
arXiv: 2511.05526
代码: 无
领域: AI Safety / AI Governance
关键词: AI安全, 灾难性风险, 前沿安全政策, 应急响应, 中国AI治理

一句话总结¶

本文分析了如何将前沿安全政策（Frontier Safety Policies, FSPs）模型整合到中国四阶段应急响应框架中，以应对来自先进AI系统的灾难性风险（如大规模杀伤性武器扩散、失控事件等）。

背景与动机¶

2025年4月政治局学习中，习近平呼吁建立AI技术监测、风险预警和应急处置体系
2025年2月发布的《国家突发事件总体应急预案》将"人工智能安全"与地震、网络攻击、传染病并列为需要"群防群控"的潜在突发事件
TC260已发布《生成式人工智能服务安全应急响应指南》，采用四阶段框架（预防准备、监测预警、应急处置、善后恢复）
尽管框架已建立，但前两个主动阶段（预防和预警）的具体技术实现机制仍在开发中
国际上领先AI公司（Anthropic、OpenAI、Google DeepMind）已广泛采用FSPs来管理灾难性AI风险

核心问题¶

如何在中国已有的四阶段应急响应框架基础上，利用国际通行的前沿安全政策（FSPs）模型，为AI灾难性风险的预防与预警阶段提供具体可操作的技术实现方案。

方法详解¶

中国现有AI监管体系¶

本文系统梳理了四大基础性监管工具：

监管文件	发布时间	核心机制
《生成式AI服务管理暂行办法》	2023.8	部署前安全评估、模型备案
AI安全治理框架	2024.9（2025.9更新）	风险分类分级、三类风险识别
生成式AI安全应急响应指南	2024.12（2025.9更新）	四阶段应急响应协议
GB/T 45654-2025	2025.4	全生命周期技术规范

前沿安全政策（FSPs）模型¶

FSPs的核心组成要素：

危险能力评估（Dangerous Capability Evaluations）：对模型进行系统性测试，评估其在CBRN武器、网络攻击、自主复制等方面的能力水平
分级阈值体系（Tiered Thresholds）：预定义不同危险能力等级的触发阈值。以Anthropic为例，定义了CBRN武器工程和自主AI研发两类阈值，2025年5月已触发ASL-3
预规划安全措施（Pre-planned Mitigations）：在不同阈值等级下预设递进式安全措施：
中等风险：增强输入/输出过滤、限制API访问
高风险：暂停部署，强化模型权重安全
极端风险：停止开发
持续监测与政府通知：Anthropic承诺在模型超过ASL-2安全等级时通知美国政府；Google DeepMind将在模型达到预定义关键能力时与政府共享信息

FSPs与中国应急框架的对接¶

\[\text{应急响应} = \underbrace{\text{预防准备} + \text{监测预警}}_{\text{FSPs覆盖的主动阶段}} + \text{应急处置} + \text{善后恢复}\]

预防准备：FSPs要求开发者定义危险能力阈值并预规划安全措施，确保在危险能力出现前做好准备
监测预警：FSPs要求持续能力评估，类似中国对地震活动的监测，在AI系统展示有害能力之前就检测风险趋势

政策建议：扩展现有制度¶

在GB/T 45654-2025的部署前评估中增加灾难性风险测试（如使用上海AI Lab的前沿风险评估套件）
在模型备案文档要求中新增FSP维护义务
在未来AI立法中写入前沿AI开发者采用FSPs的法律义务

实验关键数据¶

本文为政策分析论文，无实验数据。但提供了关键的制度对比分析：

对比维度	中国（TC260框架）	美国（CA SB53）	欧盟（GPAI CoP）
风险分类	三类：固有/应用/社会	灾难性风险：CBRN、网络、失控	四类：CBRN、失控、网络、行为操纵
评估要求	部署前31项安全检查	开发者自设阈值	系统性风险分级
报告时限	未明确具体时限	24小时（致命风险）	2天（关键基础设施）/5天（网络安全）
法律约束力	国标+行政规章	州法律（已签署）	行为准则（自愿）

亮点¶

⭐ 首次系统论证FSPs模型与中国应急管理体系的制度兼容性，发现高度对齐
⭐ 全面梳理了中国AI安全治理的监管工具演进（2023-2025年），提供清晰的制度图景
⭐ 将上海AI Lab/Concordia AI联合发布的前沿AI风险管理框架与国际实践（Seoul承诺等）进行系统对比
提出在现有备案制度基础上"最小侵入式"的政策扩展路径，而非推倒重来

局限性 / 可改进方向¶

FSPs主要解决可预见且可测量的风险，对全新且不可预见的威胁效果有限
自审制与政府监管各有激励失调风险：政府主导可能僵化，自治可能导致不透明
FSPs主要覆盖预防和监测阶段，应急处置和善后恢复需要额外的制度设计
缺乏对开源AI模型风险治理的深入讨论（仅在AI安全治理框架中简要提及）
未详细讨论国际协调机制在灾难性AI风险治理中的角色

与相关工作的对比¶

方面	本文	Shanghai AI Lab框架	RAND报告
焦点	中国应急体系+FSPs	风险管理框架实操	失控事件应急
覆盖阶段	四阶段全覆盖	全生命周期	应急处置
适用范围	中国监管语境	通用AI开发者	美国语境

启发与关联¶

灾难性AI风险的治理不仅是技术问题也是制度设计问题，FSPs提供了一个连接技术评估与制度响应的桥梁
中国的"一案三制"应急管理架构为AI安全治理提供了成熟的制度基础，其他领域（如网络安全）的应急经验可借鉴
2025年Anthropic激活ASL-3保护措施的案例表明，FSPs在实践中已开始发挥作用

评分¶

⭐ 新颖性: 7/10 — 将FSPs与中国应急框架对接的分析视角新颖，但政策建议相对直观
⭐ 实验充分度: 6/10 — 政策论文无需实验，但制度对比分析可更深入
⭐ 写作质量: 8/10 — 结构清晰，文献综述全面，对中国监管体系的英文介绍准确
⭐ 价值: 7/10 — 对AI安全治理政策制定者有直接参考价值，学术贡献以制度分析为主