Designing Incident Reporting Systems for Harms from General-Purpose AI¶
会议: AAAI 2026
arXiv: 2511.05914
代码: 无
领域: AI 安全与治理
关键词: AI Incident Reporting, AI Governance, Safety-Critical Systems, Policy Design, General-Purpose AI
一句话总结¶
通过文献综述和九个安全关键行业(核能、航空、医疗等)的案例研究,提出了 AI 事件报告系统制度设计的七维框架,为美国通用 AI 事件报告的政策设计提供系统性指导。
研究背景与动机¶
通用人工智能(GPAI)系统,尤其是大语言模型(LLM),正在造成越来越多的现实世界危害:
- 协助实施 2560 万美元的金融诈骗
- 辅助规划爆炸袭击
- 生成深度伪造色情内容
- 意外删除公司全部代码
- 展示勒索和欺骗能力
- 在美国及全球传播选举虚假信息
核心矛盾:根据正常事故理论(Normal Accident Theory),在 GPAI 这样的复杂系统中,严重事件随时间推移是不可避免的。部署前的审计无法防止所有事件——LLM 的涌现能力可能在部署后意外出现,创造出未预见的事件类型。然而,当前 AI 事件报告机制的制度设计(institutional design)方面的研究几乎为空白。
现状: - 截至 2025 年 7 月,仅中国和欧盟要求通用 AI 事件报告 - 美国已有多项立法提案但尚未通过 - 非政府数据库(AIID、AIAAIC、AVID)存在但缺乏利益相关方支持 - 文献普遍支持事件报告,但缺乏系统性的制度设计分析
本文填补了这一空白,首次系统性地研究 AI 事件报告系统的制度设计选择及其适用条件。
方法详解¶
整体框架¶
本文采用三步案例研究方法: 1. 选取九个安全关键行业作为案例:核能、航空、农药、药品、网络安全、大坝、铁路、职业安全、医疗 2. 通过文献综述开发由七个维度组成的制度设计框架 3. 从案例行业提取设计考量,讨论特定设计选择在 AI 背景下的适用性
关键设计¶
设计一:七维制度设计框架
框架的七个维度如下:
| 维度 | 定义 | 可选项 |
|---|---|---|
| 政策目标 | 系统试图达成的目标 | 安全学习(learning)或 问责(accountability) |
| 报告与接收主体 | 提交和接收报告的参与者 | 用户、受害者、第三方、企业、行业员工、政府 |
| 事件类型 | 报告的事件类别 | 安全事件、权利事件、安全漏洞事件 |
| 风险实现程度 | 报告事件的风险阶段 | 隐患(hazard)→情境(situation)→未遂事件(near miss)→危害事件(harm event) |
| 报告强制性 | 激励报告的机制 | 强制性(法律要求) 或 自愿性 |
| 报告者匿名性 | 谁能获知报告者身份 | 公开、保密、匿名 |
| 报告后续行动 | 收到报告后采取的措施 | 信息共享、信息公开、审计、监管行动 |
本文的一个重要概念澄清是区分 AI 问题/缺陷(issues/flaws) 和 AI 事件(incidents):问题是系统条件(隐患),暴露于外部环境后成为事件的前提;事件是可能或已实际造成危害的事件。
设计二:事件生命周期模型
风险从产生到实现的完整路径: - 隐患(Hazard):系统内在条件,可能导致危害 - 情境(Situation):隐患暴露于外部环境 - 未遂事件(Near Miss):可能造成但最终未造成危害的事件 - 危害事件(Harm Event):实际造成了危害
医院研究表明:安全事件中不到 1% 造成严重伤害,18% 造成轻微伤害,82% 未造成伤害。未遂事件的发生频率估计是危害事件的 300 倍。这意味着 AI 未遂事件报告对安全学习可能非常有价值。
设计三:基于九行业案例的设计考量
从案例中提取的关键设计考量包括:
(1) 政策目标的双重性:安全学习和问责虽然可以在同一系统中追求,但实践中双目标系统罕见,因为它们往往指向相反的设计选择。例如,鼓励自愿报告与惩罚性执法相矛盾。可能需要建立多个单一目标系统。
(2) 监管 vs 非监管机构运营: - 监管机构运营:通常用于强制报告、问责导向 - 非监管机构运营:通常非惩罚性、面向学习。FAA 将自愿报告系统 ASRS 完全外包给 NASA,因为 NASA 不监管航空公司,从而促进了信任。ASRS 自 1975 年以来已收到超过 200 万份报告。
(3) 报告覆盖面:由于 GPAI 危害形式多样且供应链复杂,需要从多方(用户、企业员工、第三方、公众)收集信息。FAA 为不同职业(调度员、空管、飞行员等)维护了不少于 8 个独立的自愿报告项目。
损失函数 / 训练策略¶
(本文为政策研究论文,不涉及模型训练。此处阐述其方法论策略。)
研究采用定性案例分析方法,方法论改编自 Raji et al. (2022)、Ayling and Chapman (2022) 和 Stein et al. (2024): 1. 通过种子文章识别九个安全关键行业 2. 对各行业事件报告制度进行文献综述 3. 按七维度框架对各行业报告系统进行分类编码 4. 提取共性和最佳实践作为 AI 事件报告设计考量
实验关键数据¶
主实验¶
(本文为政策分析论文,"主实验"对应为案例行业的系统化对比分析。)
九行业事件报告系统对比摘要:
| 行业 | 强制报告 | 自愿报告 | 运营主体 | 覆盖范围 |
|---|---|---|---|---|
| 核能 | ✓ | ✓ | 监管(NRC)+ 国际(IAEA) | 企业+员工 |
| 航空 | ✓ | ✓ | 监管(FAA)+ 非监管(NASA/ASRS) | 企业+员工+公众 |
| 农药 | ✓ | ✓ | 多级(联邦+州+地方) | 农民+医生+消费者 |
| 药品 | ✓ | ✓ | 监管(FDA/MedWatch) | 企业(90%强制报告)+消费者 |
| 网络安全 | ✓ | ✓ | 22个联邦机构,45+要求 | 企业+政府 |
| 大坝 | ✓ | ✓ | 联邦+州+行业 | 工程师+政府 |
| 铁路 | ✓ | ✓ | FRA + NASA(C3RS) | 企业+员工 |
| 职业安全 | ✓ | ✗ | OSHA | 雇主 |
| 医疗 | ✓ | ✓ | 州机构+联邦 | 医院+医生+患者 |
关键定量发现: - FDA MedWatch 数据库中 90% 的报告来自企业的强制报告 - FAA 野生动物碰撞数据库中 91% 的事件被报告,但来自 10+ 个不同系统 - 某医院研究:<1% 事件造成严重伤害,82% 未造成伤害 - C3RS(铁路自愿报告)仅吸引 800 家铁路公司中的 23 家参与,行业买入失败 - Kesari (2023) 发现强制网络安全事件报告使身份盗窃投诉平均减少 10.1%
消融实验¶
(政策分析论文中对应"设计维度的变体分析"。)
强制 vs 自愿报告效果对比:
| 报告类型 | 优势 | 劣势 | 典型案例 |
|---|---|---|---|
| 强制报告 | 覆盖率高、监管可见性强 | 可能抑制低严重性事件报告 | FDA 90%报告来自强制要求 |
| 自愿报告 | 覆盖未遂事件、促进学习 | 行业买入困难、竞争顾虑 | ASRS 200万+报告 vs C3RS 仅23家参与 |
| 匿名报告 | 降低报复恐惧、提高报告率 | 阻碍问责、后续调查困难 | ASRS 去标识化 + FAA 免责保护 |
| 公开报告 | 便于问责和后续调查 | 抑制报告(72%医生表示法律保护会增加报告意愿) | OSHA 强制公开报告 |
关键发现¶
- 安全学习和问责目标在同一系统中难以兼容,往往需要分设系统
- ASRS 的成功(200万+报告)依赖多重因素:非监管运营、去标识化、免责保护、利益相关方早期参与。该模式在铁路领域复制失败(C3RS)
- 网络安全领域的 22 个联邦机构、45+ 报告要求造成严重碎片化,阻碍数据聚合和学习——AI 应避免此陷阱
- 报告阈值模糊会导致企业规避合规(汽车制造商案例),精确定义至关重要
- GPAI 的多域部署和复杂供应链意味着事件信息分散于多方,需要多系统多层级报告
亮点与洞察¶
- 七维框架提供了分析和比较事件报告系统的统一语言,弥补了 AI 治理文献中的空白
- 事件生命周期模型清晰区分了隐患/情境/未遂/危害事件,为 AI 事件定义的标准化提供基础
- 从九个成熟行业的经验教训中提取设计原则,避免 AI 领域从零开始摸索
- 对 ASRS 模式在 AI 行业适用性的批判性分析具有实践指导意义
局限与展望¶
- 分析以美国为中心,部分经验可能不易迁移至其他司法管辖区
- 未进行事件报告系统是否优于其他治理措施的成本收益分析
- 未深入讨论 AI 安全漏洞事件(与安全/权利事件不同),其信息共享存在额外风险
- 框架侧重制度设计,未涉及技术实现(事件监测/检测方法)、安全文化、用户交互等社会技术因素
- 缺乏从业者访谈、用户实验和行业调查的实证数据
相关工作与启发¶
- vs Raji et al. (2022): Raji 等人提议建立公民-监管机构报告系统以促进审计问责,本文提供更全面的制度设计维度分析,指出问责和学习可能需要分设系统
- vs McGregor (2021) (AIID): AIID 是重要的第一步,但缺乏利益相关方买入和安全学习所需的信息——所有九个行业中,八个在独立数据库之外还实施了其他报告机制
- vs Shrishak (2023): Shrishak 提议效仿 FAA/ASRS 模式建立 AI 自愿报告系统,但本文通过 C3RS 失败案例指出 ASRS 模式在 AI 行业的适用性存疑(竞争动态、工会缺失、多领域部署复杂性)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统性的 AI 事件报告制度设计分析框架
- 实验充分度: ⭐⭐⭐ 定性案例分析详实,但缺乏定量实证和从业者数据
- 写作质量: ⭐⭐⭐⭐ 结构清晰,论证严密,文献综述全面
- 价值: ⭐⭐⭐⭐ 对 AI 安全治理政策制定者具有直接参考价值,时效性强
相关论文¶
- [NeurIPS 2025] MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision
- [AAAI 2026] Private Frequency Estimation via Residue Number Systems
- [AAAI 2026] A Graph-Theoretical Perspective on Law Design for Multiagent Systems
- [AAAI 2026] SynWeather: Weather Observation Data Synthesis across Multiple Regions and Variables via a General Diffusion Transformer
- [AAAI 2026] A New Strategy for Verifying Reach-Avoid Specifications in Neural Feedback Systems