跳转至

Designing Incident Reporting Systems for Harms from General-Purpose AI

会议: AAAI 2026
arXiv: 2511.05914
代码: 无
领域: AI 安全与治理
关键词: AI Incident Reporting, AI Governance, Safety-Critical Systems, Policy Design, General-Purpose AI

一句话总结

通过文献综述和九个安全关键行业(核能、航空、医疗等)的案例研究,提出了 AI 事件报告系统制度设计的七维框架,为美国通用 AI 事件报告的政策设计提供系统性指导。

研究背景与动机

通用人工智能(GPAI)系统,尤其是大语言模型(LLM),正在造成越来越多的现实世界危害:

  • 协助实施 2560 万美元的金融诈骗
  • 辅助规划爆炸袭击
  • 生成深度伪造色情内容
  • 意外删除公司全部代码
  • 展示勒索和欺骗能力
  • 在美国及全球传播选举虚假信息

核心矛盾:根据正常事故理论(Normal Accident Theory),在 GPAI 这样的复杂系统中,严重事件随时间推移是不可避免的。部署前的审计无法防止所有事件——LLM 的涌现能力可能在部署后意外出现,创造出未预见的事件类型。然而,当前 AI 事件报告机制的制度设计(institutional design)方面的研究几乎为空白。

现状: - 截至 2025 年 7 月,仅中国和欧盟要求通用 AI 事件报告 - 美国已有多项立法提案但尚未通过 - 非政府数据库(AIID、AIAAIC、AVID)存在但缺乏利益相关方支持 - 文献普遍支持事件报告,但缺乏系统性的制度设计分析

本文填补了这一空白,首次系统性地研究 AI 事件报告系统的制度设计选择及其适用条件。

方法详解

整体框架

本文采用三步案例研究方法: 1. 选取九个安全关键行业作为案例:核能、航空、农药、药品、网络安全、大坝、铁路、职业安全、医疗 2. 通过文献综述开发由七个维度组成的制度设计框架 3. 从案例行业提取设计考量,讨论特定设计选择在 AI 背景下的适用性

关键设计

设计一:七维制度设计框架

框架的七个维度如下:

维度 定义 可选项
政策目标 系统试图达成的目标 安全学习(learning)或 问责(accountability)
报告与接收主体 提交和接收报告的参与者 用户、受害者、第三方、企业、行业员工、政府
事件类型 报告的事件类别 安全事件、权利事件、安全漏洞事件
风险实现程度 报告事件的风险阶段 隐患(hazard)→情境(situation)→未遂事件(near miss)→危害事件(harm event)
报告强制性 激励报告的机制 强制性(法律要求) 或 自愿性
报告者匿名性 谁能获知报告者身份 公开、保密、匿名
报告后续行动 收到报告后采取的措施 信息共享、信息公开、审计、监管行动

本文的一个重要概念澄清是区分 AI 问题/缺陷(issues/flaws)AI 事件(incidents):问题是系统条件(隐患),暴露于外部环境后成为事件的前提;事件是可能或已实际造成危害的事件。

设计二:事件生命周期模型

风险从产生到实现的完整路径: - 隐患(Hazard):系统内在条件,可能导致危害 - 情境(Situation):隐患暴露于外部环境 - 未遂事件(Near Miss):可能造成但最终未造成危害的事件 - 危害事件(Harm Event):实际造成了危害

医院研究表明:安全事件中不到 1% 造成严重伤害,18% 造成轻微伤害,82% 未造成伤害。未遂事件的发生频率估计是危害事件的 300 倍。这意味着 AI 未遂事件报告对安全学习可能非常有价值。

设计三:基于九行业案例的设计考量

从案例中提取的关键设计考量包括:

(1) 政策目标的双重性:安全学习和问责虽然可以在同一系统中追求,但实践中双目标系统罕见,因为它们往往指向相反的设计选择。例如,鼓励自愿报告与惩罚性执法相矛盾。可能需要建立多个单一目标系统

(2) 监管 vs 非监管机构运营: - 监管机构运营:通常用于强制报告、问责导向 - 非监管机构运营:通常非惩罚性、面向学习。FAA 将自愿报告系统 ASRS 完全外包给 NASA,因为 NASA 不监管航空公司,从而促进了信任。ASRS 自 1975 年以来已收到超过 200 万份报告。

(3) 报告覆盖面:由于 GPAI 危害形式多样且供应链复杂,需要从多方(用户、企业员工、第三方、公众)收集信息。FAA 为不同职业(调度员、空管、飞行员等)维护了不少于 8 个独立的自愿报告项目。

损失函数 / 训练策略

(本文为政策研究论文,不涉及模型训练。此处阐述其方法论策略。)

研究采用定性案例分析方法,方法论改编自 Raji et al. (2022)、Ayling and Chapman (2022) 和 Stein et al. (2024): 1. 通过种子文章识别九个安全关键行业 2. 对各行业事件报告制度进行文献综述 3. 按七维度框架对各行业报告系统进行分类编码 4. 提取共性和最佳实践作为 AI 事件报告设计考量

实验关键数据

主实验

(本文为政策分析论文,"主实验"对应为案例行业的系统化对比分析。)

九行业事件报告系统对比摘要:

行业 强制报告 自愿报告 运营主体 覆盖范围
核能 监管(NRC)+ 国际(IAEA) 企业+员工
航空 监管(FAA)+ 非监管(NASA/ASRS) 企业+员工+公众
农药 多级(联邦+州+地方) 农民+医生+消费者
药品 监管(FDA/MedWatch) 企业(90%强制报告)+消费者
网络安全 22个联邦机构,45+要求 企业+政府
大坝 联邦+州+行业 工程师+政府
铁路 FRA + NASA(C3RS) 企业+员工
职业安全 OSHA 雇主
医疗 州机构+联邦 医院+医生+患者

关键定量发现: - FDA MedWatch 数据库中 90% 的报告来自企业的强制报告 - FAA 野生动物碰撞数据库中 91% 的事件被报告,但来自 10+ 个不同系统 - 某医院研究:<1% 事件造成严重伤害,82% 未造成伤害 - C3RS(铁路自愿报告)仅吸引 800 家铁路公司中的 23 家参与,行业买入失败 - Kesari (2023) 发现强制网络安全事件报告使身份盗窃投诉平均减少 10.1%

消融实验

(政策分析论文中对应"设计维度的变体分析"。)

强制 vs 自愿报告效果对比:

报告类型 优势 劣势 典型案例
强制报告 覆盖率高、监管可见性强 可能抑制低严重性事件报告 FDA 90%报告来自强制要求
自愿报告 覆盖未遂事件、促进学习 行业买入困难、竞争顾虑 ASRS 200万+报告 vs C3RS 仅23家参与
匿名报告 降低报复恐惧、提高报告率 阻碍问责、后续调查困难 ASRS 去标识化 + FAA 免责保护
公开报告 便于问责和后续调查 抑制报告(72%医生表示法律保护会增加报告意愿) OSHA 强制公开报告

关键发现

  • 安全学习和问责目标在同一系统中难以兼容,往往需要分设系统
  • ASRS 的成功(200万+报告)依赖多重因素:非监管运营、去标识化、免责保护、利益相关方早期参与。该模式在铁路领域复制失败(C3RS)
  • 网络安全领域的 22 个联邦机构、45+ 报告要求造成严重碎片化,阻碍数据聚合和学习——AI 应避免此陷阱
  • 报告阈值模糊会导致企业规避合规(汽车制造商案例),精确定义至关重要
  • GPAI 的多域部署和复杂供应链意味着事件信息分散于多方,需要多系统多层级报告

亮点与洞察

  • 七维框架提供了分析和比较事件报告系统的统一语言,弥补了 AI 治理文献中的空白
  • 事件生命周期模型清晰区分了隐患/情境/未遂/危害事件,为 AI 事件定义的标准化提供基础
  • 从九个成熟行业的经验教训中提取设计原则,避免 AI 领域从零开始摸索
  • 对 ASRS 模式在 AI 行业适用性的批判性分析具有实践指导意义

局限与展望

  • 分析以美国为中心,部分经验可能不易迁移至其他司法管辖区
  • 未进行事件报告系统是否优于其他治理措施的成本收益分析
  • 未深入讨论 AI 安全漏洞事件(与安全/权利事件不同),其信息共享存在额外风险
  • 框架侧重制度设计,未涉及技术实现(事件监测/检测方法)、安全文化、用户交互等社会技术因素
  • 缺乏从业者访谈、用户实验和行业调查的实证数据

相关工作与启发

  • vs Raji et al. (2022): Raji 等人提议建立公民-监管机构报告系统以促进审计问责,本文提供更全面的制度设计维度分析,指出问责和学习可能需要分设系统
  • vs McGregor (2021) (AIID): AIID 是重要的第一步,但缺乏利益相关方买入和安全学习所需的信息——所有九个行业中,八个在独立数据库之外还实施了其他报告机制
  • vs Shrishak (2023): Shrishak 提议效仿 FAA/ASRS 模式建立 AI 自愿报告系统,但本文通过 C3RS 失败案例指出 ASRS 模式在 AI 行业的适用性存疑(竞争动态、工会缺失、多领域部署复杂性)

评分

  • 新颖性: ⭐⭐⭐⭐ 首个系统性的 AI 事件报告制度设计分析框架
  • 实验充分度: ⭐⭐⭐ 定性案例分析详实,但缺乏定量实证和从业者数据
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,论证严密,文献综述全面
  • 价值: ⭐⭐⭐⭐ 对 AI 安全治理政策制定者具有直接参考价值,时效性强

相关论文