With Great Capabilities Come Great Responsibilities: Introducing the Agentic Risk & Capability Framework for Governing Agentic AI Systems¶

会议: AAAI 2026
arXiv: 2512.22211
代码: 无（框架已开源）
领域: LLM Agent / AI治理
关键词: 智能体治理, 风险评估框架, 能力分析, 技术控制, AI安全

一句话总结¶

提出 Agentic Risk & Capability (ARC) 框架，从能力（Capability）视角系统化地识别、评估和缓解智能体 AI 系统的安全与安全风险，为组织级治理提供可操作的结构化方法论。

研究背景与动机¶

领域现状：2025年被称为"AI智能体元年"，各大公司推出了能够自主推理、规划和执行代码/上网/文件修改等任务的LLM Agent系统。然而，Agent系统比基础模型更容易产生不安全行为，治理难度急剧上升。
现有痛点：现有方法要么过于宏观（如EU AI Act、NIST RMF仅提供原则性指导缺乏技术细节），要么过于狭窄（如MAESTRO、OWASP聚焦特定安全威胁需要网络安全专业知识），要么过于微观（如AgentHarm等benchmark只测试特定场景不能全面识别风险）。
核心矛盾：Agent系统具有执行多种操作的自主权，引入的风险范围远超传统LLM系统，但为每个Agent系统做定制化深度风险评估在长期不可持续。
本文要解决什么：如何建立一个系统化、可扩展、可适配的技术治理框架，让组织能够对不同Agent系统进行差异化的风险管理。
切入角度：从"能力"（Capability）而非工具（Tool）的视角分析Agent系统——因为同一能力可由多种工具实现，单一工具也可能支撑多种能力，工具粒度的管控既冗余又容易过时。
核心idea：ARC框架将Agent系统拆解为三个维度进行分析——组件（Components）、设计（Design）和能力（Capabilities），并建立从要素→失效模式→危害→技术控制的完整映射。

方法详解¶

整体框架¶

ARC框架包含三大部分：Elements（要素）→ Risks（风险）→ Controls（控制），辅以Implementation（实施指导）。核心流程是：首先分析Agent系统的要素，然后识别可能的风险，最后推荐对应的技术控制措施。

关键设计¶

模块一：Agent系统三维要素分析¶

做什么：将Agent系统分解为三个分析维度
核心思路：
组件维度：分析单个Agent的LLM引擎、工具（MCP）、指令和记忆
设计维度：分析多Agent的架构模式（层次委派/并行/串行）、角色与访问控制、监控与可追溯性
能力维度：分为认知能力（规划/Agent委派/工具使用）、交互能力（自然语言/多模态/官方通信/商业交易/互联网访问/计算机操作/API接口）和操作能力（代码执行/文件数据管理/系统管理）
设计动机：能力视角相比工具视角有三大优势：(1)更全面的分析单元——避免工具级管控的冗余和过时；(2)能力越多则风险越高，天然支持差异化管理；(3)基于行动的风险对非技术人员更直觉，利于跨部门协作

模块二：风险识别与风险登记册¶

做什么：系统化识别Agent系统所有潜在风险，建立组织级风险登记册
核心思路：每条风险需满足三要素：(1)来源于某个要素（组件/设计/能力）、(2)符合某种失效模式（Agent失效/外部操纵/工具或资源故障）、(3)导致某种安全或安保危害
安保危害类型：数据泄露/应用故障/基础设施与网络攻击/身份与权限管理
安全危害类型：非法及CBRNE活动/歧视性内容/不当内容/用户安全受损/虚假信息传播
设计动机：三要素交叉可系统化穷举风险，但非所有组合都有意义，需组织自行判断哪些风险纳入登记册（要求有学术研究或行业案例支撑）

模块三：分层技术控制体系¶

做什么：为每条风险推荐技术控制措施，并按优先级分层
核心思路：三级控制体系——
Level 0 (Cardinal)：基本要求，必须原样采纳
Level 1 (Standard)：应当采纳或有意义地调整
Level 2 (Best Practice)：推荐高风险系统采纳
每条控制措施旨在降低影响范围/严重性或降低特定失效模式发生概率
设计动机：分层设计让组织可以根据风险容忍度和资源约束优先实施控制措施

损失函数 / 训练策略¶

本文为治理框架论文，不涉及模型训练。但在实施层面提出了关键策略：

风险情境化：通过影响度（5级：最小→灾难性）和可能性（5级：极可能→极少）两个维度评估风险，考虑领域敏感度、用例类型、数据敏感性、系统关键性等因素
残余风险评估：承认技术控制无法完全消除风险，要求评估控制后的残余风险是否可接受
持续更新机制：框架设计为可不断更新以适应快速发展的Agent AI领域

实验关键数据¶

主实验¶

本文为框架论文，无传统实验。但提供了以下实证支撑：

要素	风险分析覆盖	对应控制措施
组件（4类）	完整风险登记	分级控制
设计（3类）	完整风险登记	分级控制
能力（13类）	完整风险登记	分级控制

消融实验¶

论文通过示例分析展示了框架的作用过程，如： - 互联网搜索能力 + 外部操纵失效模式 → 恶意网站prompt注入攻击 → 对应控制措施包括输入guardrails、转义过滤、结构化检索API - 文件数据管理能力 + Agent失效 → 低效/重复查询拖垮数据库 - 工具组件 + 工具故障 → 工具未正确验证用户身份/权限

关键发现¶

同一能力可能面临三种不同失效模式，需要不同的控制策略
某些控制措施存在重叠（特别是针对prompt注入的控制），这是合理的纵深防御
能力之间的组合风险（combinatorial risk）是残余风险的重要来源

亮点与洞察¶

能力视角的创新性：相比工具粒度的分析，能力视角兼顾了全面性、可扩展性和可理解性，这在Agent种类和MCP工具爆发式增长的背景下尤为关键
实用性设计：框架面向组织治理团队，提供完整的风险登记册模板，可直接作为组织实施的起点
与现有工作的互补：不是替代benchmark或AI control技术，而是提供了一个上层治理框架把各种技术手段有机整合

局限性 / 可改进方向¶

框架依赖人工判断哪些风险组合有意义，缺乏自动化的风险发现机制
技术控制措施的有效性验证不充分——残余风险的量化评估方法需要进一步研究
多Agent间的组合风险和级联失效分析尚不够深入
框架主要面向组织内部部署，对跨组织的Agent交互（如A2A协议）风险覆盖有限
能力分类体系可能需要随Agent技术发展持续扩展

评分¶

⭐⭐⭐

作为一篇AI治理框架论文，ARC框架的能力视角是有价值的创新，分类体系全面系统，但缺乏定量验证和实际部署的empirical evidence。框架的实用价值取决于组织的执行力，论文本身更接近position paper而非技术贡献。