Auditing Cascading Risks in Multi-Agent Systems via Semantic–Geometric Co-evolution¶

会议: ICLR 2026 Workshop
arXiv: 2603.13325
代码: 无
领域: Agent / AI Safety
关键词: multi-agent safety, cascading risk, Ollivier-Ricci curvature, graph geometry, proactive auditing

一句话总结¶

提出 SCCAL 框架，通过耦合语义流（semantic flow）和交互图的 Ollivier–Ricci 曲率（ORC）来建模多智能体系统中语义-几何的协同演化，利用两者的一致性残差作为级联风险的早期预警信号，在语义违规显现前数轮即可检测异常。

研究背景与动机¶

领域现状：LLM 多智能体系统（MAS）已从静态问答转向复杂自演化协作，广泛用于长horizon任务分解。
现有痛点：当前安全审计主要依赖逐消息的语义内容过滤（如毒性检测、越狱检测），本质是反应式的——等到语义违规可见时，系统的协作动力学往往已不可逆地崩溃。
核心矛盾：级联风险（hallucination cascade、collusion、role misalignment）是交互动力学的涌现属性，而非孤立的语义违规。早期消息语义流畅且合规，但底层交互结构已在扭曲。
本文要解决：如何在语义违规显现之前，从交互结构的变化中检测级联风险的前兆？
切入角度：类比物理系统在灾难性失效前会积累结构应力，MAS 交互在语义崩溃前会先出现拓扑畸变（如信息瓶颈、过度冗余）。
核心idea：将 MAS 安全审计建模为语义-几何耦合流形上的轨迹稳定性问题，用 Ollivier–Ricci 曲率量化交互图的局部几何特征，当语义流与几何演化的一致性被打破时便触发预警。

方法详解¶

整体框架¶

SCCAL（Semantic–Curvature Co-evolutionary Auditing Loop）将多智能体交互建模为动态图序列 \(\mathcal{G}_t = (\mathcal{V}, \mathcal{E}_t, \mathbf{W}_t)\)，配合智能体语义状态 \(\mathbf{Y}_t\)。Pipeline：① 使用冻结的 SBERT 编码器提取语义表示 → ② 基于语义传递性和可信度构建有向语义流图 → ③ 计算边的 ORC 量化局部几何 → ④ 耦合动力学模型预测下一时刻的语义和几何状态 → ⑤ 联合预测残差超阈值则触发预警。

关键设计¶

有向语义流构建（Directed Semantic Flow Induction）:
做什么：将原始消息映射为有向加权交互图
核心思路：边权 \(w_{ij}^t = \tau_{ij}^t \cdot \chi_i^t\)，其中语义传递性 \(\tau_{ij}^t = \cos(\mathbf{y}_i^t, \mathbf{y}_j^{t-1})\) 衡量意图对齐度，可信度 \(\chi_i^t = \exp(-\text{PPL}(s_i^t))\) 用参考语言模型的困惑度惩罚不连贯输出
设计动机：抑制虚假语义传播，保留有意义的影响路径
Ollivier–Ricci 曲率（ORC）几何量化:
做什么：为交互图的每条边计算离散曲率
核心思路：\(\kappa_{ij} = 1 - W_1(m_i, m_j)/d(i,j)\)，其中 \(W_1\) 是 Wasserstein-1 距离，\(m_i, m_j\) 是由语义流权重诱导的邻域概率度量
解读：正曲率 → 信息冗余（echo chamber / collusion）；负曲率 → 结构瓶颈（级联风险放大点）
设计动机：提供 GNN 无法捕捉的局部几何信号，ORC 对信息传输的冗余/瓶颈有天然的刻画能力
耦合动力学预测器:
几何感知语义预测器 ψ：用曲率门控的 GRU，注意力权重 \(\alpha_{ij}^t \propto \exp(w_{ij}^t \cdot \text{ReLU}(\kappa_{ij}^t))\)，从结构不稳定的交互中衰减影响
语义张力几何预测器 ϕ：\(\hat{\kappa}_{ij}^{t+1} = \text{MLP}[\kappa_{ij}^t \| \|\mathbf{y}_i^t - \mathbf{y}_j^t\| \| \text{Var}(\mathcal{N}_i, \mathcal{N}_j)]\)，建模语义分歧如何引起局部结构重组
设计动机：双向约束确保语义和几何的演化是耦合的，单独任何一个信号都不足以可靠检测风险

异常检测与归因¶

联合预测残差：\(\mathcal{A}_t = \sum_i \|\mathbf{y}_i^t - \hat{\mathbf{y}}_i^t\|^2 + \lambda \sum_{i,j} |\kappa_{ij}^t - \hat{\kappa}_{ij}^t|\)。曲率偏差最大的边直接定位引发级联风险的智能体/链路。

实验关键数据¶

主实验¶

在约 2000 条正常轨迹和 2000 条风险轨迹上评估（每个任务 12-15 个智能体）：

方法	AUROC (攻击)	AUROC (自然)	DLT (攻击)	DLT (自然)
Semantic-only	0.71	0.62	5.8	0.4
ORC-only	0.77	0.69	7.4	1.2
Structural GNN	0.75	0.77	7.2	2.6
SCCAL (Ours)	0.88	0.83	10.2	3.4

DLT（Detection Lead Time）= 在首次显式语义违规之前提前多少轮检测到风险，越高越好。

消融实验¶

配置	AUROC	DLT
Full model	0.88	9.8
w/o Coupling	0.81	7.1
w/o Semantic module	0.79	6.7
w/o Curvature	0.75	4.9

关键发现¶

语义-几何耦合是检测能力的核心，去掉耦合损失后 AUROC 降 7%，DLT 降 2.7 轮
ORC-only 方法在良性高密度协作中误报率高达 0.32，而 SCCAL 仅 0.07
在无攻击的自然失败场景中，语义方法几乎随机（AUROC 0.62），而 SCCAL 依然有效（0.83）

亮点与洞察¶

时间不对称性洞察：语义信号是滞后指标（lagging），几何信号是先导指标（leading），这一发现类似物理系统中应力积累先于断裂的规律
曲率的语义接地：纯曲率会把良性的高效协作（如头脑风暴中的高正曲率）误判为共谋，必须用语义约束来消歧——这是一个重要的设计启示
从内容审计到过程审计的范式转移：提供了一个可迁移的思路——任何多智能体系统的安全不应只看单条消息，而应看交互过程的结构演化

局限性 / 可改进方向¶

实验基于合成基准（AEGIS 2.0 风险分类），与真实生产环境（延迟、异步、human-in-the-loop）存在差距
仅使用局部 ORC，可能遗漏大规模网络中的全局拓扑相变；可引入持久同调（persistent homology）或谱方法
Workshop 论文，实验规模有限（~4000 条轨迹），缺少大规模验证
未讨论计算开销——ORC 在稠密图上的计算成本可能是瓶颈

补充技术细节¶

ORC 的物理直觉¶

Ollivier–Ricci 曲率源自黎曼几何的 Ricci 曲率离散化。在连续流形上，正 Ricci 曲率意味着相邻测地线趋于收敛（球面效应），负曲率意味着测地线发散（双曲效应）。映射到图上： - 正 ORC：节点 \(i\) 和 \(j\) 的邻域高度重叠 → 信息冗余，可能形成 echo chamber - 负 ORC：节点 \(i\) 和 \(j\) 的邻域几乎不重叠 → 信息瓶颈，一旦断裂会导致级联失效 - 零 ORC：正常的信息扩散模式

Wasserstein 距离计算¶

\(W_1(m_i, m_j)\) 通过最优传输问题求解，在小规模邻域上可解析计算，复杂度 \(O(k^3 \log k)\)，其中 \(k\) 是邻域大小。对于 12-15 个 Agent 的 MAS，计算可行但对更大规模系统可能需要近似算法。

评分¶

新颖性: ⭐⭐⭐⭐ 将黎曼几何（ORC）引入 MAS 安全审计是有创意的跨学科尝试
实验充分度: ⭐⭐⭐ Workshop 规模，实验设置有限，缺少真实环境验证
写作质量: ⭐⭐⭐⭐ 逻辑清晰，动机链完整，公式表述规范
价值: ⭐⭐⭐⭐ "从内容审计到过程审计"的范式转移思想有广泛适用性