Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures¶
日期: 2026-03-22
arXiv: 2603.21415
代码: Zenodo
领域: LLM/NLP
关键词: LLM safety, governability, silent failure, autonomous agent, error detection
一句话总结¶
揭示"静默承诺失败"现象——指令调优 LLM 在犯错时输出自信流畅且无任何预警信号,提出"可治理性"框架量化错误可检测/可纠正程度,发现可治理性由架构预训练决定(52×差异)而非指令调优(±0.32×)。
研究背景与动机¶
-
领域现状: LLM 作为自主 Agent 部署时(带工具执行权限),核心假设是"模型错误在运行时可检测"。
-
现有痛点: 这个假设对 3 个指令调优模型中的 2 个不成立——它们犯错时输出高置信、流畅、错误的结果,在输出前零预警信号。这种"静默承诺失败"意味着 Agent 会在无人察觉的情况下执行错误操作。
-
核心矛盾: Benchmark 准确率高不代表部署安全——高准确率模型的错误可能恰恰是最不可检测的。部署决策需要的不仅是"多准",还需要"错的时候能不能被发现"。
-
核心 idea: 引入"可治理性"(governability)框架——评估模型错误的"可检测性"和"可纠正性",并发现这是架构预训练的属性,不是训练选择的结果。
方法详解¶
整体框架¶
6 个模型 × 12 个推理领域 → 贪心解码下分析每个 token 的不确定性/冲突信号 → 量化检测延迟(错误被发现比输出提前多少 token)、Spike Ratio(高置信变化比例)、纠正能力 → 分类到 2×2 检测-纠正矩阵。
关键设计¶
-
可治理性三维度量化:
- 检测能力: 错误输出前是否有可观测的不确定性信号
- 纠正能力: 检测到错误后能否修正
- 延迟: 检测信号比最终输出提前多少 token
-
冲突检测信号:
- 测量推理步骤间的置信度/不确定性信号发散
- Spike Ratio = 高置信变化 token 的比例
- 最好的模型在贪心解码下提前 57 个 token 发出预警
- 最差的模型: 零预警信号
-
检测-纠正矩阵 (2×2):
- 可治理 (Governable): 可检测 + 可纠正
- 仅监控 (Monitor Only): 可检测但难纠正
- 盲驾 (Steer Blind): 不可检测但原则上可纠正
- 不可治理 (Ungovernable): 既不可检测也不可纠正
-
架构 vs 调优分离实验:
- 2×2 设计: 模型大小 (7B vs 70B) × 调优类型
- 架构间 Spike Ratio 差异 52×
- 调优方式间差异仅 ±0.32×
- 结论: 可治理性是架构级属性,在预训练时就已决定
实验关键数据¶
主实验¶
| 发现 | 数据 |
|---|---|
| 静默失败模型比例 | 3 个中 2 个 |
| 最佳检测延迟 | 57 个 token 提前 |
| 最差检测延迟 | 0(无信号) |
| 架构间 Spike Ratio 差异 | 52× |
| 调优间 Spike Ratio 差异 | ±0.32× |
关键发现¶
- 相同的治理脚手架对不同模型产生相反效果——有的改善有的恶化
- Benchmark 准确率不预测可治理性——高准确率不意味着错误可检测
- 检测和纠正是正交维度——能检测不一定能纠正,反之亦然
- 推理领域影响可治理性——语言发散度高的领域更难治理
亮点与洞察¶
- "可治理性"框架是对 AI 安全思维的实质贡献: 从"模型多准"转向"错的时候能不能被发现"
- 架构决定论: 52× vs ±0.32× 说明可治理性在预训练时就"定型"了——指令调优无法补救
- 部署决策指导: 2×2 矩阵为每个模型-任务组合提供了清晰的风险分类
局限性 / 可改进方向¶
- 仅评估 6 个模型、2 种架构,样本量有限
- 57-token 检测信号的内部机制未解释
- 未提出针对"不可治理"模型的具体缓解策略
- 未明确因果机制——为什么某些架构有可治理性
相关工作与启发¶
- vs 不确定性量化 (conformal prediction): 置信度标定和不确定性估计关注“输出多可靠”;可治理性关注“错误能否被发现”——正交维度
- vs RLHF 安全对齐: RLHF 减少有害输出频率;可治理性关注剩余错误的可检测性
- vs Agent 安全护栏: 护栏假设不安全输出可检测;本文证明这个假设对部分模型不成立
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 定义了新的安全维度“可治理性”
- 实验充分度: ⭐⭐⭐ 模型数量有限(6个),但实验设计精巧
- 写作质量: ⭐⭐⭐⭐⭐ 概念定义清晰、2×2 矩阵分类优雅
- 价值: ⭐⭐⭐⭐⭐ 对 Agent 部署安全有深远影响,政策制定者应关注