Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures¶

日期: 2026-03-22
arXiv: 2603.21415
代码: Zenodo
领域: LLM/NLP
关键词: LLM safety, governability, silent failure, autonomous agent, error detection

一句话总结¶

揭示"静默承诺失败"现象——指令调优 LLM 在犯错时输出自信流畅且无任何预警信号，提出"可治理性"框架量化错误可检测/可纠正程度，发现可治理性由架构预训练决定（52×差异）而非指令调优（±0.32×）。

领域现状: LLM 作为自主 Agent 部署时（带工具执行权限），核心假设是"模型错误在运行时可检测"。
现有痛点: 这个假设对 3 个指令调优模型中的 2 个不成立——它们犯错时输出高置信、流畅、错误的结果，在输出前零预警信号。这种"静默承诺失败"意味着 Agent 会在无人察觉的情况下执行错误操作。
核心矛盾: Benchmark 准确率高不代表部署安全——高准确率模型的错误可能恰恰是最不可检测的。部署决策需要的不仅是"多准"，还需要"错的时候能不能被发现"。
核心 idea: 引入"可治理性"（governability）框架——评估模型错误的"可检测性"和"可纠正性"，并发现这是架构预训练的属性，不是训练选择的结果。

6 个模型 × 12 个推理领域 → 贪心解码下分析每个 token 的不确定性/冲突信号 → 量化检测延迟（错误被发现比输出提前多少 token）、Spike Ratio（高置信变化比例）、纠正能力 → 分类到 2×2 检测-纠正矩阵。

可治理性三维度量化:
- 检测能力: 错误输出前是否有可观测的不确定性信号
- 纠正能力: 检测到错误后能否修正
- 延迟: 检测信号比最终输出提前多少 token
冲突检测信号:
- 测量推理步骤间的置信度/不确定性信号发散
- Spike Ratio = 高置信变化 token 的比例
- 最好的模型在贪心解码下提前 57 个 token 发出预警
- 最差的模型: 零预警信号
检测-纠正矩阵 (2×2):
- 可治理 (Governable): 可检测 + 可纠正
- 仅监控 (Monitor Only): 可检测但难纠正
- 盲驾 (Steer Blind): 不可检测但原则上可纠正
- 不可治理 (Ungovernable): 既不可检测也不可纠正
架构 vs 调优分离实验:
- 2×2 设计: 模型大小 (7B vs 70B) × 调优类型
- 架构间 Spike Ratio 差异 52×
- 调优方式间差异仅 ±0.32×
- 结论: 可治理性是架构级属性，在预训练时就已决定