跳转至

Silent Commitment Failure in Instruction-Tuned Language Models: Evidence of Governability Divergence Across Architectures

日期: 2026-03-22
arXiv: 2603.21415
代码: Zenodo
领域: LLM/NLP
关键词: LLM safety, governability, silent failure, autonomous agent, error detection

一句话总结

揭示"静默承诺失败"现象——指令调优 LLM 在犯错时输出自信流畅且无任何预警信号,提出"可治理性"框架量化错误可检测/可纠正程度,发现可治理性由架构预训练决定(52×差异)而非指令调优(±0.32×)。

研究背景与动机

  1. 领域现状: LLM 作为自主 Agent 部署时(带工具执行权限),核心假设是"模型错误在运行时可检测"。

  2. 现有痛点: 这个假设对 3 个指令调优模型中的 2 个不成立——它们犯错时输出高置信、流畅、错误的结果,在输出前零预警信号。这种"静默承诺失败"意味着 Agent 会在无人察觉的情况下执行错误操作。

  3. 核心矛盾: Benchmark 准确率高不代表部署安全——高准确率模型的错误可能恰恰是最不可检测的。部署决策需要的不仅是"多准",还需要"错的时候能不能被发现"。

  4. 核心 idea: 引入"可治理性"(governability)框架——评估模型错误的"可检测性"和"可纠正性",并发现这是架构预训练的属性,不是训练选择的结果。

方法详解

整体框架

6 个模型 × 12 个推理领域 → 贪心解码下分析每个 token 的不确定性/冲突信号 → 量化检测延迟(错误被发现比输出提前多少 token)、Spike Ratio(高置信变化比例)、纠正能力 → 分类到 2×2 检测-纠正矩阵。

关键设计

  1. 可治理性三维度量化:

    • 检测能力: 错误输出前是否有可观测的不确定性信号
    • 纠正能力: 检测到错误后能否修正
    • 延迟: 检测信号比最终输出提前多少 token
  2. 冲突检测信号:

    • 测量推理步骤间的置信度/不确定性信号发散
    • Spike Ratio = 高置信变化 token 的比例
    • 最好的模型在贪心解码下提前 57 个 token 发出预警
    • 最差的模型: 零预警信号
  3. 检测-纠正矩阵 (2×2):

    • 可治理 (Governable): 可检测 + 可纠正
    • 仅监控 (Monitor Only): 可检测但难纠正
    • 盲驾 (Steer Blind): 不可检测但原则上可纠正
    • 不可治理 (Ungovernable): 既不可检测也不可纠正
  4. 架构 vs 调优分离实验:

    • 2×2 设计: 模型大小 (7B vs 70B) × 调优类型
    • 架构间 Spike Ratio 差异 52×
    • 调优方式间差异仅 ±0.32×
    • 结论: 可治理性是架构级属性,在预训练时就已决定

实验关键数据

主实验

发现 数据
静默失败模型比例 3 个中 2 个
最佳检测延迟 57 个 token 提前
最差检测延迟 0(无信号)
架构间 Spike Ratio 差异 52×
调优间 Spike Ratio 差异 ±0.32×

关键发现

  • 相同的治理脚手架对不同模型产生相反效果——有的改善有的恶化
  • Benchmark 准确率不预测可治理性——高准确率不意味着错误可检测
  • 检测和纠正是正交维度——能检测不一定能纠正,反之亦然
  • 推理领域影响可治理性——语言发散度高的领域更难治理

亮点与洞察

  • "可治理性"框架是对 AI 安全思维的实质贡献: 从"模型多准"转向"错的时候能不能被发现"
  • 架构决定论: 52× vs ±0.32× 说明可治理性在预训练时就"定型"了——指令调优无法补救
  • 部署决策指导: 2×2 矩阵为每个模型-任务组合提供了清晰的风险分类

局限性 / 可改进方向

  • 仅评估 6 个模型、2 种架构,样本量有限
  • 57-token 检测信号的内部机制未解释
  • 未提出针对"不可治理"模型的具体缓解策略
  • 未明确因果机制——为什么某些架构有可治理性

相关工作与启发

  • vs 不确定性量化 (conformal prediction): 置信度标定和不确定性估计关注“输出多可靠”;可治理性关注“错误能否被发现”——正交维度
  • vs RLHF 安全对齐: RLHF 减少有害输出频率;可治理性关注剩余错误的可检测性
  • vs Agent 安全护栏: 护栏假设不安全输出可检测;本文证明这个假设对部分模型不成立

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 定义了新的安全维度“可治理性”
  • 实验充分度: ⭐⭐⭐ 模型数量有限(6个),但实验设计精巧
  • 写作质量: ⭐⭐⭐⭐⭐ 概念定义清晰、2×2 矩阵分类优雅
  • 价值: ⭐⭐⭐⭐⭐ 对 Agent 部署安全有深远影响,政策制定者应关注