Beyond Confidence: The Rhythms of Reasoning in Generative Models¶

会议: ICLR 2026
arXiv: 2602.10816
代码: 无
领域: LLM分析 / 预测稳定性
关键词: Token Constraint Bound, 预测鲁棒性, 隐状态扰动, 输出嵌入几何, prompt工程

一句话总结¶

提出 Token Constraint Bound (\(\delta_{\text{TCB}}\)) 指标，通过量化 LLM 隐状态在多大扰动范围内能保持 next-token 预测不变，来度量预测的局部鲁棒性，揭示了传统 perplexity 无法捕捉的预测不稳定性。

研究背景与动机¶

领域现状：LLM 对输入上下文的微小变化极为敏感——格式微调可导致准确率波动 76%，示例顺序调整可使准确率从 54% 到 93%
现有痛点：
准确率只给出聚合视图，无法评估单个预测的稳定性
Perplexity 混淆概率分布，忽略了内部状态几何结构
Softmax 归一化可导致高概率但不稳定的预测——高概率可能来自相对归一化而非鲁棒的内部状态
核心矛盾：一个高概率、高置信度的预测可能对应一个不稳定的内部状态平衡——现有指标无法区分"真正稳定的高置信"和"脆弱的高置信"
本文要解决什么：量化 LLM 在特定上下文下产生的内部状态 \(\mathbf{h}\) 对小扰动的鲁棒性
切入角度：利用 Jacobian 矩阵分析 softmax 输出对隐状态的一阶敏感性
核心 idea 一句话：预测的鲁棒性 = 隐状态周围能保持输出分布不变的最大扰动半径，由输出嵌入的几何分散度决定

方法详解¶

整体框架¶

LLM 最后一层隐状态 \(\mathbf{h} \in \mathbb{R}^d\) 经输出权重矩阵 \(\mathbf{W} \in \mathbb{R}^{\mathcal{V} \times d}\) 和 softmax 映射为概率分布 \(\mathbf{o}\)。\(\delta_{\text{TCB}}\) 量化的是：在 \(\mathbf{h}\) 周围多大的扰动球内，\(\mathbf{o}\) 的变化不超过容忍度 \(\epsilon\)。

关键设计¶

Token Constraint Bound (\(\delta_{\text{TCB}}\)) 定义:
做什么：度量 LLM 预测对内部状态扰动的鲁棒性
核心思路：利用一阶线性近似 \(\Delta\mathbf{o} \approx \mathbf{J}_\mathbf{W}(\mathbf{h}) \Delta\mathbf{h}\)，从 \(\|\Delta\mathbf{o}\|_2 \leq \epsilon\) 推导出 \(\|\Delta\mathbf{h}\|_2 \leq \epsilon / \|\mathbf{J}_\mathbf{W}(\mathbf{h})\|_F\)，定义 \(\delta_{\text{TCB}}(\mathbf{h}) = \epsilon / \|\mathbf{J}_\mathbf{W}(\mathbf{h})\|_F\)
设计动机：\(\delta_{\text{TCB}}\) 越大说明模型的预测在更大范围的隐状态扰动下保持稳定
与输出嵌入几何的精确联系:
做什么：推导 Jacobian 范数的解析表达式
核心思路：证明 \(\|\mathbf{J}_\mathbf{W}(\mathbf{h})\|_F^2 = \sum_{i=1}^{\mathcal{V}} o_i^2 \|\mathbf{w}_i - \boldsymbol{\mu}_\mathbf{w}(\mathbf{h})\|_2^2\)，其中 \(\boldsymbol{\mu}_\mathbf{w}(\mathbf{h}) = \sum_j o_j \mathbf{w}_j\) 是概率加权平均嵌入
几何含义：敏感性由 token 嵌入相对于加权中心的分散度决定，且被 \(o_i^2\) 加权——高概率 token 的嵌入位置影响最大
两种预测体制的分析:
高置信体制（\(\mathcal{V}_{\text{eff}}\) 低）：\(\boldsymbol{\mu}_\mathbf{w} \to \mathbf{w}_k\)（主导 token），\(\delta_{\text{TCB}} \to \infty\)。此时 \(\delta_{\text{TCB}}\) 与 top-2 logit margin 强正相关 (\(r = 0.62\))
不确定体制（\(\mathcal{V}_{\text{eff}}\) 高）：概率分散于多个 token，\(\delta_{\text{TCB}}\) 与 \(\sqrt{\mathcal{V}_{\text{eff}}}\) 正相关 (\(r = 0.95\))。但关键洞察：即使 \(\mathcal{V}_{\text{eff}}\) 高，若高概率 token 的嵌入几何上聚集，\(\delta_{\text{TCB}}\) 仍可以很高

损失函数 / 训练策略¶

\(\delta_{\text{TCB}}\) 是分析指标，不涉及训练
计算只需前向传播获取 \(\mathbf{h}\)、\(\mathbf{o}\) 和 \(\mathbf{W}\)，然后通过解析公式计算
设 \(\epsilon = 1.0\) 作为归一化标准

实验关键数据¶

主实验 — 预测体制验证（LLaMA-3.1-8B）¶

数据集	Corr(\(\delta_{\text{TCB}}, \mathcal{V}_{\text{eff}}\))	Corr(\(\delta_{\text{TCB}}, z_{top1} - z_{top2}\))
Diverse Prompts (N=309)	0.95 (强正相关)	-0.40
Low-\(\mathcal{V}_{\text{eff}}\) Targeted (N=360)	0.08 (近零)	0.62 (强正相关)

消融实验 — 嵌入几何验证¶

嵌入操作	假设 \(\delta_{\text{cluster}} > \delta_{\text{orig}} > \delta_{\text{disperse}}\) 成立比例
Low \(\mathcal{V}_{\text{eff}}\) (< 20)	95%
整体	90%

固定 \(\mathbf{o}\) 不变，人为聚集/分散竞争 token 的嵌入 → \(\delta_{\text{TCB}}\) 相应增大/减小
证实了几何结构独立于概率分布影响稳定性

关键发现¶

\(\delta_{\text{TCB}}\) 能区分 prompt 质量：good prompt → 更高 \(\delta_{\text{TCB}}\)，即使准确率相同
识别 perplexity 遗漏的不稳定性：文本生成中存在 perplexity 低但 \(\delta_{\text{TCB}}\) 骤降的位置，可能是语义转折点或潜在错误
ICL 示例的效果在 \(\delta_{\text{TCB}}\) 中可见：有效的 few-shot 示例不仅提高准确率，还增加 \(\delta_{\text{TCB}}\)

亮点与洞察¶

概率高 ≠ 稳定：这个核心洞察极有价值——softmax 归一化可能制造"虚假安全感"，\(\delta_{\text{TCB}}\) 直接检测内部状态的真实稳定性
嵌入几何的主导角色：即使概率分布相同，改变嵌入空间的几何结构就能改变预测稳定性——这对理解 LLM 的表示学习有启发
解析公式优雅：\(\|\mathbf{J}\|_F^2 = \sum o_i^2 \|\mathbf{w}_i - \boldsymbol{\mu}\|^2\) 将复杂的 Jacobian 范数归结为直觉清晰的加权分散度

局限性 / 可改进方向¶

基于一阶线性近似，对大扰动的预测可能不准确
仅在 LLaMA-3.1-8B 上验证，需要更多模型和规模的实验
\(\epsilon = 1.0\) 的选择缺乏理论依据
未探索如何将 \(\delta_{\text{TCB}}\) 纳入训练目标以直接提升鲁棒性
Frobenius 范数作为敏感性度量可能过于保守（vs 谱范数）

评分¶

新颖性: ⭐⭐⭐⭐ Jacobian 分析不新，但将其与输出嵌入几何联系并定义有实际意义的指标是新颖的
实验充分度: ⭐⭐⭐⭐ 理论验证+prompt分析+ICL分析+文本生成分析，但模型多样性不足
写作质量: ⭐⭐⭐⭐ 数学推导清晰，但行文略冗长
价值: ⭐⭐⭐⭐ 提供了一个新的 LLM 分析视角，对 prompt 工程和可靠性评估有实用价值