Representation Consistency for Accurate and Coherent LLM Answer Aggregation¶

会议: NeurIPS 2025
arXiv: 2506.21590
代码: 无
领域: 模型压缩
关键词: 测试时扩展, 答案聚合, 内部表示一致性, 稀疏自编码器, LLM推理

一句话总结¶

提出 Representation Consistency (RC)，通过分析 LLM 生成多个候选答案时内部激活的一致性来改进答案聚合：同一答案的多条推理路径如果内部表示高度一致则更可能正确，结合稀疏自编码器的稀疏变体 RC-S 效果最优，在 4 个 LLM 和 4 个推理数据集上一致优于 Self-Consistency。

研究背景与动机¶

领域现状：测试时扩展（test-time scaling）是提升 LLM 性能的重要范式，Self-Consistency (SC) 是最流行的方法——采样多条推理路径取多数票

现有痛点： - SC 仅看最终答案的频率，完全忽略了模型内部激活中编码的丰富推理信息 - 当两个答案出现频率接近（接近平票）时，SC 的打平策略不可靠 - 提示重述（rephrasing）可以增加推理多样性，但也引入了对同一问题的不一致推理——现有方法无法区分"一致的多样性"和"不一致的多样性"

核心矛盾：多条推理路径可能"碰巧"得出相同答案但推理过程不一致——这种情况下答案的可靠性低于推理过程一致的情况

切入角度：利用模型中间层的激活（residual stream）作为"推理过程的指纹"

核心 idea：如果多条推理路径得到答案 A 且它们的内部激活高度相似（一致性高），说明模型通过连贯一致的推理得到了 A，比激活不一致的答案 B 更可信

方法详解¶

整体框架¶

给定问题 q，用多种提示重述 × 多次采样生成 N 个候选回复。按最终答案分组。对每组计算评估函数 \(V_{q,a} = \lambda \cdot consistency_{q,a} + (1-\lambda) \cdot frequency_{q,a}\)，选得分最高的答案。一致性通过模型内部激活的相似度计算。

关键设计¶

RC-D (Dense 表示一致性)：
- 功能：用原始模型激活计算答案组内的一致性
- 核心思路：对答案 a 的所有回复的第 l 层、第 n 个 Token 位置的激活 \(z_{n}^{l}\)，计算组内的平均成对余弦相似度：\(consistency_{q,a} = \frac{1}{|Z|(|Z|-1)} \sum_{z_1 \neq z_2} sim(z_{1,n}^l, z_{2,n}^l)\)
- 激活提取位置：模型输出最终答案字母（如"A"）之前的 Token 位置，通常取中间层（约 50% 深度）
- 设计动机：如果模型在多个不同提示下都通过相似的内部计算得出答案 A，说明 A 来自稳健的推理过程
RC-S (Sparse/SAE 变体)：
- 功能：先用预训练稀疏自编码器（SAE）将激活编码为稀疏表示，再计算一致性
- 核心思路：\(consistency\text{-}sparse_{q,a} = \frac{1}{|Z|(|Z|-1)} \sum sim(f_{enc}^l(z_1), f_{enc}^l(z_2))\)
- 使用 GemmaScope、LlamaScope 等公开 SAE
- 设计动机：原始激活是密集多义的（polysemantic），SAE 将其解耦为稀疏的单义特征——稀疏信号中的一致性更好地反映了"使用了相同的概念/特征"
评估函数 V：
- \(V_{q,a} = \lambda \cdot consistency_{q,a} + (1-\lambda) \cdot frequency_{q,a}\)
- 当 \(\lambda=0\)：退化为 SC（纯频率投票）
- 当 \(\lambda=1\)：纯激活一致性（不可用——单回复组永远一致性=1）
- 实际最优 \(\lambda\) 约 0.3-0.7，模型/数据集相关
RC-E (External 基线)：
- 用外部 NLI 模型（bge-m3-zeroshot）计算回复文本间的蕴含概率作为一致性——作为对比基线
- 结果：RC-E < RC-D ≈ RC-S，说明内部激活比外部嵌入更有信息量

损失函数 / 训练策略¶

零训练——仅使用缓存的模型激活和轻量级相似度计算
不需要额外模型查询，只在已有生成的基础上做后处理
SAE 是预训练好的公开模型（GemmaScope/LlamaScope），不需要单独训练

实验关键数据¶

主实验 — 4 模型 × 4 数据集 (相对 SC 的准确率提升)¶

方法	Llama3.1-8B	Gemma2-2B	Gemma2-9B	Gemma2-27B
NE (单回复)	-5.60%	-4.43%	-4.37%	-5.19%
SC (基线)	52.9%	44.7%	48.6%	52.3%
RC-E (外部嵌入)	+1.06%	+0.84%	+1.07%	+0.55%
RC-D (dense激活)	+1.84%	+0.89%	+1.32%	+0.76%
RC-S (sparse/SAE)	+1.73%	+1.10%	+1.40%	+0.89%

消融实验 — 最优超参数¶

模型	RC-D 层/λ	RC-S 层/λ
Llama3.1-8B	50%, 0.43	25%, 0.73
Gemma2-9B	50%, 0.36	50%, 0.46
Gemma2-27B	50%, 0.44	50%, 0.59

一致性与正确性的关系验证¶

方法	正确答案一致性更高的比例	错误答案一致性更高的比例
外部嵌入 (baseline)	49.6%	50.4%
Dense 激活 (ours)	55.2%	44.8%
Sparse/SAE (ours)	55.9%	44.1%

关键发现¶

在 30/32 个细分设置中，RC-D 和 RC-S 都优于 SC——改进极为一致
RC-S 略优于 RC-D——稀疏解耦后的特征确实更好地反映了推理一致性
外部 NLI 嵌入的一致性与正确性几乎不相关（~50:50），而内部激活的一致性显著预测正确性（55:44）——证明内部激活包含了文本输出中不存在的推理过程信息
最优层通常在模型中部（50%深度）——这与机制可解释性研究中"中间层编码高级概念"的发现一致
小模型 + 少回复（6个）时改进最大——说明 RC 在资源受限时最有价值
最佳情况下提升达 4%（CSQA + Llama + 6 回复）

亮点与洞察¶

内部激活一致性 > 文本表面一致性是核心发现——这揭示了一个直觉优雅但之前未被验证的假设：连贯推理产生相似的内部表示
SAE 的引入从理论上合理：密集激活是多义的，SAE 解耦后"特征 123 一致激活"比"向量余弦接近"语义更明确
零额外查询成本——仅利用已缓存的激活，是对 SC 的纯增量改进
方法可以增强任何产生多候选回复的 test-time scaling 策略——不限于 SC

局限与展望¶

\(\lambda\) 和层的选择需要在验证集上调优——跨任务泛化性有待提高
仅在多选题上验证——开放式生成的答案分组更困难
SAE 的可用性受限（目前仅 Gemma 和 Llama 有公开的高质量 SAE）
一致性度量对只有 1 个回复的答案不适用——需至少 2 个回复才能计算
可以将 RC 扩展到生成过程中（online），而非只做后处理使用

评分¶

新颖性: ⭐⭐⭐⭐ 利用内部激活一致性做答案聚合是直觉优雅的新思路
实验充分度: ⭐⭐⭐⭐⭐ 4 模型×4 数据集×10 配置=160 组实验，统计严谨
写作质量: ⭐⭐⭐⭐⭐ 问题定义形式化、方法推导清晰、RC-E 作为对照精心设计
价值: ⭐⭐⭐⭐ 零额外成本的 test-time scaling 改进，即插即用