Annotation-Efficient Universal Honesty Alignment¶

会议: ICLR 2026
arXiv: 2510.17509
代码: 有（GitHub 链接）
领域: LLM推理
关键词: honesty alignment, confidence calibration, self-consistency, annotation efficiency, LLM trustworthiness

一句话总结¶

提出 EliCal（先激发后校准）两阶段框架，先用无标注的 self-consistency 信号教 LLM 表达内部置信度，再用极少量正确性标注（仅 1k 个，占 0.18%）进行校准，在 HonestyBench（560K 训练 + 70K 评估）上达到接近全量标注 98% 的诚实性对齐性能，并在未见 MMLU 任务上泛化优于仅校准基线。

研究背景与动机¶

领域现状：LLM 诚实性对齐（honesty alignment）要求模型准确认识自己的知识边界并表达校准后的置信度。现有方法分两类：免训练的置信度估计（token 概率、self-consistency）和基于训练的校准（需正确性标注）。
现有痛点：基于训练的方法效果更好，但实现跨任务的"通用"诚实性对齐需要大规模正确性标注——对每个问题都需要 ground truth 答案来判断模型是否回答正确。这成本极高。
核心矛盾：正确性标注同时承担两个角色——(1) 教模型表达置信度；(2) 将置信度与正确性校准。如果第一个角色可以用更廉价的信号实现，那么只需少量标注做第二步。
本文要解决什么？ 如何用最少的正确性标注实现高质量的诚实性对齐？
切入角度：观察到 self-consistency 置信度（多次采样的语义一致性比例）与实际正确率高度相关，且是免费生成的。用它先教模型表达置信度（Stage 1），再用少量标注校准（Stage 2）。
核心idea一句话："先激发，后校准"——用 self-consistency 做预训练级别的置信度学习，用极少标注做微调级别的校准。

方法详解¶

整体框架¶

EliCal 分两阶段：Stage 1 用 560K 问题的 self-consistency 信号训练模型表达内部置信度（无需 ground truth）；Stage 2 用仅 1K 个有正确性标注的样本校准置信度。模型架构：冻结 LLM 参数 + LoRA + 线性头输出置信度分数。

关键设计¶

Stage 1: Confidence Elicitation（置信度激发）:
做什么：训练模型一次性输出其内部置信度，替代昂贵的多次采样一致性估计
核心思路：对每个问题采样 k=20 个回答，计算与 greedy 回答的语义一致性比例作为 self-consistency 目标。用 MSE 损失训练 LoRA + 线性头来预测这个目标
设计动机：self-consistency 与真正正确率高度相关（Figure 2），且是免费信号——不需要 ground truth。这一步教会模型"感知自己有多确定"
Stage 2: Confidence Calibration（置信度校准）:
做什么：用少量标注数据将 Stage 1 学到的置信度校准到真实正确率
核心思路：从 Stage 1 的参数出发，继续用 MSE 损失微调，但目标改为 Accuracy（基于 ground truth 的正确率）。仅需 ~1K 个标注样本
设计动机：类似预训练-微调范式——Stage 1 已经学到了置信度的基本表达能力，Stage 2 只需少量标注做"最后一公里"的校准
HonestyBench 基准:
做什么：构建大规模诚实性对齐 benchmark
核心思路：整合 10 个 free-form QA 数据集，560K 训练 + 38K in-domain 评估 + 33K OOD 评估。每个模型-问题对标注 20 个采样回答的一致性和正确性。覆盖 3 个 LLM（Qwen-7B/14B, Llama-8B）
设计动机：此前的诚实性研究只在小数据集上做 in-domain 评估，缺乏通用性测试

损失函数 / 训练策略¶

两个阶段都用 MSE 损失。冻结 LLM 参数，只训练 LoRA 和线性头。Stage 1 在全量 560K 上训练（self-consistency 目标），Stage 2 在 1K 标注样本上微调（correctness 目标）。

实验关键数据¶

主实验¶

方法	标注量	In-Domain 性能	OOD 性能
最佳免训练方法 (Self-Consistency)	0	基线	基线
Cal-Only（全量标注）	560K	Upper bound	-
EliCal + Cal-Only (全量)	560K	Upper bound（比免训练高 17%+）	-
EliCal (仅 1K 标注)	1K (0.18%)	~98% of upper bound	显著优于 Cal-Only
Cal-Only (仅 1K 标注)	1K	显著低于 EliCal	较差

消融实验¶

配置	效果	说明
Cal-Only (从头校准)	需要 >>1K 标注	没有 elicitation 阶段，大量标注才能收敛
EliCal 1K	~98% upper bound	预训练-微调范式极大提升标注效率
MMLU (OOD)	EliCal >> Cal-Only	泛化到未见任务

关键发现¶

EliCal 仅用 0.18% 的标注量达到 98% 的最佳性能，标注效率提升超 500 倍
在 MMLU（完全 OOD 的任务）上，EliCal 一致优于 Cal-Only——说明 self-consistency 预训练提供了更好的泛化基础
Self-consistency 置信度与正确率的相关性在多个模型上都很高，但模型普遍过度自信——这正是需要 Stage 2 校准的原因
全量标注时 EliCal 和 Cal-Only 性能持平（都达到 upper bound），但少标注时 EliCal 显著更好

亮点与洞察¶

预训练-微调范式迁移到置信度学习：用廉价信号做"预训练"、用昂贵标注做"微调"的思路非常优雅，具有方法论上的泛用性
Self-consistency 作为免费监督信号的价值：虽然 self-consistency ≠ correctness（模型可能一致地错），但它是一个足够好的代理信号来教会模型"表达置信度"
HonestyBench 基准的实用价值：560K 规模、三个模型、10 个数据集的标注资源，为社区提供了标准化的诚实性评估平台

局限性 / 可改进方向¶

Self-consistency 需要多次采样（k=20）来生成训练信号，虽然只在 Stage 1 构建数据时需要，推理时是 one-shot
仅在 free-form QA 上验证，对 reasoning/math 等需要更精确置信度的任务未覆盖
线性头 + LoRA 的架构选择是否最优尚未充分探索
校准后的置信度是否在 RAG 触发等下游应用中真正有效尚需验证

评分¶

新颖性: ⭐⭐⭐⭐ 两阶段框架的设计理念有创新，免标注的 elicitation 阶段很巧妙
实验充分度: ⭐⭐⭐⭐⭐ 大规模 benchmark、多模型、in-domain+OOD、详细的标注效率分析
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，形式化完整，叙事流畅
价值: ⭐⭐⭐⭐⭐ HonestyBench + EliCal 构成了诚实性对齐方向的重要基础设施和方法论