Unsupervised Evaluation of Multi-Turn Objective-Driven Interactions¶

会议: ICLR2026
arXiv: 2511.03047
代码: 未公开（论文提及最终版将发布）
领域: llm_nlp
关键词: Unsupervised Evaluation, Multi-Turn Dialogue, Goal Completion, LLM Uncertainty, Response Tree, LLM-Guided Clustering
作者: Emi Soroka, Tanmay Chopra, Krish Desai, Sanjay Lall（Stanford & Emissary Technologies）

一句话总结¶

提出三种无监督指标——LLM 引导聚类（目标识别）、基于微调完成模型的交互完整性检测、响应树（LLM 不确定性量化）——用于评估多轮目标驱动对话，无需标注数据或 LLM-as-a-judge，仅用 8B 模型即可匹配/超越 70B judge 的性能。

研究背景与动机¶

企业 LLM 系统评估困难：任务导向对话、AI agent、客服系统等目标驱动交互日益普及，但评估手段严重落后——数据复杂且无标注，人工标注不可扩展。
LLM-as-a-judge 不可靠：已知存在位置偏差、冗余偏差、熟悉偏差、输出不一致性和 prompt 措辞敏感性等问题。
分布漂移问题：目标驱动系统引入推理、工具调用、多 agent 交互、共享环境操作等，偏离 LLM 预训练的基础对话分布，使评估更困难。
现有指标局限：ROUGE/BLEU 需参考答案，perplexity 信息有限，自定义指标只能监控已知错误类型。
核心目标：设计零标注、零参考答案的评估指标，能自动发现用户目标、检测交互完整性、量化 LLM 不确定性。

方法详解¶

指标 1：LLM 引导聚类（用户目标识别）¶

目标：从无标注多轮对话中自动发现和标注用户目标类别。

三阶段算法（Algorithm 1）：

预处理：对每个对话 \(c_i\)，提示 LLM 生成自由文本目标摘要 \(s_i\)，使用 text-embedding-3-small 嵌入为 \(v_i \in \mathbb{R}^{1536}\)。

Phase 1 — 初始聚类 + 标注： - 对 \(v_1, \dots, v_n\) 执行 k-means 得到 \(k_1\) 个初始聚类（\(k_1\) 取较大过估值） - 对每个聚类，抽 10 个正样本 + 10 个负样本，提示 LLM 生成聚类描述 \(L_i\) - 嵌入所有描述得到 \(d_1, \dots, d_{k_1}\)

Phase 2 — 迭代合并： - 计算描述间余弦相似度矩阵 \(D_{ij} = \frac{d_i^\top d_j}{\|d_i\|_2 \|d_j\|_2}\) - 迭代选择最大 \(D_{ij}\)，提示 LLM 判断是否合并（每次提供正负样本各 10 个） - 合并后重新生成描述，终止条件为所有当前聚类均拒绝合并

优势：结合了 k-means 的稳定性和 LLM 的语义理解能力，输出带文本标签的可解释聚类。

指标 2：交互完整性检测（Goal Completion）¶

核心思想：利用微调 LLM 学习"完成分布"，通过判断对话是否应结束来检测完整性。

形式化定义：给定完成对话分布 \(D\)，构造新分布 \(D'\)，其中每个完成对话的最后回复附加 end 标签。定义：

\[P_{D'}(\texttt{end} \mid c) = P(\text{llm}_{D'}(\text{concat}(p_1, r_1, \dots, p_n, r_n)) = \texttt{end})\]

对完整对话 \(c\) 和截断对话 \(c'\)（\(k < n\) 轮），期望满足：

\[P_{D'}(\texttt{end} \mid c) > P_{D'}(\texttt{end} \mid c')\]

实现： - 基础分布（如 LMSYS）：直接使用 LLaMA3.1-8B-Instruct + 短 prompt - 专用分布（如保险核保、代码调试）：训练 LoRA 适配器微调 LLaMA3.2-8B 完成模型 - 输入：\(\text{concat}(p_1, r_1, \dots, p_n)\) - 目标：\(r_n\) + end 标签 - 训练：AdamW 8-bit，lr = 0.0002，weight decay = 0.01，3 epochs，50% 数据 - 不完整对话：模型不输出 end，而是生成后续轮次 \(p_{n+1}, r_{n+1}, \dots\)，这些内容还能总结 LLM 未完成的剩余任务

指标 3：响应树（Response Uncertainty）¶

目标：量化 LLM 对特定 prompt 的回复不确定性，无需重复高温采样。

响应树定义：给定 prompt \(p\) 和阈值概率 \(\alpha\)，\(\text{rtree}_{D,\alpha}(p)\) 返回所有遍历概率 \(\ge \alpha\) 的分支树。

构建方法： 1. 生成一个回复及其 top-\(k\) logprobs 2. 若第 2 到第 \(k\) 个 token 的 logprob \(> \alpha\)，为其分别生成分支 3. 递归直到无 logprob 超过 \(\alpha\) 或达到计算阈值

不确定性量化： - 叶节点数：叶节点多 → 多个可能回复 → 高不确定性 → 更可能出错 - 最大 logprob：高 → LLM 对最优回复有信心 - 二者相比对话长度相关性低（\(r\) 在 -0.25 ~ 0.41），说明响应树捕获的是更复杂的不确定性信息

实验关键数据¶

数据集¶

数据集	规模	主题	目标驱动	工具使用
LMSYS-Chat-1M	1000	非结构化对话	✗	✗
Code-Feedback	1000	代码生成调试	✓	✗
Insurance	380	保险核保	✓	✓
WebShop	351	网购交互	✓	✓
SQL+OS+KB	1043	SQL/终端/知识库	✓	✓

完整性检测结果¶

数据集（评估器）	Accuracy	Precision	Recall	F1
LMSYS（70B judge）	0.43	0.77	0.25	0.38
LMSYS（8B completion）	0.74	0.79	0.85	0.82
Code-Feedback（70B judge）	0.53	0.53	0.46	0.49
Code-Feedback（FT 8B）	0.47	0.71	0.12	0.21
Insurance（70B judge）	0.95	1.0	0.91	0.95
Insurance（FT 8B）	0.91	0.94	0.87	0.91
WebShop（70B judge）	0.92	1.0	0.83	0.91
WebShop（FT 8B）	0.92	0.89	1.0	0.94
SQL+OS+KB（70B judge）	0.97	0.96	0.97	0.96
SQL+OS+KB（FT 8B）	0.98	0.99	0.98	0.99

关键发现： - 8B 微调模型在多数数据集上匹配或超越 70B LLM judge - end 标签是关键设计（Insurance 无 end tag 时 F1 从 0.91 降至 0.72） - Code-Feedback 难度最高（对话结构松散，随时可续）

响应树统计¶

指标	LMSYS	Code-Feedback	Insurance	WebShop	KB+OS+SQL
Max logprob vs 长度	-0.11	-0.19	-0.25	0.16	0.41
Max logprob vs 叶节点数	-0.49	-0.46	-0.10	-0.19	-0.06

KB+OS+SQL 不确定性最高（工具调用、SQL、终端交互偏离基础分布最大）
LMSYS 和 Code-Feedback 置信度最高（更接近预训练分布）

聚类稳定性¶

LMSYS、WebShop、SQL+OS+KB 跨运行产生高度稳定聚类
Code-Feedback 和 Insurance 稳定性稍低（可多维度标注：语言 vs 任务类型）
对比 GPT-4.1 纯 LLM 标注基线：LLM-only 方法在 WebShop 上退化为单一聚类"Online Shopping and Purchase"

亮点¶

三指标体系互补完整：目标识别（what）+ 完成检测（whether）+ 不确定性量化（how confident），覆盖评估核心维度
零标注零参考：真正的无监督，不依赖 ground truth 或 LLM judge
小模型大效果：8B 微调模型匹配/超越 70B judge，适合在线部署和实时监控
响应树创新：比 semantic entropy（需多次高温采样）更结构化、信息更丰富
分布适应性：通过 LoRA 微调适应不同领域的 token 分布

局限性 / 可改进方向¶

聚类算法依赖初始 \(k_1\) 设定，限制了可发现的最大聚类数
完整性检测对松散结构对话效果不佳（如 Code-Feedback，第一轮即可回答后续为追问）
未做多标签分类（一个对话可能涉及多个目标）
响应树缺乏 ground truth 验证（无法直接证明高不确定性 = 错误）
微调数据量有限（Insurance 仅 190 样本训练，性能波动较大）
仅在合成/公开数据上验证，未在真实企业系统中部署测试

与相关工作的对比¶

方法	需要标注	需要参考答案	需要 LLM judge	模型规模	支持多轮
ROUGE/BLEU	✗	✓	✗	—	✗
BERTScore	✗	✓	✗	~110M	✗
HelpSteer	✓	✗	✗	—	✓
G-EVAL	✗	✗	✓	>70B	✓
DeepEval	✗	✗	✓	>70B	✓
本文	✗	✗	✗	8B	✓

启发与关联¶

在线干预潜力：完整性检测可用于提前终止无效对话节省 token；不确定性量化可触发人工介入
响应树 + 采样策略：若知道 LLM 的采样策略，可通过响应树给出输出概率的统计保证
与 conformal prediction 互补：本文聚焦无监督场景，conformal 方法提供有监督保证，二者可结合
LoRA 微调作为分布适配器：通用范式——用小数据 LoRA 微调让 8B 模型适配特定领域的 token 分布

评分¶

新颖性: ⭐⭐⭐⭐ — 三个指标各有创新，LLM 引导聚类和响应树是新颖贡献
实验充分度: ⭐⭐⭐⭐ — 6 个数据集、多个消融，但响应树缺乏直接效果验证
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，形式化严谨，附录详尽
综合价值: ⭐⭐⭐⭐ — 填补了多轮目标驱动对话无监督评估的空白，实用性强