ECLM: Entity Level Language Model for Spoken Language Understanding with Chain of Intent¶

会议: ACL 2025
arXiv: 2403.04481
领域: LLM / Spoken Language Understanding
关键词: 多意图口语理解, 实体级槽填充, 意图链, 大语言模型, 对话系统

一句话总结¶

提出 ECLM 框架，将 LLM 应用于多意图口语理解：通过将 token 级槽填充转化为实体识别任务解决序列对齐问题，引入"意图链"（Chain of Intent）实现逐步多意图识别，在 MixATIS 和 MixSNIPS 上大幅超越 SOTA 基线。

口语理解（SLU）是任务型对话系统的核心组件，包含意图检测（分类）和槽填充（序列标注）两个子任务。现实场景中，用户常在一句话中表达多个意图（亚马逊内部数据集中 52% 是多意图样本），这使得多意图 SLU 成为重要挑战。

将 LLM 直接用于多意图 SLU 面临两个核心问题：

ECLM 框架包含三个核心组件：Entity Slots（实体槽位）构建/恢复机制、Chain of Intent（意图链）推理策略，以及基于 LLaMA 3.1-8B-Instruct 的监督微调。

1. Entity Slots 构建与恢复

核心思想：将传统 token 级 BIO 序列标注转化为实体级槽位检测问题。

训练阶段（Entity Slots Construction）：给定 token 序列 $T$ 和 BIO 标签序列 $S$，通过映射函数 $c(T,S)$ 提取实体-槽位对 $\{(k_i, \bigcup_{j \in I_i} t_j)\}$。例如将 {O, O, B-Weather, O, O, O, O, B-Location} 转化为 {Weather: 天气, Location: 目的地}
推理阶段（Entity Slots Recovery）：将 LLM 生成的实体槽位结构通过恢复函数 $r(T,E)$ 转换回 BIO 标签序列，实现与原始 token 的精确对齐

这一设计让 LLM 只需关注实体级的槽位识别，不必为每个 token 生成标签，有效规避了对齐和生成长度失控问题。

2. Chain of Intent（意图链）

受 Chain-of-Thought 启发，将多意图识别拆解为逐步过程：

给定包含 $n$ 个意图的话语 $U$，映射为： $$U \mapsto \{(I_1: U_1), (I_2: U_2), \ldots, (I_n: U_n)\}$$

每个意图 $I_i$ 与其对应的子话语 $U_i$ 配对。例如"查天气然后导航到办公室"会被分解为： - Intent 1 (Weather_Inquiry): "查天气" - Intent 2 (Navigation): "导航到办公室"

这种逐步分解让 LLM 能系统地处理多意图，而非试图一次性输出所有意图。

3. 监督微调

使用标准交叉熵损失在 LLaMA 3.1-8B-Instruct 上微调，学习率 $2 \times 10^{-5}$，batch size 32，仅训练 1 个 epoch。推理时使用温度 0.0 确保确定性输出。

在 MixATIS 和 MixSNIPS 两个多意图 SLU 数据集上：

模型	MixATIS Slot(F1)	MixATIS Overall(Acc)	MixSNIPS Slot(F1)	MixSNIPS Overall(Acc)
Uni-MIS (SOTA)	88.3	52.5	96.4	83.4
Vanilla SFT	68.2	47.7	88.9	65.3
ECLM	90.2	56.2	97.0	86.5

关键对比： - vs Uni-MIS：Overall Acc 提升 +3.7%（MixATIS）和 +3.1%（MixSNIPS） - vs Vanilla SFT：Overall Acc 提升 +8.5% 和 +21.2%，Slot F1 提升 +22% 和 +8.1%