Adaptive Elicitation of Latent Information Using Natural Language¶
会议: ICML 2025
arXiv: 2504.04204
代码: namkoong-lab/adaptive-elicitation
领域: 推荐系统 / 信息获取
关键词: 自适应信息获取, 不确定性量化, 元学习, LLM微调, 主动学习, 预测视角
一句话总结¶
提出一种基于 LLM 的自适应信息获取框架,通过元学习预测模型对未来观测进行自回归前向模拟,量化并区分认知不确定性与偶然不确定性,自适应选择最具信息量的自然语言问题来高效减少对潜变量实体的认知不确定性。
研究背景与动机¶
许多关键应用场景需要高效地从潜变量实体(latent entity)中获取信息:为学生制定个性化教学计划需先评估其技能水平,患者就诊时需快速评估健康状况,在线服务需尽快了解新用户偏好。这些场景中,目标实体 \(U\)(如学生能力、健康状态、用户偏好)是不可直接观测的,只能通过间接提问-回答对来推断。
现有方法的局限¶
传统贝叶斯方法(Thompson Sampling、BOED 等)需要对潜变量空间显式建模(如高斯分布、伯努利分布),难以处理自然语言等高维复杂空间
现有 LLM 虽然具备强大的世界知识,但缺乏策略性信息获取能力——它们被动地处理不确定性,无法主动选择最优问题来减少对新个体的认知不确定性
贝叶斯优化方法在维度 \(\leq 20\) 时效果较好,但自然语言 embedding 维度通常数千级别,远超其适用范围
静态问卷/测试无法根据已获得的信息动态调整后续提问策略,导致信息获取效率低
核心洞察¶
作者提出一个关键概念转换:不直接对潜变量 \(U\) 建模,而是采用"预测视角"(predictive view)——将不确定性量化为对未来观测答案 \(Y_{t+1:\infty}\) 的预测不确定性。如果观测到无穷多数据,所有认知不确定性都会消失,剩余的仅是偶然不确定性。这种视角让我们可以直接在自然语言空间中训练自回归模型,避免了显式建模潜变量分布的困难。
方法详解¶
整体框架¶
框架分为三个阶段:
- 元训练:在历史问答数据上训练预测型语言模型 \(p_\theta\)
- 不确定性量化:利用 \(p_\theta\) 通过自回归前向模拟量化对未来答案的不确定性
- 自适应问题选择:基于期望信息增益(EIG)贪心或 MCTS 策略选择最优问题
问题形式化¶
设不可观测的潜变量实体为 \(U \in \mathcal{U}\)(如学生技能画像),通过提问 \(X \in \mathcal{X}\) 获得答案 \(Y \sim Q(\cdot | X, U)\)。目标是:(1) 量化基于已有问答对的对 \(U\) 的不确定性;(2) 自适应选择后续问题 \(X\) 以最大化信息增益。
关键设计¶
1. 预测视角的不确定性量化¶
不同于传统方法对 \(U\) 直接建模(如指定概率分布),本文采用缺失数据视角:
- 认知不确定性 = 可以通过更多数据减少的不确定性 = 对未观测答案 \(Y_{t+1:\infty}\) 的条件熵
- 偶然不确定性 = 数据本身的随机性,无法通过更多观测减少
这种方法直接在可观测空间 \((X, Y)\) 中工作,完全不需要对潜变量 \(U\) 进行显式建模。
2. 元学习自回归预测模型¶
数据组织:每个实体 \(U\) 对应一组问答序列 \((X_1^{(U)}, Y_1^{(U)}, X_2^{(U)}, Y_2^{(U)}, \ldots)\),将其拼接为长字符串输入 LLM。
训练目标:最大化联合对数似然
这等价于最小化 \(p_\theta\) 与真实分布 \(Q\) 之间的 KL 散度。
训练技巧: - 随机置换:训练时随机打乱每个实体内问答对的顺序,确保模型学到的 \(p_\theta\) 对顺序不敏感 - 梯度遮罩:仅在答案 token 上计算 loss,遮罩掉问题文本的 token - 基于 LoRA 微调:初始化自 Llama-3.1-8B,LoRA 参数 \(\alpha=24, r=8, \text{dropout}=0.1\)
3. 自适应问题选择¶
期望信息增益(EIG):对每个候选问题 \(x_{t+1}\),通过前向模拟计算其减少目标 \(Z\) 不确定性的程度:
其中 \(Y_{t+1}\) 由元学习模型 \(p_\theta\) 模拟生成。
两种选择策略:
| 策略 | 机制 | 复杂度 | 优势 |
|---|---|---|---|
| 贪心选择 | 逐步选择最大化单步 EIG 的问题 | \(O(K)\),\(K\) 为候选项数 | 简单高效,理论保证损失 ≤ \(\frac{1}{e}\) |
| MCTS 规划 | 用 Monte Carlo Tree Search 模拟多步未来 | \(O(K \cdot N \cdot d)\) | 捕获多步效应,发现罕见特征 |
训练策略¶
- 模型:Llama-3.1-8B (FP16) + LoRA
- 优化器:AdamW, lr=1e-4, \(\beta=(0.9, 0.95)\), weight decay=0.1
- 学习率调度:线性 warmup + 余弦退火
- 训练轮数:10,000 epochs, batch size=4, block size=1024
- 模型选择:取验证集 loss 最低的 checkpoint
- 数据划分:按实体 70/15/15 划分训练/验证/测试集
理论保证¶
命题 2.1(模拟器保真度): 基于模拟器 \(p_\theta\) 选出的最优查询集 \(\mathcal{X}^*\) 在真实分布 \(q\) 下的性能下界由 \(\chi^2(q \| p_\theta)\) 散度控制——模拟器越接近真实分布,性能保证越强。
命题 2.2(贪心近似比): 若 \(p_\theta\) 产生的熵满足子模性(submodularity),贪心策略与最优组合策略之差至多为最大信息增益的 \(\frac{1}{e}\) 倍。
实验关键数据¶
三大评估场景¶
| 场景 | 数据集 | 潜变量 \(U\) | 问题 \(X\) | 答案 \(Y\) | 规模 |
|---|---|---|---|---|---|
| 20 问游戏 | Twenty Questions (新) | 隐藏物体 (800种) | 是/否问题 | Yes/No/Maybe | 800×1200 |
| 动态民调 | OpinionQA | 政治偏好 | 选择题 | 多选 | 1498 题 |
| 学生评估 | EEDI | 数学能力 | 选择题 | 四选一 | 938 题 |
主要实验结果(10,000 次试验平均)¶
| 方法 | 20 Questions Acc | OpinionQA Acc | EEDI Acc |
|---|---|---|---|
| Base LLM (随机选问) | 最低 | 最低 | 最低 |
| ICT + 嵌入相似度选问 | 中等 | 中等 | 中等 |
| 本文 (贪心 EIG) | 最高 | 最高 | 最高 |
在所有 3 个数据集上,本文方法随着提问数量增加,预测精度持续提升;而 ICT 基线用嵌入相似度选问时,更多问题并不总能帮助改善预测。
自适应性对罕见特征的增益(Figure 5)¶
| 问题子集 | EIG vs 随机 (相对增益) | MCTS vs 随机 (相对增益) |
|---|---|---|
| 全部问题 | 基线增益 | 高于 EIG |
| 中等难度 (<50% 群体答对) | ~5× 以上增益 | 更高 |
| 困难问题 (<30% 群体答对) | >10× 增益 (EEDI, 20Q) | 最大增益 |
关键发现:自适应策略对罕见/非典型特征的识别增益最大——当潜变量实体表现出种群中不常见的行为时(如学生在大多数人都掌握的知识点上犯错),自适应方法的优势可达随机方法的 10 倍以上。
训练消融(Figure 6, Twenty Questions)¶
| 底层模型 | 规划增益比 (全部) | 规划增益比 (困难) |
|---|---|---|
| Base LLM | <1.0(规划反而有害) | ~0.85(降低 15%) |
| ICT | ≈1.0(无明显变化) | ≈1.0 |
| 本文元训练 | >1.0(显著提升) | 最大提升 |
说明:未经正确元训练的模型,即使配合 EIG 规划也无法获益,甚至可能受损。元训练是信息获取能力的关键前提。
模型规模消融¶
| 基座模型 | 参数量 | 性能趋势 |
|---|---|---|
| GPT-2 | ~124M | 最低 |
| Llama-3.2-1B | 1B | 中等 |
| Llama-3.1-8B | 8B | 最高 |
更大的基座模型 → 更好的元训练效果 → 更准确的不确定性估计。
亮点与洞察¶
- 概念突破——预测视角:将潜变量建模问题转化为缺失数据预测问题,彻底绕开了对抽象潜变量空间建模的难题,同时能直接利用 LLM 的自回归特性和预训练知识
- 即插即用:框架可直接应用于任何预训练 LLM 之上,利用互联网规模的语言知识来理解不确定性
- 实验设计精巧:Figure 5 的分层分析(全部/中等/困难)清晰揭示了自适应策略对罕见特征的巨大增益,这在实际应用(个性化推荐、精准诊断)中极具价值
- 扎实的理论支撑:两个命题分别保证了模拟器保真度和贪心近似比,为框架提供了理论基础
- 新数据集贡献:构建并开源了 Twenty Questions 数据集(800 物体 × 1200 问题),填补了自适应查询基准测试的空白
局限与展望¶
- 问题空间封闭:当前框架从固定的候选问题池中选择,无法生成新问题。在真实场景中(如开放式诊断),系统应能动态生成最优问题
- 序列独立性假设:训练时随机打乱问答对顺序,假设答案与提问顺序无关。在实际对话场景中,前后文依赖很重要(如学生受前一题影响)
- 计算开销:MCTS 规划需要对每个候选问题模拟多条未来路径,在大候选集和长规划深度下计算代价较高
- 元训练数据依赖:框架假设有丰富的历史问答轨迹数据,在新领域或冷启动场景下可能受限
- 评估偏向分类设定:三个实验场景的答案都是离散选择(是/否、多选),尚未验证在开放式自然语言回答场景中的效果
- 模拟器失真风险:Proposition 2.1 表明性能与 \(\chi^2(q \| p_\theta)\) 相关,若测试分布偏移严重,模拟器指导的策略可能失效
相关工作与启发¶
- UoT (Hu et al., 2024) 和 OPEN (Handa et al., 2024):也在 LLM 上构建信息获取流程,但直接使用现成 LLM 而非元训练,本文证明了未经元训练的模型在规划下甚至可能降低性能
- 计算机自适应测试 (CAT):经典方法如 IRT、DINA 使用简单参数模型捕捉学生潜力,本文方法用 LLM 直接建模复杂自然语言答案,大幅扩展了适用范围
- Decision Transformer 相关工作:用序列模型做强化学习决策,本文将这一思路扩展到不确定性量化和信息获取
- 启发:该框架的核心思想——"预测未来观测代替建模潜变量"——可以推广到推荐系统中的主动用户画像构建:不去显式建模用户兴趣向量,而是预测用户对未来商品的反应,选择最能揭示偏好的交互
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 创新性 | ⭐⭐⭐⭐⭐ | 预测视角替代潜变量建模,概念优雅且影响深远 |
| 理论深度 | ⭐⭐⭐⭐ | 两个命题提供保真度和近似比保证,但并非极深 |
| 实验充分性 | ⭐⭐⭐⭐⭐ | 3 个多样化场景 + 丰富消融 + 10K 次试验 |
| 实用性 | ⭐⭐⭐⭐ | 框架通用,但需要大量历史数据和计算资源 |
| 写作质量 | ⭐⭐⭐⭐⭐ | 动机清晰,叙事流畅,图表精美 |
| 综合 | ⭐⭐⭐⭐⭐ | ICML 2025 高质量论文,开创性地将 LLM 引入自适应信息获取 |
相关论文¶
- [ICML 2025] SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning
- [AAAI 2026] Wavelet Enhanced Adaptive Frequency Filter for Sequential Recommendation
- [ACL 2025] KERL: Knowledge-Enhanced Personalized Recipe Recommendation using Large Language Models
- [ACL 2025] Laser: Bi-Tuning with Collaborative Information for Controllable LLM-Based Sequential Recommendation
- [NeurIPS 2025] Inference-Time Reward Hacking in Large Language Models