Convert Language Model into a Value-based Strategic Planner¶

会议: ACL 2025
arXiv: 2505.06987
代码: https://github.com/suran662/StraQ
领域: LLM/NLP
关键词: emotional support conversation, Q-learning, strategic planning, reinforcement learning, dialogue

一句话总结¶

提出 straQ* 框架，将 LLM 转化为基于 Q-learning 的策略规划器，用平均 logit 作为 Q 值实现策略级 MDP，在情感支持对话中基于长期回报选择最优策略，超越直接推理、CoT 和微调等基线。

研究背景与动机¶

领域现状：情感支持对话（ESC）旨在缓解用户情绪困扰，LLM 在此方向取得进展。ESC 通常分三阶段：探索->安慰->行动。
现有痛点：现有 LLM 方法聚焦即时回复质量，缺乏长期策略规划，导致策略偏差和阶段转换不流畅。
核心矛盾：如何让 LLM 在对话中考虑长期回报而非短视地选择当前最优策略？
本文要解决什么？ 将 ESC 形式化为策略级 MDP，用价值 RL 方法学习最优策略选择。
切入角度：用 LLM 的平均 token logit 作为 Q 值，通过 Bellman 方程训练 Q 网络。
核心idea一句话：将 LLM 的 next-token prediction 转化为 next-strategy prediction，用 DQN 学习策略价值函数。

方法详解¶

整体框架¶

定义策略级 MDP（状态=对话历史+情绪，动作=支持策略，奖励=对话质量）-> 用 LLM 作为 Q 网络 -> Bellman 方程训练 -> 推理时选最大 Q 值策略 -> 另一个 LLM 根据策略生成回复。

关键设计¶

策略级 MDP
状态：对话历史 + 当前情绪 + 背景描述
动作：ESC 支持策略集合（如"提供建议""情感验证"等）
Q(s,a) = LLM 对策略 token 的平均 log probability
设计动机：策略级比 token 级 MDP 更适合对话规划
Q 值计算与训练
用 Bellman 方程的 TD loss 替代交叉熵损失训练
设计动机：平均 logit 自然表示 LLM 对策略的"信心"
两种奖励机制
Imitation reward：基于专家策略序列
Distillation reward：用强 LLM 评估策略合理性
设计动机：imitation 更适合自动指标，distillation 更适合人类评价和泛化

实验关键数据¶

主实验 -- ESConv 数据集¶

方法	策略准确率	回复质量	人类评分
Direct Inference	基线	基线	基线
CoT	+2%	+0.5	+0.3
SFT	+5%	+1.2	+0.5
straQ*	+8%	+1.8	+1.0

消融实验¶

配置	策略准确率	说明
straQ* (imitation)	最高自动指标	模仿专家策略
straQ* (distillation)	最高人类评分	更好泛化
w/o Q-learning	下降显著	证明 RL 的必要性

关键发现¶

straQ* 在策略规划和回复质量上全面超越基线
Bellman TD 损失可以在 LLM 上收敛：验证了用 logit 做 Q 值的可行性
两种奖励互补：imitation 擅长模式匹配，distillation 擅长泛化

亮点与洞察¶

将 Q-learning 优雅地嵌入 LLM 架构——不引入额外网络，直接用 LLM 的 logit 作为 Q 值
策略级 MDP比 token 级 RL 更适合对话系统——动作空间小且有明确语义

局限性 / 可改进方向¶

仅在 ESC 领域验证，其他对话场景未测试
Q 值用平均 logit 近似，理论保证不足
改进方向：多轮 Q 值迭代、模型感知的策略空间设计

评分¶

新颖性: ⭐⭐⭐⭐ LLM+Q-learning 的结合方式新颖
实验充分度: ⭐⭐⭐ ESC 数据集较小，仅 2 个数据集
写作质量: ⭐⭐⭐⭐ MDP 形式化清晰
价值: ⭐⭐⭐⭐ 对对话系统策略规划有启发