HARPO: Hierarchical Agentic Reasoning for User-Aligned Conversational Recommendation¶
会议: ACL 2026
arXiv: 2604.10048
代码: https://anonymous.4open.science/r/HARPO-D881
领域: 推荐系统
关键词: 对话推荐, Agent推理, 偏好优化, 树搜索, 推荐质量
一句话总结¶
提出 HARPO 框架,将对话推荐重新定义为以推荐质量为优化目标的结构化决策问题,通过层次化偏好学习、基于价值网络的树搜索推理、虚拟工具操作和多智能体精炼四大组件,在 ReDial、INSPIRED 和 MUSE 三个基准上显著超越现有方法。
研究背景与动机¶
领域现状:对话推荐系统(CRS)旨在通过自然语言交互帮助用户发现匹配偏好的物品。近年来,基于大语言模型的 CRS 方法在 Recall@K、BLEU 等代理指标上取得了强劲表现。
现有痛点:高代理指标分数并不意味着高质量的用户对齐推荐。现有方法主要优化检索准确率、生成流畅度或工具调用等中间目标,而非推荐质量本身。例如"something casual for a summer wedding"可能被误解为日常休闲装而非场合适宜的婚礼服装,此类回复在自动指标上得分高但用户满意度低。
核心矛盾:CRS 训练和评估目标(代理指标)与实际推荐质量之间存在根本性不对齐。代理指标只与用户对齐推荐质量弱相关。
本文目标:将对话推荐建模为显式优化推荐质量的结构化决策问题,而非将推荐质量视为响应生成的副产品。
切入角度:作者从决策推理视角出发,认为系统应该显式推理多个候选推荐策略、评估其预期质量,并基于用户对齐标准(而非代理信号)选择推荐。
核心 idea:通过分层偏好学习将推荐质量分解为可解释维度(相关性、多样性、满意度、参与度),用学习的价值网络引导树搜索推理探索候选推荐路径。
方法详解¶
整体框架¶
HARPO 由四个组件组成:STAR(结构化树搜索推理)、CHARM(对比层次化奖励对齐)、BRIDGE(跨域迁移)和 MAVEN(多智能体精炼),共享一个预训练语言模型骨干。输入为对话上下文,输出为包含推荐的响应,优化目标为推荐质量 \(\mathcal{Q}\) 而非代理指标。
关键设计¶
-
STAR: 结构化思维树推理:
- 功能:通过树搜索显式探索多个候选推荐策略,选择质量最高的路径
- 核心思路:每个推理节点表示为 \(s=(\mathbf{h}, \tau, \mathbf{v}, d)\),包含对话上下文编码、当前思考、预测的虚拟工具操作和搜索深度。价值网络将质量分解为四个维度(相关性、多样性、满意度、参与度),各维度由专用头预测并通过可学习权重加权。在每个节点生成 \(b\) 个候选下一步,用束搜索选择最优路径。
- 设计动机:与直接生成推荐不同,树搜索允许系统在生成最终回复前探索、比较和精炼推荐决策
-
CHARM: 对比层次化奖励对齐:
- 功能:将推荐质量分解为可解释维度并学习上下文相关的维度权重
- 核心思路:每个质量维度由专用奖励头建模 \(R_k(\mathbf{h}) = \tanh(\mathbf{W}_k^{(2)} \cdot \text{GELU}(\mathbf{W}_k^{(1)} \cdot \mathbf{h}))\),输出限制在 \([-1,1]\)。通过元学习方式学习上下文依赖权重 \(\mathbf{w} = \text{softmax}(\mathbf{W}_{\text{meta}} \cdot [\text{Enc}(\mathbf{h}); \mathbf{e}_d] + \mathbf{b})\)。使用基于边际的偏好优化损失训练。
- 设计动机:不同对话上下文和领域下各质量维度的重要性不同,自适应加权避免了单一标量奖励的信息丢失
-
BRIDGE: 跨域迁移与 VTO 抽象:
- 功能:通过虚拟工具操作(VTO)和对抗域适应实现跨领域推荐推理迁移
- 核心思路:使用梯度反转层进行对抗域适应学习域不变表示,同时引入可学习域门控 \(\mathbf{z}' = \sigma(\mathbf{g}_d) \odot \mathbf{z} + (1-\sigma(\mathbf{g}_d)) \odot \mathbf{h}\) 保留有用的域特定信号。VTO 将高层推理操作与具体工具解耦,运行时动态映射。
- 设计动机:现有工具增强方法紧耦合于特定领域的工具实现,限制了可迁移性
损失函数¶
总损失包含偏好优化损失 \(\mathcal{L}_{\text{pref}}\)、域适应损失 \(\mathcal{L}_{\text{domain}}\)、任务保持损失 \(\mathcal{L}_{\text{task}}\) 和智能体一致性损失 \(\mathcal{L}_{\text{agree}}\)。
实验关键数据¶
主实验¶
在 ReDial 数据集上的推荐性能:
| 方法 | R@1 | R@10 | R@50 | MRR@10 | User Sat. | Engage. |
|---|---|---|---|---|---|---|
| KBRD | 2.9 | 16.7 | 36.2 | 7.4 | 0.42 | 0.38 |
| UniCRS | 3.8 | 18.1 | 37.4 | 8.4 | 0.45 | 0.41 |
| GPT-4 | — | — | — | — | — | — |
| HARPO | 最优 | 最优 | 最优 | 最优 | 最优 | 最优 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Full HARPO | 最优 | 完整模型 |
| w/o STAR | 下降显著 | 去掉树搜索推理 |
| w/o CHARM | 下降明显 | 去掉层次化偏好优化 |
| w/o BRIDGE | 跨域下降 | 去掉域迁移模块 |
| w/o MAVEN | 轻微下降 | 去掉多智能体精炼 |
关键发现¶
- HARPO 相比最强基线(GPT-4)平均提升 17-21%,在用户对齐指标上提升更大
- 在 INSPIRED 数据集上提升最大(R@10 比 GPT-4 高 45.7%),因为社交对话需要推理隐式偏好
- 人工评估确认推荐质量、解释质量和整体评分均显著优于 GPT-4(+0.55, +0.50, +0.55)
- CHARM 奖励模型与独立人工评判的 Pearson 相关系数达 0.64-0.73
亮点与洞察¶
- 指出代理指标与推荐质量的不对齐是 CRS 领域的根本问题,这一洞察具有范式转换意义
- VTO 抽象将推理逻辑与具体工具解耦,类似软件工程中的接口设计,是可迁移推理的优雅方案
- 多维质量分解+上下文自适应加权避免了单一奖励信号的信息压缩问题
局限与展望¶
- CHARM 奖励模型本身可能存在偏差,虽然与人工评判相关但并非完美替代
- 树搜索推理增加了推理时计算开销,实际部署时需考虑延迟
- 实验数据集规模有限(ReDial 1万对话),大规模验证不足
- 未来可探索将质量维度扩展到更细粒度的用户偏好建模
相关工作与启发¶
- vs UniCRS: UniCRS 统一推荐和生成但仍优化代理指标,HARPO 直接优化推荐质量
- vs RecMind: RecMind 使用自激励推理但缺乏质量引导的搜索,HARPO 的价值网络提供质量导向
- vs GPT-4: 即使是强大的通用模型,在代理指标上表现好但用户对齐指标上不如专门优化的 HARPO
评分¶
- 新颖性: ⭐⭐⭐⭐ 将对话推荐重新定义为质量优化的决策问题,思路新颖
- 实验充分度: ⭐⭐⭐⭐ 三个数据集、人工评估、消融实验齐全
- 写作质量: ⭐⭐⭐⭐ 问题分析深入,框架设计逻辑清晰
- 价值: ⭐⭐⭐⭐ 对 CRS 领域有重要方法论启示
相关论文¶
- [ACL 2026] Where and What: Reasoning Dynamic and Implicit Preferences in Situated Conversational Recommendation
- [ICML 2025] MATCHA: Toward Safe and Human-Aligned Game Conversational Recommendation via Multi-Agent Decomposition
- [ACL 2026] Learning to Retrieve User History and Generate User Profiles for Personalized Persuasiveness Prediction
- [ACL 2026] HORIZON: A Benchmark for in-the-wild User Behaviour Modeling
- [ACL 2026] IceBreaker for Conversational Agents: Breaking the First-Message Barrier with Personalized Starters